解析HTML发现数据的妙方和python

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我想用漂亮的汤来提取this page上的关键信息。特别是，我希望在.booking-list中使用.booking-item/s。期望的结果是： [{"FERRY TYPE": "Traghetto", "DEPARTURE TIME":"06:40", "DEPARTURE DATE": "25/02/2019","DEPARTURE

浏览 11提问于2019-02-24得票数 0

回答已采纳

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

、、、、

真的需要这个社区的帮助！html=browser.execute_script('return document.body.innerHTML') sel_soup=BeautifulSoup(html, 'html.parser'

浏览 15提问于2018-02-14得票数 2

1回答

在BeautifulSoup 4中将标签内容提取为文本(相当于QUOTE_TAGS)

、、

HTML3有一个很好的特性，那就是它不会试图将<textarea>标签的内容解释为BeautifulSoup --它会将其引用为文本。通过修改QUOTE_TAGS属性，可以将此行为应用于其他标记。下面的展示了它是如何有用的。在BeautifulSoup 4中，没有QUOTE_TAGS属性，我认为如果不自己创建html.parser子类，就无法获得相同的功能。我是不是遗漏了什么？您将如何使用BS4解决上面链接的问题？

浏览 1提问于2013-05-01得票数 1

2回答

网页上动画地图的好工具

、、、

我想在网页内的地图上展示区域。该区域应可点击，并在盘旋时突出显示。我使用django，所以我倾向于使用matplotlib和其他python工具。网上有一些有趣的项目：问题是，我不知道在哪里获得有关控制和区域的GeaJson数据。有没有人建议不要在复杂的应用程序中过多地使用tim。谢谢

浏览 10提问于2010-12-31得票数 3

回答已采纳

2回答

在模板中显示模型的功能

我正在尝试将数据功能集成到现有系统中，我基本上是Django的新手。我对这两个函数有点困惑。SchoolStudentMixin,template_name = 'dashboard/grades.html'paginate_by = Nonehtml {% if some_func

浏览 0提问于2018-03-27得票数 0

1回答

我的Jsonobject会返回null吗？

、、

我正在与一个我似乎无法理解的问题作斗争。我叫它的方式有问题吗？编辑：好的--看起来我刚刚算出来了。该对象出现为null的原因是Json没有包含所有必需<

浏览 0提问于2012-02-05得票数 0

1回答

在c#上一次得到Facebook页面的喜欢

、、

我想得到所有粉丝的基本数据，谁喜欢我的Facebook页面。我有一个请求到这个网址()，我得到了100名粉丝在一次随机的反应。我需要所有的球迷一次或其他100个独特的成员，但不是随机的。有没有机会一次得到所有53k的球迷。我们能不能用Graph来解决这个问题。请帮帮我。谢了尼尔。

浏览 2提问于2013-08-23得票数 0

回答已采纳

1回答

从网站中指定的div区域复制文本

、、

这是链接： (你应该从下拉列表中选择'all‘来查看完整的课程列表) 此链接包含我的学校的课程代码和课程名称。我正在做一个学校项目(网站)，在这个网站上，其他学生应该能够选择他们的课程。问题是，有太多的课程，我不能用手打字。所以，我在想某种脚本，它将从网站上获取必要的信息并保存到一个文本文件中，从那里我可以编写一个脚本来将课程复制到我的数据库中。我检查了源代码，我看到课程代码写在一个p标记中，它的类名为&q

浏览 0提问于2015-05-19得票数 0

4回答

在Python中解析格式错误的html时，lxml和libxml2中的哪一个更好？

、、、

对于格式错误的html，哪一个更好、更有用？谢谢。

浏览 0提问于2012-02-17得票数 8

回答已采纳

1回答

我应该在Python中使用哪个Microdata解析器？

、、

我正在寻找一个高质量的HTML微数据解析器的Python。它不需要太快，但我希望它能支持尽可能多的，包括itemref。你用过这些图书馆吗？我还对解析格式不佳的HTML文档感到好奇。您是否找到了一个处理杂乱输入的微数据解析器，或者您是否首先通过类似于的东西来

浏览 3提问于2013-04-02得票数 6

回答已采纳

1回答

对于web抓取和xml解析，这是最好的学习库。

、、、、

对于相同的工作，我被多个库弄混了。我想学习一个库，它将同时处理xml和html解析。Do元素树与html解析兼容。我听说了lxml，xml.elementtree，漂亮汤，迷你，刮刮。有人能帮我吗。

浏览 4提问于2020-02-03得票数 0

回答已采纳

2回答

通过python获取浏览器对象？

、

我已经准备好写一个程序来分析网页中的一些静态数据，然而，我发现很难通过python访问浏览器对象，如window对象。可以像javascript一样使用python来获取浏览器对象吗？有什么想法吗？谢谢

浏览 1提问于2011-05-30得票数 1

3回答

如何解析不严格的HTML文档？

、

我今天还有一个问题据我所见，这类分析器是在web浏览器中构建的。我的意思是，应该有一个解析器能够很好地处理输入文档，允许在xhtml和xml中出现以下任何无效情况：没有引号的属性：<span class=hi

浏览 0提问于2009-09-24得票数 1

回答已采纳

1回答

Javascript / jQuery post问题

、、、

我编写了一个基于POST请求返回数据的API。print "Content-Type: text/json" print

浏览 2提问于2014-03-26得票数 0

回答已采纳

1回答

从网页中提取主题/关键字

、、

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

7回答

用Python 3和示例解析HTML的最佳库？

我对Python完全陌生，并且在Windows上使用Python3.1 (pywin)。我需要解析一些HTML，本质上是特定HTML标记之间的额外值，并且对我的选项数组感到困惑，我发现的所有东西都适合Python2.x。我读过关于Beautiful、HTML5Lib和lxml的文章，但是我不知道如何在Windows上安装它们。您推荐什么HTM

浏览 13提问于2010-03-24得票数 26

回答已采纳

2回答

HTML解析最佳Python模块

、、

我有一个网站更新程序(人们可以更新内容(文本)，而不是网站的外观)，它有HTML，javascript作为前端语言，python作为后端/服务器端。我发现从前端更新HTML非常困难，因为当我从ele.innerHTML或$(Ele)获取更新的HTML时，.html()会根据浏览器(该死的IE)进行修改。因此，我决定从后端更新，即用Python更新。您认为解析HTML<e

浏览 8提问于2011-10-04得票数 5

回答已采纳

1回答

将数据流读取到托管对象上下文中？

、、

我看到了一种将用户数据从一个iOS应用升级到另一个沙箱的巧妙方法；目标应用注册为一个特殊的URL处理程序，而原始应用base64 64-编码整个文件并将其作为明文字符串发送到专门的URL，目标应用对其进行解码并保存到文件系统是否有可能对源的托管对象上下文进行编码&发送它&让目标解析到它的托管对象上下文中？也就是说，不是重写目的地数据，而是合并传入的数据？这个问题的答

浏览 0提问于2012-02-19得票数 0

回答已采纳

3回答

从xml中提取HTML

、、

我想从xml文件中提取html页面。有什么想法吗？ <first> </second> <html>.....some html code here </xhtml> 我想提

浏览 1提问于2013-04-15得票数 0

1回答

使用Python以编程方式将DOCX转换为HTML

、

我已经在Python中实现了HTML to DOCX，在那里我使用BeautifulSoup解析了HTML。我递归地遍历了每个HTML标签，然后使用Python-Docx库创建了Docx文档。现在我想做相反的事情，将Docx转换为HTML字符串。我读到了有关使用Python Docx库()读取现有文档的内容。但是，我找不到一种方法来遍历每个文档对象并将它们转换为HTML字符串。有没有办法可以做这样<

浏览 3提问于2019-09-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云