在BeautifulSoup中，使用过滤器进行lxml解析的正确方式是什么？

、、、

我使用的是Beautiful Soup 4和Python 3.8。我只想解析HTML页面中的某些元素，所以我决定使用一个过滤器，如下所示... req = urllib2.Request(full_url, headers=settings.HDR)soup = BeautifulSoup(html, features="lxml", pars

浏览 23提问于2020-10-05得票数 0

回答已采纳

1回答

'BeautifulSoup‘和'lxml’之间有什么关系？

、、、

在“lxml's ”中，它写道： lxml可以通过BeautifulSoup模块与lxml.html.soupparser的解析功能进行接口。它提供了三个主要功能: file ()和parse()用于使用BeautifulSoup将字符串或文件解析为lxml.html文档；convert_tree()将现有的BeautifulSoup

浏览 2提问于2015-08-25得票数 3

回答已采纳

1回答

BeautifulSoup在EC2机器上的行为不同

、、、、

tags = trends_tag.find_all('td', 'change chg')print 'Tag: ' + tag.text>pip freezebeautifulsoup4==4.3.2cssselect==0.9.1lxml==4.3.2 看起来

浏览 9提问于2014-09-23得票数 1

回答已采纳

1回答

BeautifulSoup:如何忽略虚假的结束标记

、、、

我读过很多关于BeautifulSoup的好东西，这就是为什么我现在正试图用它来刮一组格式错误的HTML的网站。不幸的是，BeautifulSoup的一个特性就是目前的展示障碍：当BeautifulSoup遇到一个从未打开的结束标记(在我的例子中是</p>)时，它决定结束文档。而且，在本例中，find方法

浏览 1提问于2015-12-19得票数 7

回答已采纳

1回答

漂亮的Soup过滤器功能找不到表的所有行

、、、

我正在尝试使用4库解析一个大型html文档。. 100s of <tr> tags later</table> 我有一个函数来评估soup.descendants中给定的标记是否是我所要寻找的类型这是必要的，因为页面很大(BeautifulSoup告诉我文档包含大约4000个标签)。时，该函数只返回表中前77行的Tr

浏览 2提问于2015-03-17得票数 1

回答已采纳

3回答

为什么只读取网页中的前两行html表？

、、、

我试图从网页上的html表中抓取数据。我尝试了几种基于这里发布的答案的不同方法，但总是有一个问题:结果大致与我所期望的一样，但只适用于表的前两行。我对html和漂亮的汤几乎没有经验，但是从url中的表的html文件中，我看不到前两行和表的其余部分之间有什么区别。有人能帮我找出我做错了什么吗？import numpyimport urllib

浏览 5提问于2020-12-14得票数 0

回答已采纳

3回答

使用提取html页面时出现的“‘charmap”编解码错误

、

当我试图使用下面的代码加载任何页面时，它只是抓取标记<"head">而不是整个html等等。import requestssoup= BeautifulSoup(page.content, 'lxml-xml')但是

浏览 1提问于2017-05-15得票数 1

回答已采纳

2回答

Python3.6 BeautifulSoup不工作

、、、、

我的密码如下所示；plain_text = source_code.text或html = r.content我在编写“BeautifulSoup=任何东西”时都犯了错误，如下

浏览 0提问于2017-03-20得票数 0

回答已采纳

1回答

使用BeautifulSoup解析网页上的表格

、、、

页面保存到本地驱动器，我使用BeautifulSoup对其进行解析：soup.prettify() print list_0[<tr><td>Zhongmin Baihui</td>

浏览 15提问于2019-10-30得票数 1

回答已采纳

2回答

如何删除lxml.html中不重要的空白？

、、

我很惊讶在默认情况下，lxml.html在解析HTML时留下了无关紧要的空白。我也感到惊讶的是，我找不到任何明显的方式使它不这样做。><p>Hello World</p></body></html>>

浏览 0提问于2013-08-29得票数 5

回答已采纳

2回答

当网络抓取时，我们把"html.parser“的论点放在哪里？

、、、

请看下面的代码片段from bs4 import BeautifulSouphtml = requests.get(url, "html.parser")html2 = requests.get(url)哪种

浏览 2提问于2020-08-11得票数 1

回答已采纳

4回答

在Python中解析格式错误的html时，lxml和libxml2中的哪一个更好？

、、、

对于格式错误的html，哪一个更好、更有用？谢谢。

浏览 0提问于2012-02-17得票数 8

回答已采纳

1回答

Python/lxml:如何捕获HTML表中的行？

、、、

对于我的股票筛选工具，我必须在脚本中从BeautifulSoup切换到lxml。在我的Python脚本下载了我需要处理的网页之后，BeautifulSoup能够正确地解析它们，但是过程太慢了。解析一只股票的资产负债表、损益表和现金流量表只需要BeautifulSoup大约10秒，考虑到我的脚本有5000多只股票要分析，这是不可接受的</e

浏览 0提问于2012-11-29得票数 0

1回答

BeautifulSoup截断表

、、、

但是，我的脚本只获得表的前504个元素。整个表格有2 136个元素。这个脚本演示了这个问题：from urllib2 import urlopen soup = BeautifulSoup(urlopen(url)) 从表<

浏览 1提问于2015-04-24得票数 0

回答已采纳

1回答

是否要使BeatifulSoup 4正确识别html 4未标记的自结束标记？

、

当有一个输入标签没有标记为自封闭的时候(我认为这在HTML 4中是有效的)，漂亮的汤4就不能正确识别它了。例如：>>> s.find('input') <input type

浏览 6提问于2015-07-03得票数 2

回答已采纳

3回答

如何消除BeautifulSoup用户警告？

、

安装BeautifulSoup后，每当我在命令行中运行Python时，就会发出以下警告： BeautifulSoup([your

浏览 4提问于2015-11-04得票数 67

回答已采纳

2回答

Python 3 web抓取选项

、

我是Python的新手，所以很抱歉这是一个新手问题。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

6回答

在python - lxml或BeautifulSoup中解析超文本标记语言？对于哪种用途来说，哪一种更好？

、、、

据我所知，Python中两个主要的超文本标记语言解析库是lxml和BeautifulSoup。我为我正在从事的一个项目选择了BeautifulSoup，但除了发现它的语法更容易学习和理解之外，我选择它并没有什么特别的原因。但是我看到很多人似乎更喜欢lxml，而且我听说lxml更快。所以我想知道一个比另一个的优点是什么？我什么时候想要使用lxml，

浏览 0提问于2009-12-17得票数 57

回答已采纳

3回答

在子线程中创建BeautifulSoup对象将打印编码错误

、、、、

我写了一个示例代码：from bs4 import BeautifulSoupdef test():r = requests.get('http://zhuanlan.sina.com.cn/') print('runencoding error : input conversion

浏览 0提问于2018-03-26得票数 1

1回答

选择什么HTML解析器，为什么BeautifulSoup不能工作？

、、

我需要解析一个带有windows-1251字符集的HTML页面(它是俄文)。问题是它是web应用程序，我不得不使用Python2.4，而没有任何机会在服务器上安装模块。我唯一想做的就是让管理员安装lxml模块，但是它不是以正确的方式在2.4上构建的，并且试图导入lxml.html失败了。现在，我试图在BeautifulSoup和 html5lib 模块之间<em

浏览 12提问于2010-06-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

'BeautifulSoup‘和'lxml’之间有什么关系？

BeautifulSoup在EC2机器上的行为不同

BeautifulSoup:如何忽略虚假的结束标记

漂亮的Soup过滤器功能找不到表的所有行

为什么只读取网页中的前两行html表？

使用提取html页面时出现的“‘charmap”编解码错误

Python3.6 BeautifulSoup不工作

使用BeautifulSoup解析网页上的表格

如何删除lxml.html中不重要的空白？

当网络抓取时，我们把"html.parser“的论点放在哪里？

在Python中解析格式错误的html时，lxml和libxml2中的哪一个更好？

Python/lxml:如何捕获HTML表中的行？

BeautifulSoup截断表

是否要使BeatifulSoup 4正确识别html 4未标记的自结束标记？

如何消除BeautifulSoup用户警告？

Python 3 web抓取选项

在python - lxml或BeautifulSoup中解析超文本标记语言？对于哪种用途来说，哪一种更好？

在子线程中创建BeautifulSoup对象将打印编码错误

选择什么HTML解析器，为什么BeautifulSoup不能工作？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐