腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
BeautifulSoup
中
,
使用
过滤器
进行
lxml
解析
的
正确
方式
是什么
?
、
、
、
我
使用
的
是Beautiful Soup 4和Python 3.8。我只想
解析
HTML页面
中
的
某些元素,所以我决定
使用
一个
过滤器
,如下所示... req = urllib2.Request(full_url, headers=settings.HDR)soup =
BeautifulSoup
(html, features="
lxml
", pars
浏览 23
提问于2020-10-05
得票数 0
回答已采纳
1
回答
'
BeautifulSoup
‘和'
lxml
’之间有什么关系?
、
、
、
在
“
lxml
's ”
中
,它写道:
lxml
可以通过
BeautifulSoup
模块与
lxml
.html.soupparser
的
解析
功能
进行
接口。它提供了三个主要功能: file ()和parse()用于
使用
BeautifulSoup
将字符串或文件
解析
为
lxml
.html文档;convert_tree()将现有的
BeautifulSoup
浏览 2
提问于2015-08-25
得票数 3
回答已采纳
1
回答
BeautifulSoup
在
EC2机器上
的
行为不同
、
、
、
、
tags = trends_tag.find_all('td', 'change chg')print 'Tag: ' + tag.text>pip freeze
beautifulsoup
4==4.3.2cssselect==0.9.1
lxml
==4.3.2 看起来
浏览 9
提问于2014-09-23
得票数 1
回答已采纳
1
回答
BeautifulSoup
:如何忽略虚假
的
结束标记
、
、
、
我读过很多关于
BeautifulSoup
的
好东西,这就是为什么我现在正试图用它来刮一组格式错误
的
HTML
的
网站。不幸
的
是,
BeautifulSoup
的
一个特性就是目前
的
展示障碍: 当
BeautifulSoup
遇到一个从未打开
的
结束标记(
在
我
的
例子
中
是</p>)时,它决定结束文档。而且,
在
本例
中
,find方法
浏览 1
提问于2015-12-19
得票数 7
回答已采纳
1
回答
漂亮
的
Soup
过滤器
功能找不到表
的
所有行
、
、
、
我正在尝试
使用
4库
解析
一个大型html文档。. 100s of <tr> tags later</table> 我有一个函数来评估soup.descendants
中
给定
的
标记是否是我所要寻找
的
类型这是必要
的
,因为页面很大(
BeautifulSoup
告诉我文档包含大约4000个标签)。时,该函数只返回表
中
前77行
的
Tr
浏览 2
提问于2015-03-17
得票数 1
回答已采纳
3
回答
为什么只读取网页
中
的
前两行html表?
、
、
、
我试图从网页上
的
html表
中
抓取数据。我尝试了几种基于这里发布
的
答案
的
不同方法,但总是有一个问题:结果大致与我所期望
的
一样,但只适用于表
的
前两行。我对html和漂亮
的
汤几乎没有经验,但是从url
中
的
表
的
html文件
中
,我看不到前两行和表
的
其余部分之间有什么区别。有人能帮我找出我做错了什么吗?import numpyimport urllib
浏览 5
提问于2020-12-14
得票数 0
回答已采纳
3
回答
使用
提取html页面时出现
的
“‘charmap”编解码错误
、
当我试图
使用
下面的代码加载任何页面时,它只是抓取标记<"head">而不是整个html等等。import requestssoup=
BeautifulSoup
(page.content, '
lxml
-xml')但是
浏览 1
提问于2017-05-15
得票数 1
回答已采纳
2
回答
Python3.6
BeautifulSoup
不工作
、
、
、
、
我
的
密码如下所示;plain_text = source_code.text或html = r.content我在编写“
BeautifulSoup
=任何东西”时都犯了错误,如下
浏览 0
提问于2017-03-20
得票数 0
回答已采纳
1
回答
使用
BeautifulSoup
解析
网页上
的
表格
、
、
、
页面保存到本地驱动器,我
使用
BeautifulSoup
对其
进行
解析
:soup.prettify() print list_0[<tr><td>Zhongmin Baihui</td>
浏览 15
提问于2019-10-30
得票数 1
回答已采纳
2
回答
如何删除
lxml
.html
中
不重要
的
空白?
、
、
我很惊讶
在
默认情况下,
lxml
.html
在
解析
HTML时留下了无关紧要
的
空白。我也感到惊讶
的
是,我找不到任何明显
的
方式
使它不这样做。><p>Hello World</p></body></html>>
浏览 0
提问于2013-08-29
得票数 5
回答已采纳
2
回答
当网络抓取时,我们把"html.parser“
的
论点放在哪里?
、
、
、
请看下面的代码片段from bs4 import
BeautifulSoup
html = requests.get(url, "html.parser")html2 = requests.get(url)哪种
浏览 2
提问于2020-08-11
得票数 1
回答已采纳
4
回答
在
Python
中
解析
格式错误
的
html时,
lxml
和libxml2
中
的
哪一个更好?
、
、
、
对于格式错误
的
html,哪一个更好、更有用?谢谢。
浏览 0
提问于2012-02-17
得票数 8
回答已采纳
1
回答
Python/
lxml
:如何捕获HTML表
中
的
行?
、
、
、
对于我
的
股票筛选工具,我必须在脚本
中
从
BeautifulSoup
切换到
lxml
。
在
我
的
Python脚本下载了我需要处理
的
网页之后,
BeautifulSoup
能够
正确
地
解析
它们,但是过程太慢了。
解析
一只股票
的
资产负债表、损益表和现金流量表只需要
BeautifulSoup
大约10秒,考虑到我
的
脚本有5000多只股票要分析,这是不可接受
的</e
浏览 0
提问于2012-11-29
得票数 0
1
回答
BeautifulSoup
截断表
、
、
、
但是,我
的
脚本只获得表
的
前504个元素。整个表格有2 136个元素。这个脚本演示了这个问题:from urllib2 import urlopen soup =
BeautifulSoup
(urlopen(url)) 从表<
浏览 1
提问于2015-04-24
得票数 0
回答已采纳
1
回答
是否要使BeatifulSoup 4
正确
识别html 4未标记
的
自结束标记?
、
当有一个输入标签没有标记为自封闭
的
时候(我认为这在HTML 4
中
是有效
的
),漂亮
的
汤4就不能
正确
识别它了。例如:>>> s.find('input') <input type
浏览 6
提问于2015-07-03
得票数 2
回答已采纳
3
回答
如何消除
BeautifulSoup
用户警告?
、
安装
BeautifulSoup
后,每当我
在
命令行
中
运行Python时,就会发出以下警告:
BeautifulSoup
([your
浏览 4
提问于2015-11-04
得票数 67
回答已采纳
2
回答
Python 3 web抓取选项
、
我是Python
的
新手,所以很抱歉这是一个新手问题。我想知道这个论坛上有没有人有
使用
python3
进行
网络抓取
的
好选择。谢谢,威尔
浏览 1
提问于2011-08-11
得票数 5
6
回答
在
python -
lxml
或
BeautifulSoup
中
解析
超文本标记语言?对于哪种用途来说,哪一种更好?
、
、
、
据我所知,Python
中
两个主要
的
超文本标记语言
解析
库是
lxml
和
BeautifulSoup
。我为我正在从事
的
一个项目选择了
BeautifulSoup
,但除了发现它
的
语法更容易学习和理解之外,我选择它并没有什么特别的原因。但是我看到很多人似乎更喜欢
lxml
,而且我听说
lxml
更快。所以我想知道一个比另一个
的
优点
是什么
?我什么时候想要
使用
lxml
,
浏览 0
提问于2009-12-17
得票数 57
回答已采纳
3
回答
在
子线程
中
创建
BeautifulSoup
对象将打印编码错误
、
、
、
、
我写了一个示例代码:from bs4 import
BeautifulSoup
def test():r = requests.get('http://zhuanlan.sina.com.cn/') print('runencoding error : input conversion
浏览 0
提问于2018-03-26
得票数 1
1
回答
选择什么HTML
解析
器,为什么
BeautifulSoup
不能工作?
、
、
我需要
解析
一个带有windows-1251字符集
的
HTML页面(它是俄文)。 问题是它是web应用程序,我不得不
使用
Python2.4,而没有任何机会在服务器上安装模块。我唯一想做
的
就是让管理员安装
lxml
模块,但是它不是以
正确
的
方式
在
2.4上构建
的
,并且试图导入
lxml
.html失败了。现在,我试图
在
BeautifulSoup
和 html5lib 模块之间<em
浏览 12
提问于2010-06-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
给 iOS 开发者的 python 学习日记十五
送上一碗鸡汤——BeautifulSoup网页解析
享学课堂浅谈Python3中BeautifulSoup的使用方法
Python爬虫真的很简单,爬取一个网页可以用四种方法实现
Python爬虫-1.3 BS4库的解析器
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券