腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
缺少
一些
html
表格
标记
的
漂亮
汤
、
我正在尝试从一个网站中提取数据,使用
漂亮
的
汤
来解析
html
。我目前正在尝试从以下网页获取
表格
数据: soup = BeautifulSoup(fh, '
html
.parser你知道它是从哪里来
的
吗? 谢谢
浏览 22
提问于2016-09-12
得票数 0
1
回答
如何使用
漂亮
汤
读取
html
标记
、
我试图使用
漂亮
的
some来读取
html
标签,并检查
一些
标签是可用
的
还是
缺少
的
。 with open("index.
html
") as frd: name.
html
= frd.read()name.soup = BeautifulSoup(name.
ht
浏览 2
提问于2014-03-01
得票数 0
回答已采纳
2
回答
使用BeautifulSoup操作javascript代码
、
、
、
我有
html
代码嵌入与java脚本代码相关
的
角度js。后来我意识到
html
代码
的
行和列需要相互转换。由于我有一堆
html
文件,所以决定使用Python脚本。我可以进行行和列
的
互换,但在写回磁盘时,注意到
缺少
一些
java脚本
标记
。谢谢
浏览 4
提问于2015-07-06
得票数 0
1
回答
使用
漂亮
汤
的
html
文档
缺少
标记
、
、
我是从IMDB
的
网络抓取,我试图获得一个节目的一个插曲
的
年龄评级。当检查网站时,。但是,当我使用
漂亮
的
汤
并打印
html
文档时。(注意,我知道屏幕截图中
的
值是不一样
的
,但问题是证书丢失了,文档中
的
所有项都是一样
的
)import requests url =user_rating,desc&start=1&ref_=adv_nxt&
浏览 2
提问于2022-02-27
得票数 0
1
回答
如何在python中将网页
表格
数据转换为json对象或dict
、
、
、
、
我正在尝试从包含表
的
网页中获取数据,然后将表中
的
值与其他表值进行比较。我可以在python中将网页转换为json数据或字典吗?例如,我有url www.yahoo.com,如何将
html
数据转换为json?我试过了我得到
html
输出。如果我尝试json.loads(data),我得到错误raise ValueError("No JSON object could be decoded&quo
浏览 1
提问于2016-01-22
得票数 1
1
回答
基于DIV
的
HTML
重命名
、
虽然我研究了前面的问题(),但根据我
的
HTML
文件中
的
div
的
H1,重新命名文件夹x中
的
所有
HTML
仍然不清楚。我用bs4做了一个解决方案,但是它没有循环到我所有的
html
中:from bs4 import BeautifulSoupfor filename in os.listdir
浏览 2
提问于2020-01-30
得票数 0
回答已采纳
1
回答
从解析
的
网页中提取Python文本
、
、
、
、
我正在开发一个从网页中提取内容
的
小系统(我知道已经完成了,但这是一个很好
的
练习,也是我需要
的
)。基本上,我正在寻找提取内容-内容,即,如果它是一篇文章,我只想要文章文本,而不是其他。我才刚刚开始,就当我是一张愚蠢
的
白板吧。我感兴趣
的
是你是如何做
的
,用什么做
的
,特别是python,但我对任何我发现相当有启发性,更符合我正在尝试做
的
事情,所以我很欣赏‘这类事情’
的
解决方案、讨论和库建议。
浏览 2
提问于2012-08-31
得票数 2
回答已采纳
1
回答
BeautifulSoup误解了<area>标签
、
我使用
漂亮
汤
从烟草文档中提取元数据,如:meta_data = soup.document.metadata<area>GEE,ED/OFFICE; N408</area> 一个空
的
区域
标记
<area></are
浏览 2
提问于2014-07-29
得票数 1
回答已采纳
1
回答
如何在python中抓取弹出窗口
、
刚刚接触python和
漂亮
的
汤
,这里我有下面的
html
,我需要抓取
表格
中
的
href链接以及td
标记
中
的
所有文本。"#lstDocTable tbody tr td:nth-child(0) a")在表中
的
所有
浏览 4
提问于2018-06-15
得票数 2
1
回答
pyqt -防止对图像和javascript文件
的
请求
、
、
我正在通过以下操作将
一些
html
加载到pyqt中: view.setHtml(
html
) 如果
html
有带有"src“指向远程资源
的
脚本或img
标记
,则将请求这些
标记
。我可以使用
漂亮
的
汤
来删除
html
中
的
标签,但是有内置
的
pyqt方法吗?
浏览 1
提问于2014-06-07
得票数 1
回答已采纳
1
回答
python
漂亮
汤
:用字符串中
的
url替换链接
、
在包含
HTML
的
字符串中,我想用纯href值替换几个链接:a = "<a href='www.google.com'>foo</a> sometext <a href='www.bing.com'>bar</a> some <br> text' soup = BeautifulSoup(
html
, "
html
.pa
浏览 1
提问于2019-09-03
得票数 0
回答已采纳
1
回答
有没有可能用
漂亮
的
汤
刮出一个“动态网页”?
、
、
、
我现在开始用
漂亮
的
汤
来抓取网站,我想我已经掌握了基本
的
知识,虽然我缺乏网页
的
理论知识,但我会尽我最大
的
努力来表达我
的
问题。我所说
的
动态网页是这样
的
:一个网站,它
的
HTML
会根据用户
的
动作而改变,在我
的
例子中,它是可折叠
的
表格
。我想获得
一些
"div“标签中
的
数据,但是当你加载页面时,数
浏览 1
提问于2016-11-22
得票数 4
2
回答
BeautifulSoup等待JavaScript/角内容
、
、
、
、
我试着用python从特定
的
url获取所有的图像。有没有办法让
汤
等到所有的脚本都写完?或者还有其他
的
方法来检测所有的img标签?到目前为止我
的
代码是: import u
浏览 3
提问于2017-01-13
得票数 3
2
回答
使用Selenium -“NOT”下载excel文件
的
Web抓取站点
、
、
、
我只想刮
一些
金属
的
数据,并将它们附加到一个excel文件中,但是,在这个网站上,数据实际上并不在网页上。当我单击href时,它将直接下载数据作为excel文件。从href获取
的
数据源是被禁止
的
。_trackEvent('market_list‘、'download’、'異形棒鋼_直送_SD295_19ミリ');"> 我可以下载多个excel文件,然后对它们进行操作,但是这完全违背了web抓取
的
概念任何帮助/指导都是非常感谢
的</em
浏览 5
提问于2021-12-15
得票数 -2
1
回答
从
标记
中提取惟一
的
类名
、
、
、
我正在把(对我来说)相当大
的
数据刮成一个
漂亮
的
汤
对象。典型
的
抓取结果是600页或更多
的
html
标记
,有许多嵌套
的
表。我试图更好地理解结构,以便有效地将数据从表中提取出来。这些
汤
对象中有多达500个表,其中有许多“重复”表类。以下是两个例子。<table class="TableClass1">在我
浏览 0
提问于2020-01-10
得票数 0
回答已采纳
2
回答
如何使用美
汤
查找带有特定文本
的
p
标记
下
的
表
、
我刚开始接触
漂亮
的
汤
,我正在尝试在某个p
标记
下查找
一些
表,其中包含文本"subclass“<p><b>subclass</b></p>我只想抓取带有文本->子类
的
p
标记
下
的
表。不幸
的
是,这些p
标记
没有类。
浏览 0
提问于2015-04-20
得票数 0
1
回答
用id网络抓取python <span>
、
、
、
、
我想要在<span/>属性中使用BeautifulSoup为给定
的
网站报废数据。你可以在屏幕截图中看到它所在
的
位置。但是,我使用
的
代码只是返回一个空列表。我找不到我想要
的
名单上
的
数据。我做错了什么?opener.addheaders = [('User-agent', 'Mozilla/5.0')] soup = BeautifulSoup(data, '<em
浏览 2
提问于2018-02-22
得票数 0
回答已采纳
1
回答
Pandas和
HTML
标记
、
、
、
我正试着把这张上
的
桌子拉下来。当我使用pd.read_
html
加载URL时,我如期得到了一系列数据帧,但问题是
表格
单元格中
的
HTML
标记
已经消失了。有没有什么方法可以使用pandas来拆分
表格
并保留
表格
单元格中
的
HTML
?import pandas as pd df = pd.read_
html
('http://geppopotamus.info/game&
浏览 4
提问于2018-12-08
得票数 1
1
回答
为什么
漂亮
汤
找不到我要找
的
html
元素?
、
我正试图从coinbase中获取加密货币价格
的
变化,方法是用
漂亮
的
汤
进行解析。在coinbase网站()上,我可以找到价格变化
的
html
元素。TextElement__Spacer-hxkcw5-0 caIgfs Header__StyledHeader-sc-1xiyexz-0 dLILyj">+0.33%</h4> 然后,在python中,我通过查看h4
标记
来使用
漂亮
的
汤
来查
浏览 1
提问于2020-06-14
得票数 2
回答已采纳
2
回答
lxml源行返回None
、
、
需要获取xml
的
行号,同时使用
漂亮
汤和lxml解析它。 xml
缺少
根
标记
,因此不能直接使用XML元素tree/lxml。所以用
漂亮
的
汤
刮掉它。需要在嵌套字典中保留xml
的
文件名、行号、xml标签及其值。无法获取行号,同时尝试使用
漂亮
的
汤
/lxml抓取它。print(linenum)返回None,但需要返回xml文件中
的
行号。有什么想法吗?
浏览 60
提问于2019-06-25
得票数 0
点击加载更多
相关
资讯
总是无法做出漂亮的Excel表格?也许你缺少的是这些美化技巧
HTML复习之全部
1.初识HTML&CSS
Web前端零基础入门须知!
如何使用HTML标记语言编程一个文字表格出来
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券