缺少一些html表格标记的漂亮汤

文章/答案/技术大牛

发布

1回答

、

我正在尝试从一个网站中提取数据，使用漂亮的汤来解析html。我目前正在尝试从以下网页获取表格数据： soup = BeautifulSoup(fh, 'html.parser你知道它是从哪里来的吗？谢谢

浏览 22提问于2016-09-12得票数 0

1回答

如何使用漂亮汤读取html标记

、

我试图使用漂亮的some来读取html标签，并检查一些标签是可用的还是缺少的。 with open("index.html") as frd: name.html = frd.read()name.soup = BeautifulSoup(name.ht

浏览 2提问于2014-03-01得票数 0

回答已采纳

2回答

使用BeautifulSoup操作javascript代码

、、、

我有html代码嵌入与java脚本代码相关的角度js。后来我意识到html代码的行和列需要相互转换。由于我有一堆html文件，所以决定使用Python脚本。我可以进行行和列的互换，但在写回磁盘时，注意到缺少一些java脚本标记。谢谢

浏览 4提问于2015-07-06得票数 0

1回答

使用漂亮汤的html文档缺少标记

、、

我是从IMDB的网络抓取，我试图获得一个节目的一个插曲的年龄评级。当检查网站时，。但是，当我使用漂亮的汤并打印html文档时。(注意，我知道屏幕截图中的值是不一样的，但问题是证书丢失了，文档中的所有项都是一样的)import requests url =user_rating,desc&start=1&ref_=adv_nxt&

浏览 2提问于2022-02-27得票数 0

1回答

如何在python中将网页表格数据转换为json对象或dict

、、、、

我正在尝试从包含表的网页中获取数据，然后将表中的值与其他表值进行比较。我可以在python中将网页转换为json数据或字典吗？例如，我有url www.yahoo.com，如何将html数据转换为json？我试过了我得到html输出。如果我尝试json.loads(data)，我得到错误raise ValueError("No JSON object could be decoded&quo

浏览 1提问于2016-01-22得票数 1

1回答

基于DIV的HTML重命名

、

虽然我研究了前面的问题()，但根据我的HTML文件中的div的H1，重新命名文件夹x中的所有HTML仍然不清楚。我用bs4做了一个解决方案，但是它没有循环到我所有的html中：from bs4 import BeautifulSoupfor filename in os.listdir

浏览 2提问于2020-01-30得票数 0

回答已采纳

1回答

从解析的网页中提取Python文本

、、、、

我正在开发一个从网页中提取内容的小系统(我知道已经完成了，但这是一个很好的练习，也是我需要的)。基本上，我正在寻找提取内容-内容，即，如果它是一篇文章，我只想要文章文本，而不是其他。我才刚刚开始，就当我是一张愚蠢的白板吧。我感兴趣的是你是如何做的，用什么做的，特别是python，但我对任何我发现相当有启发性，更符合我正在尝试做的事情，所以我很欣赏‘这类事情’的解决方案、讨论和库建议。

浏览 2提问于2012-08-31得票数 2

回答已采纳

1回答

BeautifulSoup误解了<area>标签

、

我使用漂亮汤从烟草文档中提取元数据，如：meta_data = soup.document.metadata<area>GEE,ED/OFFICE; N408</area> 一个空的区域标记<area></are

浏览 2提问于2014-07-29得票数 1

回答已采纳

1回答

如何在python中抓取弹出窗口

、

刚刚接触python和漂亮的汤，这里我有下面的html，我需要抓取表格中的href链接以及td标记中的所有文本。"#lstDocTable tbody tr td:nth-child(0) a")在表中的所有

浏览 4提问于2018-06-15得票数 2

1回答

pyqt -防止对图像和javascript文件的请求

、、

我正在通过以下操作将一些html加载到pyqt中： view.setHtml(html) 如果html有带有"src“指向远程资源的脚本或img标记，则将请求这些标记。我可以使用漂亮的汤来删除html中的标签，但是有内置的pyqt方法吗？

浏览 1提问于2014-06-07得票数 1

回答已采纳

1回答

python漂亮汤:用字符串中的url替换链接

、

在包含HTML的字符串中，我想用纯href值替换几个链接：a = "<a href='www.google.com'>foo</a> sometext <a href='www.bing.com'>bar</a> some <br> text' soup = BeautifulSoup(html, "html.pa

浏览 1提问于2019-09-03得票数 0

回答已采纳

1回答

有没有可能用漂亮的汤刮出一个“动态网页”？

、、、

我现在开始用漂亮的汤来抓取网站，我想我已经掌握了基本的知识，虽然我缺乏网页的理论知识，但我会尽我最大的努力来表达我的问题。我所说的动态网页是这样的:一个网站，它的HTML会根据用户的动作而改变，在我的例子中，它是可折叠的表格。我想获得一些"div“标签中的数据，但是当你加载页面时，数

浏览 1提问于2016-11-22得票数 4

2回答

BeautifulSoup等待JavaScript/角内容

、、、、

我试着用python从特定的url获取所有的图像。有没有办法让汤等到所有的脚本都写完？或者还有其他的方法来检测所有的img标签？到目前为止我的代码是： import u

浏览 3提问于2017-01-13得票数 3

2回答

使用Selenium -“NOT”下载excel文件的Web抓取站点

、、、

我只想刮一些金属的数据，并将它们附加到一个excel文件中，但是，在这个网站上，数据实际上并不在网页上。当我单击href时，它将直接下载数据作为excel文件。从href获取的数据源是被禁止的。_trackEvent('market_list‘、'download’、'異形棒鋼_直送_SD295_19ミリ');"> 我可以下载多个excel文件，然后对它们进行操作，但是这完全违背了web抓取的概念任何帮助/指导都是非常感谢的</em

浏览 5提问于2021-12-15得票数 -2

1回答

从标记中提取惟一的类名

、、、

我正在把(对我来说)相当大的数据刮成一个漂亮的汤对象。典型的抓取结果是600页或更多的html标记，有许多嵌套的表。我试图更好地理解结构，以便有效地将数据从表中提取出来。这些汤对象中有多达500个表，其中有许多“重复”表类。以下是两个例子。<table class="TableClass1">在我

浏览 0提问于2020-01-10得票数 0

回答已采纳

2回答

如何使用美汤查找带有特定文本的p标记下的表

、

我刚开始接触漂亮的汤，我正在尝试在某个p标记下查找一些表，其中包含文本"subclass“<p><b>subclass</b></p>我只想抓取带有文本->子类的p标记下的表。不幸的是，这些p标记没有类。

浏览 0提问于2015-04-20得票数 0

1回答

用id网络抓取python <span>

、、、、

我想要在<span/>属性中使用BeautifulSoup为给定的网站报废数据。你可以在屏幕截图中看到它所在的位置。但是，我使用的代码只是返回一个空列表。我找不到我想要的名单上的数据。我做错了什么？opener.addheaders = [('User-agent', 'Mozilla/5.0')] soup = BeautifulSoup(data, '<em

浏览 2提问于2018-02-22得票数 0

回答已采纳

1回答

Pandas和HTML标记

、、、

我正试着把这张上的桌子拉下来。当我使用pd.read_html加载URL时，我如期得到了一系列数据帧，但问题是表格单元格中的HTML标记已经消失了。有没有什么方法可以使用pandas来拆分表格并保留表格单元格中的HTML？import pandas as pd df = pd.read_html('http://geppopotamus.info/game&

浏览 4提问于2018-12-08得票数 1

1回答

为什么漂亮汤找不到我要找的html元素？

、

我正试图从coinbase中获取加密货币价格的变化，方法是用漂亮的汤进行解析。在coinbase网站()上，我可以找到价格变化的html元素。TextElement__Spacer-hxkcw5-0 caIgfs Header__StyledHeader-sc-1xiyexz-0 dLILyj">+0.33%</h4> 然后，在python中，我通过查看h4标记来使用漂亮的汤来查

浏览 1提问于2020-06-14得票数 2

回答已采纳

2回答

lxml源行返回None

、、

需要获取xml的行号，同时使用漂亮汤和lxml解析它。 xml缺少根标记，因此不能直接使用XML元素tree/lxml。所以用漂亮的汤刮掉它。需要在嵌套字典中保留xml的文件名、行号、xml标签及其值。无法获取行号，同时尝试使用漂亮的汤/lxml抓取它。print(linenum)返回None，但需要返回xml文件中的行号。有什么想法吗？

浏览 60提问于2019-06-25得票数 0

点击加载更多