我在使用漂亮汤解析html数据时遇到了问题。

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试从以下链接下载匹配列表：https://www.vitisport.cz/index.php?rows = table.find('td').find_all('tr')from bs4 import Beaut

浏览 16提问于2021-06-23得票数 0

回答已采纳

1回答

阅读html格式的outlook邮件

、、、

我在Microsoft Outlook中收到一封包含html表的邮件。我想把它解析成一个熊猫数据帧。找到消息后，我使用以下代码将其读入到文本文件中。但是它将文本写成/n分隔的字符串，而不是

浏览 0提问于2016-10-11得票数 3

4回答

美丽的汤没有从网站上收集到一些数据

、、、、

我一直试图使用的漂亮汤来收集一些数据。但是，当我解析内容时，有些数据根本没有显示出来。这些数据字段在铬检查器中可见，但在“汤”中看不到。问题是，它们似乎不是文本元素。我认为它们是使用外部数据库提供的。我已经附上了下面的截图。还有其他方法可以刮掉这些数据吗？谷歌检查员：

浏览 8提问于2021-02-12得票数 2

回答已采纳

1回答

Python html解析。我可以准备好了吗？

、、、

我对蟒蛇很陌生。我可以打个电话来获取ready状态下的html内容吗？我需要解析一些只有在ready状态下才能查看的html站点。有什么变体可以这样做吗？谢谢，为我的英语道歉。这是我的代码：from lxml.html import tostringimport re letters = list(

浏览 5提问于2016-11-22得票数 1

回答已采纳

1回答

美丽汤-如何从汤转换回html

、、

我正在使用漂亮的汤转换，解析和编辑一个html。这很好，但是，当使用formatter=“html”将汤对象转换回html时，它增加了许多不在原来html中的空格和换行符。我能做些什么来保持原始格式？谢谢

浏览 4提问于2022-08-24得票数 0

1回答

刮破的汤和漂亮的汤有什么区别？

我读过刮痕是一个网络爬行工具和美丽的汤是一个图书馆的刮痕。但我的朋友说，这两者是不同的，我们可以完成相同的任务，在美丽的汤，这是通过刮擦。我朋友的观点是真的吗？我也怀疑美丽的汤是刮刮的一部分，还是另一种？请告诉我

浏览 1提问于2015-02-25得票数 2

回答已采纳

1回答

如何在特定的google搜索python上获取所有urls

、、

因此，我试图创建一个程序，获取谷歌网页搜索中的所有urls，并按其在页面上的位置顺序返回所有urls的列表。这是因为它是你在google上随机搜索源代码时的第一个链接。我使用urllib3和re模块，因为我并不真正知道如何使用漂亮的汤或lxml，但是如果您可以在漂亮的汤和/或lxml中这样做，那也可以。:我的问题是使()函数工作正常，<

浏览 4提问于2018-03-08得票数 1

2回答

我想从搜索引擎获得图像，运行一些自动化测试，而不需要在线和手动挑选它们。我发现了一个5年前的老例子(ajax.googleapis.com/ajax/services/search/images)，不幸的是它不再起作用了。在Python3中执行此操作的当前方法是什么？理想情况下，我希望能够传递一个字符串与搜索名称，并检索设置数量的图像，在完整的大小。我真的不介意使用哪个搜索引擎；我只想确定它目前是否被支持。另外

浏览 8提问于2018-08-17得票数 1

1回答

用Python语言解析带有gb2312正文的utf-8编码网页

、、、、

我正在尝试使用Python漂亮的soup解析器解析网页，但遇到了一个问题。我们从他们那里得到的HTML头声明了一个utf-8字符集，因此Beautiful Soup以utf-8对整个文档进行了编码，实际上HTML标签也是以UTF-8编码的，所以我们得到了一个结构良好的HTML问题是，这个愚蠢的网站将gb2312编码的正文文本注入到页面中，页面被漂亮的汤</

浏览 2提问于2012-08-02得票数 0

回答已采纳

2回答

如何将从Chrome复制的css选择器路径转换为漂亮的路径？

、、、

我一直在尝试做一个函数，当从Chrome开发工具复制的css选择器路径被给定时，它会返回漂亮的汤对象。当我从Chrome复制一个元素的css选择器路径时，它是这样的： body > table > tbody > tr:nth-child(2) > td.ColumnText2 如果我想让它成为一个合法漂亮的汤类对象，我会手动解析它，如下所示 html = urlopen("http

浏览 20提问于2019-09-27得票数 2

回答已采纳

1回答

将lxml与漂亮的汤一起使用

、、

我很难让lxml与漂亮的汤一起工作。在osx 10.8.4上运行。为了安装lxml，我确实移植安装了py25-lxml，它安装得很好。现在，当我尝试将lxml与Beautiful Soup一起使用时，我得到了这个错误： File "********.py", line不确定这是否是问题的一部分，但我无法导入lxml.etree 还有没有人在o

浏览 1提问于2013-06-22得票数 2

3回答

BeautifulSoup在解析后返回空格的文本

、、、、

我正在刮本地html文档。然而，当我用漂亮的汤解析它时，它会以难看的格式(如下图所示)返回不可解析的html格式。path = 'alerts/myfile.htm'parser = BeautifulSoup(file,'html.parser'

浏览 0提问于2019-02-28得票数 3

回答已采纳

1回答

pickle.dump与RuntimeError相遇: cmp中超过最大递归深度

、、

我注意到它可能是由漂亮的汤或递归数据结构引起的。然而，导致错误的数据结构似乎没有问题：def __init__(self, name="", dscore=0, mscore=0, durl="", murl=""):/ ' + unicode(self.mscore) \ + u' / ' + unicode(self.durl) +

浏览 0提问于2014-03-25得票数 4

2回答

BeautifulSoup找不到标签

、

我试图从网站中抓取数据，但是find()方法找不到tag.Below是我的代码：from bs4 import BeautifulSoup x=soup.find("div",attrs={'id':'content-two'})然后，我发现

浏览 7提问于2013-09-22得票数 3

1回答

如何防止网页崩溃BeautifulSoup？

、、、、

在Python3.2.3上，运行在KubuntuLinux12.10上的请求为0.12.1和BeautifulSoup 4.1.0，我在解析时出现了一些网页中断： responseresponse);请注意，数百个其他网页解析良好这个正在崩溃的Python页面是什么，我如何处理

浏览 4提问于2013-06-16得票数 1

回答已采纳

1回答

网络抓取-使用BeautifulSoup

、、、

我刚接触漂亮的汤，在篮球参考中使用它也有困难。我正在尝试将高级统计数据的整个数据帧存储到pandas数据帧中，但我甚至无法选择它。到目前为止，我的代码如下：from bs4 import BeautifulSoup import pandas as pdurl='http://www.basketball-refer

浏览 0提问于2016-01-14得票数 0

1回答

Pandas和HTML标记

、、、

我正试着把这张上的桌子拉下来。当我使用pd.read_html加载URL时，我如期得到了一系列数据帧，但问题是表格单元格中的HTML标记已经消失了。有没有什么方法可以使用pandas来拆分表格并保留表格单元格中的HTML？import pandas as pd df = pd.read_html('http://geppopotamus.info&#

浏览 4提问于2018-12-08得票数 1

1回答

用id网络抓取python <span>

、、、、

我想要在<span/>属性中使用BeautifulSoup为给定的网站报废数据。你可以在屏幕截图中看到它所在的位置。但是，我使用的代码只是返回一个空列表。我找不到我想要的名单上的数据。我做错了什么？opener.addheaders = [('User-agent', 'Mozilla/5.0')]

浏览 2提问于2018-02-22得票数 0

回答已采纳

1回答

从站点获取空标记

、、

我使用漂亮的汤来解析来自站点的数据。我有问题，在标签中有一个文本在网站上，但我得到一个空标签(没有数据)。我的代码：import lxml get_data= s.get('https://naturasiberic

浏览 1提问于2022-10-17得票数 1

回答已采纳

1回答

我需要实现一个网络刮板，以编译从https://diatoms.org/species的图像数据库

、、、

对于一个研究项目，我正在尝试实现一个脚本，它将通过这个网站，并保存来自每个物种的图像集，文件保存为"genus_species_index.jpeg“。我也一直在看美丽的汤教程。主要的问题是通过脚本访问每个物种页面已经被证明是相当困难的。

浏览 9提问于2019-11-26得票数 0

点击加载更多