从soup对象中提取包含所需字符串的行

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、

我有soup。我想提取包含这三个必需信息的所有行。soup = BeautifulSoup(html,features="lxml") print (data3) 它打印[] print (soup)如下所示。

浏览 51提问于2021-05-08得票数 2

回答已采纳

1回答

当“数据-附加-csv”中每一行的数据来自网站时，从网站检索表

、、

我试图从网站上删除以下使用“美丽汤”的数据：其中包含了所有篮球运动员的数据表。当我检查html源元素时。在每个表行('tr')中，玩家数据似乎包含在‘data -append’中。这是播放器表的一个tr的快照。data-row="0"

浏览 3提问于2016-10-30得票数 0

回答已采纳

3回答

从HTML脚本元素内部提取对象键的值

、、、

--window.agency = < %- JSON.stringify({}) % >--></div> 我想要的输出是4243456。我如何使用lxml的美丽汤提取它呢？

浏览 5提问于2017-12-15得票数 2

回答已采纳

1回答

BeautifulSoup对象内容到字符串

、、

我正在努力从网页中提取表格和表格标题元素。已提取表元素，没有任何问题。但是，我不能将h2类提取到单独的字符串中。我可以导入所有漂亮的汤对象，也可以导入包含所有h2元素的长字符串。如何将元素作为单独的字符串对象提取到表或列表中？spirit-unlimited-battle-at-the- b

浏览 7提问于2022-01-31得票数 0

回答已采纳

1回答

雅虎财务中使用Python的分析选项卡

、、

我正在尝试从Yahoo "Analysis“选项卡中提取”未来5年(每年)“股票BABA的价值：。(从底部到第二排是2.85% )。首先进口包装：from urllib.request import urlopen as uReqtype(data)我可以使用正则表达式以某种方式<em

浏览 2提问于2020-06-08得票数 1

3回答

Python爬行表元素

、

我试图从这个网页()中提取与表(Team )对应的所有元素。我想从“团队”中提取所有的数字-(这一行:17132.17-0.51 1.66 1.66 104.7 96.5 .300 .319 .493 10.9 20.5 .228 .501 11.6 79.6html')tables = bsObja.find_all("table") 尝试了上面的代码，希望我能得到所有表的</e

浏览 2提问于2016-12-26得票数 1

回答已采纳

1回答

如何有效地从docx/xml中删除表并提取文本

、、、

删除表后，我在从.docx中提取文本时遇到了问题。我正在处理的docx文件包含很多表，在提取文本之前，我希望将这些表处理掉。我首先使用docx2html将docx文件转换为html，然后使用BeautifulSoup删除表标记并提取文本。BeautifulSoup(temp) soup.table.decompose() Text = soup.ge

浏览 6提问于2013-09-21得票数 1

回答已采纳

3回答

我无法从bs4对象中定位重新生成的元素

、、

我所遇到的问题让我抓狂。我正在尝试从Pro Football参考网站上提取文本。我需要的信息在网页第二部分显示qb hurries的td元素中。该信息位于一个名为qb_hurry的td元素中。这是我到目前为止所知道的： res = requests.get('https://www.pro-football-reference.com/players/D/DonaAa00.

浏览 8提问于2020-04-10得票数 1

2回答

Python中使用BeautifulSoup美化方法时出现奇怪的错误

、、、

我写了一个简单的"TextBasedBrowser“(如果你现在可以把它叫做browser :D)。到目前为止，用BS4抓取和解析网站的效果很好，但它的格式就像狗屎一样，几乎无法阅读。只要我尝试使用BS4中的prettify()方法，它就会抛出一个AttributeError。我在谷歌上搜索了很长一段时间，但什么也没找到。= BeautifulSoup(html_page, 'html.parser') # soup = soup.

浏览 37提问于2020-06-17得票数 0

2回答

表底行刮擦

、、、

我知道如何利用来抓取网页，但我正在努力想出最有效的方法来实现这一点。 (安卓)包含所有Nexus设备的列表，并在新版本可用时进行更新。最新的构建总是添加到相应表的底部。我列出了每个设备的名称，包括实名和代号，我只提取这些名称(如果是这样的话，设备本身每年只更新一次，而且只有一些设备仍在接收更新)。，从每个表中提取底部条目的最有效方法是什么？，我计划将底部行中的第一个<td&

浏览 6提问于2016-01-25得票数 1

回答已采纳

1回答

如何在源代码中分解BeautifulSoup标签副本？

、、、、

我有一个元素提取器，并且在源BeautifulSoup对象中删除它有问题。示例： tag = soup.select('my-css-selector-or-something-else') soup = bs4.BeautifulSoup('

浏览 0提问于2018-05-25得票数 0

回答已采纳

2回答

Web抓取返回空白结果、python代码

试图从indeed.com查询中刮取职务名称import requestsfrom bs4 import BeautifulSoupconsulting&l=&limit=20&ts=1546381706970&rq=1&fromage=last"page = requests.get(URL) 使用HTML解析器指定所需的</e

浏览 1提问于2019-01-02得票数 1

回答已采纳

2回答

用于抓取表数据并存储为值以供将来计算的BeautifulSoup

、、、

非常新手的网络抓取，所以我很感谢所有的帮助。我正在尝试构建一个从NHL参考表中提取值的模型：我只是尝试拉取与'Team Statistics‘表有关的值，该表包含聚合的团队数据。我正在取得一些进展，但在尝试提取每个团队的行数据并将其存储以供将来计算时，我被卡住了。= "https://www.hockey-reference.com/leagues/NHL_2019.htm

浏览 2提问于2019-02-25得票数 1

2回答

如何返回整个数组而不是单个字符串

在下面的练习中，我试图回复所有有四个以上字母的单词。max_length endend print timed_reading(4,"The Fox asked the stork, 'How is the soup

浏览 1提问于2018-09-19得票数 2

回答已采纳

3回答

跨<div>的数据抓取

、、、

我正在尝试从一组重复的包含许多嵌入式的行中提取信息。对于页面，我正在尝试编写一个抓取器来从页面中获取各种元素。由于某些原因，我找不到使用包含每行信息的类的标记的方法。此外，我无法分离提取信息所需的部分。以下是一行的示例以供参考： <div id="dTeamEventResults"

浏览 6提问于2018-01-10得票数 3

回答已采纳

1回答

如何提取<a class..> Text</a>之间的文本，然后对列中的文本进行排序

、、

我需要帮助删除html代码< a >和< /a >元素，只有离开之间的文本(在图片中标记为黄色)。soup = BeautifulSoup( html, 'html.parser' )有什么想法吗？

浏览 3提问于2020-02-08得票数 0

1回答

用BeautifulSoup从XML文档中提取unicode文本

、、

我有这样的代码： url = open(fileid, 'r').read() find_all = soup.find_all("speech", soup)

浏览 1提问于2017-05-16得票数 0

2回答

如何在<br>标记之间使用BeautifulSoup刮取文本？

、、、

我试图从标签中提取文本字符串，我感兴趣的文本字符串由一个标记隔开。: Lorem" <br> <br><div>Loremcollection1 = soup.select('div#foo > p:-soup-contains("

浏览 7提问于2022-11-18得票数 0

1回答

使用Python从本地HTML文件创建具有名称和ID的CSV表

、

我是一个新手，尝试使用Python从本地HTML文件中获取数据，以提取名称，并将ID保存为CSV文件中的表。<span name="Clarence Alan" src=" 我的代码有名字列表：for a in

浏览 1提问于2022-01-09得票数 0

1回答

如何在使用BS4从多个标签中提取数据后划分信息

、

我是Python的新手。从文档中提取列表时出现问题。我的sources文件并不是真正的html，但它有一个标签来提取所需的数据。from bs4 import BeautifulSouppage = open(url) soup = B

浏览 1提问于2016-06-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云