使用美汤从HTML中提取特定的标题

文章/答案/技术大牛

发布

2回答

、、、、

这是我正在使用的https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry专利示例。下面是我使用的代码。我希望代码只显示引用的(3)计数，这样我就可以知道这项专利被cited.How了多少次，我可以让输出将引用的计数显示为3吗？请帮帮忙！soup = BeautifulSoup(patent, 'html.parser'

浏览 29提问于2020-09-07得票数 1

回答已采纳

2回答

使用python从.docx文件中提取特定的表和图像

、、

我正在尝试从word文档中提取一个特定的表格，该表格紧跟在标题“缩写列表”之后，并在.docx文件中紧跟在标题“图形研究”之后的图像。我已经能够使用python-docx代码提取标题，但是如何使用标题或它们的位置解析文档来检索图像和我正在使用if re.match("Graphical", img.previ

浏览 49提问于2020-07-16得票数 0

1回答

Python财务图表抓取

、、、、

现在，我正在尝试使用以下代码从图表中提取股息收益率。df = pd.read_html('https://www.macrotrends.net/stocks/charts/BMO/Bank-of-Montreal/dividend-yield-history') 但是代码不会提取图表的数据。对于从网站上删除它有什么建议吗？下面是我尝试<

浏览 1提问于2021-09-24得票数 1

1回答

python-提取不丢失轴标题的html表。

、、、、

是否有任何方法从表中提取数据，但仍然能够跟踪轴标题？Q2。哪种方法能更好地从html表中提取数据？HTMLParser还是美汤还是其他的？我试着提取这个收入表“收入”、“53 898.0”、“56 910.0”、“60 455.0”、“64 539.0” “总收入”、“53 898.0”、“56 910.0”、“60 45

浏览 2提问于2013-03-11得票数 0

回答已采纳

2回答

Python从google结果中抓取链接

、

有没有办法，我可以刮某些链接，从谷歌的结果，包括特定的词在链接。用美汤还是硒？groups&oq=site%3Afacebook.com+friends+groups"要提取包含组链接的链接。

浏览 1提问于2019-01-22得票数 0

回答已采纳

1回答

如何使用python中的漂亮汤从html页面中获取特定的单词

、、

我必须从HTML页面中提取特定的单词，并计算该单词被重复的次数。我如何使用python中的美汤来做这件事呢？我如何将url传递到函数中，然后计算单词数？这是我到现在为止的代码。

浏览 3提问于2017-11-05得票数 0

3回答

如何使用美汤从HTML中提取特定的URL？

、、、、

我想从HTML页面中提取特定的URL。bs4 import BeautifulSoup page = urlopen(url)我想要的urls实际上是img src。这里有一个来自HMTL的</e

浏览 4提问于2014-06-16得票数 0

1回答

使用带有下拉选项的Python请求模块

、、、

我正试图从这个网页上抓取信息：import requests page = requests.get('https://www.tmea.org，但我希望能够提交一个特定的选项并提取该信息。PO

浏览 0提问于2019-02-20得票数 3

回答已采纳

1回答

ImportError:没有名为bs4的模块，因为在错误的python文件夹中

、

我只是想从HTML文件中提取一个字符串。我不能让它起作用。每个人都在谈论美汤但对我来说不管用..。这是我的错误：我已经安装了“美丽汤4”，但我相信它在错误的文件夹中： sudo pip install beautifulsoup4我正在使用Python3.2。我如何强迫美丽汤安装在另一个文件夹？

浏览 2提问于2013-08-22得票数 1

1回答

JSSoup是否支持提取文本？

、

JSSoup是否支持提取类似于美汤soup.findAll(text=True)的文本文档没有提供关于这个用例的任何信息，但在我看来应该有一种方法。为了澄清我想要的是从页面上抓取所有可见的文本。

浏览 19提问于2021-11-20得票数 1

回答已采纳

2回答

美丽的汤find_all bug？

、

现在我用美汤来解析html页面。但有时我通过find_all得到的结果比页面数还少。例如，此页面有18个标题跨度。但是当我使用下面的代码时，它只得到了两个！谁能告诉我为什么。提前谢谢你！soup = BeautifulSoup(page, 'html.parser')#print

浏览 1提问于2015-02-11得票数 1

3回答

解析随机网页

、、、

我需要解析一堆随机页面，并将它们添加到DB中。我正在考虑使用正则表达式，但我想知道是否有任何“特殊”技术(除了在已知文本/标签之间查找内容)。内容更像(并不总是)：Text related to Title谢谢!

浏览 3提问于2010-09-21得票数 0

回答已采纳

1回答

如何禁用所有不在列表中的链接，使用漂亮的汤

、、

我目前正在开发一个web应用程序(使用flask作为后端)。在我的后端，我使用selenium检索给定url的页面源代码。我想遍历page_source并禁用其href不在列表中的所有链接。类似于： body = browser.page_sourcefor link in soup.a: ifnot (link['href'] in

浏览 15提问于2019-06-07得票数 0

回答已采纳

2回答

如何在Beautifulsoup中抓取标题文本对应的td

、、

我正试着用美汤抓取维基百科。我想要获取内部的文本，但只获取具有特定标题文本的行的内容。我需要的信息在正确的表中，在与文本奖励的表头相对应的表数据中。我尝试过遍历表行并检查表头是否等于'Awards‘，但我不知道如何在表中没有'Awards’头<e

浏览 2提问于2020-08-30得票数 0

1回答

tr美汤中特定文本的提取

、、

我一直在用漂亮汤从html代码中获取信息。通过执行以下步骤，我提取了下面的HTML片段：soup = BeautifulSoup(result.textCharacteristics: Militant Al-Takfir wa al-Hijran (Renunciation and Exile) faction示例HTML

浏览 0提问于2021-02-18得票数 1

回答已采纳

1回答

从新闻网站上抓取新闻标题

、、、

我一直在努力从新闻网站上抓取新闻标题。为此，我遇到了两个python库，即“报纸”和“beautifulsoup4”。使用美丽的汤库，我已经能够从一个特定的新闻网站获得所有的链接，导致新闻文章。从下面的代码中，我能够从一个链接中提取新闻文章的标题。，即报纸和beautifulsoup4，这样我从美丽汤库获得的所有链接都应该放在报纸库的url命令<

浏览 4提问于2020-11-20得票数 1

回答已采纳

1回答

美丽的汤:在H2标记之间提取数据

、、

我有一个如下的html文本 <h2 class="ArticleBody-styles-makeit-subtitle--LnHeO">1. Python</h2> 通过使用美汤，我们如何提取1.HTML</h2> ] text = item.findAll('h2') print(text.get_text()) 非常感谢您<e

浏览 8提问于2019-12-19得票数 0

回答已采纳

2回答

Python，如何获取http头

、、、、

我正在写一个脚本来“自动化我的生活”:)但是遇到了一个我无法解决的问题。这个python脚本抓取了一个页面并获得了我需要的“产品”的链接，问题是一旦我有了产品页面的链接来下载这个“产品”的pdf，你就必须按一个按钮，这就是问题所在，因为按钮中没有href：当按钮被按下时，查看http头，我看到要下载文件，它使用

浏览 5提问于2016-09-08得票数 0

1回答

如何使用wget下载整个动态页面？

例如，我正在尝试使用Linux中的wget命令从网站下载一个页面，我想要的是包含在该页面的html代码中的信息。我试过使用R的Rvest和Python的美汤，但它不起作用，所以现在我尝试wget，主要是我在.css和.js中得到的脚本，我不能从中提取有用的信息(据我所知)，所以总而言之，我想从

浏览 3提问于2018-10-12得票数 1

1回答

使用美汤的递归搜索

、

我正在尝试从嵌套的html标记中提取信息： <div id="cover_1" class="default"></div> <div id="container_3" class="red">

浏览 1提问于2013-05-01得票数 1

点击加载更多