如何用BeautifulSoup从HTML文件中提取h1标签？_从本地文件中的HTML div标签中提取innerText - 腾讯云开发者社区

python、html、web-scraping、beautifulsoup

我正在尝试从一个超文本标记语言文件中提取h1(或任何头文件)头文件。://www.le.ac.uk/oerresources/bdra/html/page_09.htm');bs= BeautifulSoup(html, 'html</em

浏览 108提问于2019-06-30得票数 1

1回答

为什么我不能按类抓取h1标签？

python、web-scraping

我有以下代码，可以使用BeautifulSoup从网页中抓取页面标题(带有c- h1 -title类)文本： from requests import get for

浏览 23提问于2020-04-02得票数 0

1回答

Python web抓取: google搜索结果中的网站

python、html、web-scraping、web-crawler、google-crawlers

我想从一个谷歌搜索页面从多个网站(例如100+)提取信息。我只想提取关键信息，例如那些带有<h1>、<h2>或<b>或<li> HTML标签的信息等，但我不想提取整个段落的<p>。我知道如何从google搜索中收集网站URL列表；我还知道如何在查看页面的HTML后对单个网站进行网络抓取。我使用Request和BeautifulSoup来完成

浏览 18提问于2021-03-31得票数 1

2回答

美丽的汤:当两个标签有不同的ids时，提取两个标签之间的所有内容。

python、html、beautifulsoup、tags

= 'good' ></h1> from bs4 import BeautifulSoup This I <b>don't</b> want <

浏览 5提问于2022-01-22得票数 -1

4回答

如何跳过<span>和漂亮的汤

python、python-3.x、beautifulsoup

这是我的代码的输出我只想得到项目名称，没有“细节”部分。

浏览 0提问于2018-01-24得票数 3

回答已采纳

1回答

尝试使用Python从使用BS4的网站抓取数据

python、beautifulsoup、pycharm、web-crawler

我试图从URL(代码中提到)导入数据。当我运行代码时，我不会得到任何信息(比如计划名称和费率)，也不会给我容器div标签，而不会给出内容。from bs4 import BeautifulSoupresponse=urlopen(URL) html

浏览 1提问于2020-07-27得票数 0

回答已采纳

2回答

网络抓取视频

python、video、screen-scraping

我想不出如何从这个网站提取视频网址。我使用了Chrome和Firefox web开发工具来确定它是否在iframe中，但是使用BeautifulSoup搜索iframe来提取src urls，会返回与视频无关的链接。哪里是对mp4或flv文件的引用(我在开发人员工具中看到它们-尽管禁止单击它们)。如果需要，这里有一些代码。很多教程都说要使用'a‘标签，但我没有收

浏览 3提问于2018-11-08得票数 2

1回答

抓取中的python HTML自定义标记

python、beautifulsoup

我试图从数据-ldpemail标签中删除信息，而不是整个a标记。import requests from bs4 import BeautifulSoupsoup =

浏览 3提问于2020-02-25得票数 1

回答已采纳

2回答

美汤:提取两个标签之间的所有内容

python、html、beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取数据。我想获取两个标签之间的所有信息。这意味着如果我有一个像这样的HTML部分： <h1></h1><div>This is in a div</div> <h1></

浏览 25提问于2020-09-15得票数 2

回答已采纳

1回答

如何使用bs4从div内的锚标记中获取文本

python、python-3.x、beautifulsoup

我是bs4的新手，我试图从div中的锚标签中提取文本，但通过了我的错误。我的代码:从bs4导入BeautifulSoup<div class="one"><h1>Test 1</h1>

浏览 0提问于2021-10-24得票数 0

1回答

Webscraping无法找到Python中的所有类

python、web-scraping、beautifulsoup

我正在尝试使用bs4 Python从特定网站提取用户信息和日期，但我的代码没有从网站中找到所有的类。www.expeditionforum.com/threads/distance-indication-feature.34452/"soup = BeautifulSoup(page.text, 'html.parser') title = soup.find('h1

浏览 12提问于2020-03-19得票数 2

回答已采纳

2回答

如何使用python的regex从文本文件中删除多个标记

python、python-3.x、regex、tags、findall

我正在使用Python3.8.3，并尝试从附加的文本文件中删除标签我想提取3个列表-标题，出版日期和文章的正文，并删除标签。在下面的代码中，我已经能够从标题和发布日期中删除标签。但是，我无法正确地删除正文中的所有标签。在文件中，正文以标记<div class="story-element story-element-text">开始，在下一个<

浏览 7提问于2021-03-10得票数 0

2回答

BeautifulSoup如何从h1标记中删除div元素

python、python-3.x、beautifulsoup

我已经尝试了使用BeautifulSoup解析html的以下代码。item_detail_soup = BeautifulSoup(html, "html.parser") h1 = item_detail_soup.find("h1") 我的H1解析器输出是： <h1class="brand" style="display: block; font-size

浏览 30提问于2021-10-31得票数 1

回答已采纳

1回答

美汤在源文件中找到标签的位置？

python、html、beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

如何根据从网站源代码中提取的文本中的html标记对文本进行分类？

python、text

是否有方法对从HTML源代码中提取的文本进行分类，并将每个单词放在被分类的HTML标记下 p - My first paragraph.就像根据HTML标签和元标签对所有文本进行分类一样。from bs4.element import Comment def tag_v

浏览 3提问于2022-03-08得票数 0

回答已采纳

1回答

如何使用python和美汤将html页面拆分成多个页面

python、html、beautifulsoup

我有一个简单的html文件，如下所示。实际上，我是从一个wiki页面中提取出来的，去掉了一些html属性，然后转换成了这个简单的html页面。<html> <h1>draw electronics schematics</h1> <p>-- ..aga

浏览 0提问于2013-01-22得票数 6

回答已采纳

2回答

用美汤抓取多个URL

python、beautifulsoup

我正在尝试从多个URL中提取特定的类。标签和类保持不变，但我需要我的python程序来抓取所有内容，因为我只是输入了我的链接。以下是我的工作示例：import requestsimport re#scrape elementssoup = Bea

浏览 0提问于2016-11-16得票数 9

1回答

使用漂亮的汤在多个DIVs中提取正确的链接。这不是一个重复的问题

python、beautifulsoup

下面的代码从具有相同类的多个DIVs中提取链接，并正确地打印它们。然而，在每个DIV中有几个链接。我只想提取和打印每个DIV中的第一个链接。我应该用什么语法来完成这个任务。description/">cars</a></h1> <h1 class="detail_1"><a href="/detailed description/"&

浏览 0提问于2019-08-19得票数 0

回答已采纳

1回答

Python从html文件p标记中提取内容，该标记位于一个组div标记中。我被印出来了

python-2.7、beautifulsoup

我正在尝试从文件中提取一些数据。我正在将空白打印到PyCharm控制台。我想从P标签中得到所有的数据。它在div标签下。HTML片段是：<h1>Test Report</h1> <p class='attribute'><strong>Start Time:</st

浏览 3提问于2016-08-12得票数 1

回答已采纳

3回答

以编程方式突出显示HTML中的文本

python、html

我有一个原始HTML文件，如下所示(内容可能不时变化，我们只知道它是一个有效的HTML文件)： <BODY>当我在浏览器中打开它时，如下所示：现在，我想突出显示这个HTML文件中的一些文本部分。预期产出： <HTML>

浏览 5提问于2017-07-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云