在Python中使用BeautifulSoup 4从div标记中提取文本

文章/答案/技术大牛

发布

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我<

浏览 26提问于2019-07-13得票数 2

回答已采纳

2回答

python、html、parsing、beautifulsoup

我正在尝试使用BeautifulSoup4和python从div标签中提取文本。下面的html代码存储在一个文件(example.html)中<table class="NZX1058422900" cols="20" style="border-collapseto look like below:5 - Lev

浏览 1提问于2017-08-14得票数 2

回答已采纳

1回答

从bing中提取链接

python、beautifulsoup

我在使用Python和BeautifulSoup从必应搜索引擎中提取urls时遇到了问题。我想提取<div class="b_title">标记中的内容，但当我运行此代码时，urls变量为空：from bs4 import BeautifulSoupMozilla/11.0' } req

浏览 2提问于2018-05-07得票数 1

1回答

使用Python抓取Javascript创建的动态内容

python、arrays、python-3.x、web-scraping、beautifulsoup

我想用python脚本废弃javascript函数创建的DIV内容。我尝试过使用BS4，但我无法获得动态数据。相反，它只显示源代码。示例代码：from bs4 import BeautifulSoup r = requests.get(UR

浏览 0提问于2018-04-20得票数 3

回答已采纳

1回答

使用h1和Python从多个标记(如具有类的BeautifulSoup和p标记)中提取文本

python、beautifulsoup

我已经知道了如何从itemprop中提取文本，但是我不能从我粘贴的<div clas="someclass">Extract This Text Here!</div>中提取文本，我只是粘贴了我的代码中不起作用的部分，但是如果需要的话，它会粘贴整个内容。我已经用BeautifulSoup和Python设置了一个变量来获取页面，但是它不会只抓取文本</em

浏览 1提问于2018-08-22得票数 0

回答已采纳

2回答

如何使用python+beautifulsoup抓取标签外的项

python、web-scraping、beautifulsoup

使用python+beautifulsoup，假设我有一个<class 'bs4.element.Tag'>对象，a我可以使用以下命令提取text1 text2并将其放入b中我可以使用</e

浏览 3提问于2015-08-25得票数 2

回答已采纳

1回答

用BeautifulSoup存储超文本标记语言元素供以后使用的最好方法是什么？

javascript、python、html、xpath、beautifulsoup

我的目标是使用BeautifulSoup，提取特定的超文本标记语言元素(在本例中，这些元素包含字母表)，存储它们，然后使用javascript在原始网站上识别它们(例如。使用document.getElementsbyClassName...)我使用以下Python代码提取HTML元素： from bs4 import Beautiful

浏览 4提问于2021-06-25得票数 1

1回答

没有子文本的BeautifulSoup逐字符串查找标记

python、beautifulsoup

我使用Python3和BeautifulSoup 4.4.0从网站中提取数据。我对div标记中的表感兴趣，但是要知道表中有什么数据，我必须获取h4标记的文本，然后得到同级表，也就是表。问题是，其中一个h4标记有span，当字符串中有另一个标记时，BeautifulSoup将不返回任何字符串值。>Something<&

浏览 1提问于2017-11-23得票数 1

回答已采纳

1回答

在带有<dt>和<dd>标记的div中指定字段时出错

python、beautifulsoup

我试图使用python3和beautifulsoup4从在线学校列表中提取数据。school_data"})<div class="school_data"> </dl> &

浏览 2提问于2016-06-03得票数 3

回答已采纳

1回答

Python迭代问题和答案。

python、xml、xml-parsing、beautifulsoup、elementtree

我想在div上迭代，然后把所有的<b>元素作为问题提出来，但是我不知道如何处理答案，因为它们有时包含在子<div>中，有时不包括在子<div>中。我在考虑用元素树的对话或者漂亮的汤。但是如果我做了一个BeautifulSoup，BeautifulSoup会返回所有div，包括内部div。tree.itertext()可以工作，但如果可能的话，我不希望有太多的嵌套

浏览 0提问于2013-09-25得票数 3

回答已采纳

3回答

如何使用href>和BeautifulSoup从<div>中的<a BeautifulSoup标记后面出现的类标记中提取文本？

html、python-3.x、beautifulsoup

我正在尝试从出现在(和后面)这样的标记中的类中提取文本： html = """<div class="wisbb_teamA"><a href="http://www.example.com/eg1" class="wisbb_name">Phil

浏览 0提问于2020-06-24得票数 0

回答已采纳

4回答

使用BeautifulSoup从img标签中提取源属性

python、regex、beautifulsoup

<div class="someClass"> <img alt="some" src="some"/></div> 我想使用BeautifulSoup从图像(即img)标签中提取源(即src)属性。我使用bs4</em

浏览 1提问于2017-05-15得票数 50

1回答

BeautifulSoup :从html标记中提取/解析数据

python、xml、parsing、beautifulsoup

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“返回:无如何从"“h

浏览 5提问于2021-04-08得票数 0

回答已采纳

1回答

如何在BeautifulSoup中捕获内部文本和内部标记

python、html、beautifulsoup、screen-scraping

我正在解析一个文档，它是一个包含div标记的列表，但它有时也只有文本内联。我需要知道如何从它们中提取内容。说我有以下几点：<div>1</div>3</div

浏览 0提问于2014-02-28得票数 1

回答已采纳

2回答

如何将每个单词的首字母用<b>包装在特定的标记中？

python、html、web-scraping、beautifulsoup、formatting

我正在尝试使用BeautifulSoup模块与Python一起执行以下操作：<div class="body"></div> 上面

浏览 3提问于2022-05-28得票数 1

回答已采纳

3回答

Python用漂亮汤3抓取:如何从div获取文本

html、python-2.7、web-scraping、beautifulsoup

下面是我遇到麻烦的HTML，如果我有一个变量里面有汤，如何获得div的文本部分？我分别尝试过这些方法中的一些。text = div.get_te

浏览 7提问于2017-09-19得票数 0

回答已采纳

4回答

从包含其他标签的“a”标签中提取文本的漂亮问题

python、beautifulsoup

我想从下面显示的HTML 'a‘标签中提取“气候8/17/2019下午2:00”。我编写了一些代码，我认为这些代码将从'a‘标记中提取所有文本，稍后，我将使用字符串操作来提取所需的子字符串。<div class="topic"> <a class="class_a" href="/href_1" data1="" d

浏览 22提问于2019-10-11得票数 1

回答已采纳

4回答

如何删除文本python中的所有包

python、python-3.x、web-scraping、beautifulsoup

我想从标签中提取数据，以便简单地检索文本。不幸的是，我不能只提取文本，我总是在这个链接。<a class="link" href="https:/&

浏览 16提问于2022-11-27得票数 0

2回答

用BS4 - Python排除span

python、web-scraping、beautifulsoup

因此，我试图排除(而不是提取)包含在span中的信息。') print(description_el.text.replace(' ', '')) 当我这样做时，列表汤基本上是整个页面(在我的例子中是

浏览 0提问于2022-03-11得票数 0

回答已采纳

2回答

当我不使用的时候，为什么我会得到与strip()相关的错误？(Python)

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup完成Python中的一个刮擦任务，并得到了一些奇怪的错误。它提到了脱衣舞，我没有使用，但我猜可能与BSoup的进程有关？在任务中，我尝试转到原始网址，找到第18个链接，点击该链接7次，然后在第7页上返回第18链接的名称结果。我试图使用一个函数从第18链接获得href，然后调整全局变量，每次使用不同的url进行递归。我将列出代码和错误： from bs4 impor

浏览 5提问于2016-06-20得票数 1

回答已采纳

点击加载更多

Python BS4美汤HTML.Parser在网站上不起作用