BeautifulSoup，尝试从包含作者姓名的锚定标记中提取文本_从BeautifulSoup中的锚点标记中提取文本_使用BeautifulSoup，尝试提取选项标记中的数据 - 腾讯云开发者社区

python、beautifulsoup、screen-scraping

我正在尝试从this图书网站上抓取一些数据。我需要提取标题和作者。我能够毫不费力地提取标题。但是，当有多个作者时，我在提取作者时遇到了问题，因为它们出现在同一行中，并且它们属于标题h4中的单独锚标记。 White</a> </h4> 这是我尝试过的： book_container = soup.find_all('li', cla

浏览 20提问于2020-10-21得票数 1

回答已采纳

1回答

在Python语言中使用BeautifulSoup解析数据

python、html、parsing、beautifulsoup

我正在尝试使用BeautifulSoup解析DOM树并提取作者的姓名。下面是一段HTML代码片段，显示了我将要抓取的代码的结构。--There are many other div tags with this structure--></html> 我的困惑是，当我执行soup.find时，它会找到我正在搜索的div标记的第一个匹配项。在此阶段，如

浏览 1提问于2009-10-01得票数 10

回答已采纳

2回答

Python，Beautifullsoup -获取href链接

python、python-3.x、beautifulsoup

我有问题，我尝试从网站下载链接，但没有返回任何链接。我不知道我做错了什么。有人能帮帮我吗?？谢谢..。 #!/usr/bin/python3import requestspage = "https://mojmikolow.pl/informacje,0.html"dat

浏览 48提问于2021-01-29得票数 1

回答已采纳

1回答

需要selenium python定位名称的一些帮助

python、selenium、web-scraping

问题是，当你点击名字旁边的链接时，它会“展开”it...and下面的部分将你带到那里。没有办法知道哪个名称的相应链接在其描述中会有一封电子邮件。因此，我只能做到这两种情况中的任何一种，但不是两种都得到。这是一个非常简单的site..so，查找元素没有问题。希望有人能帮我理解这里的逻辑。我正在做this..though这是不正确的，我知道。

浏览 0提问于2021-01-05得票数 0

1回答

我应该如何刮刮由一个'p‘标签所代表的网站的文本？

python、web-scraping

我是Python的新手，正在通过从中提取数据来练习web抓取。 import pandas as pd from bs4 import Beau

浏览 3提问于2020-01-06得票数 0

1回答

BeautifulSoup提取URL (相同的URL重复)

python、regex、url、csv、beautifulsoup

我尝试使用BeautifulSoup和regex从网页中提取URL。这是我的密码： Ref_pattern = re.compile('<TD width="200"><A href="(.*?)"你能帮我提取所有的URL并把它们写进CSV文件吗？谢谢。

浏览 6提问于2014-06-27得票数 0

回答已采纳

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

python、list、web-scraping、beautifulsoup、python-requests

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url)soup = BeautifulSou

浏览 16提问于2019-12-24得票数 0

回答已采纳

2回答

从包含在具有相同类的div中的多个链接中提取的文本的单行打印问题

python、beautifulsoup

我正在尝试从一个具有相同类的几个div的页面中提取文本。每个div包含不同数量的文本链接。从每个div中提取的文本需要用一行打印出来。例如，如果一个div包含三个链接，另一个div包含两个链接，那么我希望从第一个div中的三个链接中提取文本，然后用一行打印结

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

提取HTML表并将它们存储在单独的文件中

python、html、web-scraping、beautifulsoup

我编写了一个代码来提取表的子部分，但是我希望从输入中提取每个标记，然后将它们存储在一个单独的html文件中。from bs4 import BeautifulSoup table = soup.find('table', {'class': '*'}) 我希望代码显示输入文本上包含</em

浏览 0提问于2019-07-21得票数 0

回答已采纳

1回答

如何有效地从docx/xml中删除表并提取文本

python、xml、beautifulsoup、lxml

删除表后，我在从.docx中提取文本时遇到了问题。我正在处理的docx文件包含很多表，在提取文本之前，我希望将这些表处理掉。我首先使用docx2html将docx文件转换为html，然后使用BeautifulSoup删除表标记并提取文本。from docx2html import convert... temp = convert(Fil

浏览 6提问于2013-09-21得票数 1

回答已采纳

3回答

查找包含特定文本的标签的索引，请参见beautifulsoup/python

python、html、web-scraping、beautifulsoup

我有一个简单的4x2html表，其中包含有关属性的信息。我正在尝试提取Year Built列标题下的值1972。如果我找到了所有的标记td，如何提取包含文本Year Built的标记的索引？因为一旦找到那个索引，我就可以将4添加到包含值1972的标记中。<td>1972<&

浏览 1提问于2015-10-13得票数 2

回答已采纳

1回答

如何在BeautifulSoup中捕获内部文本和内部标记

python、html、beautifulsoup、screen-scraping

我正在解析一个文档，它是一个包含div标记的列表，但它有时也只有文本内联。我需要知道如何从它们中提取内容。说我有以下几点：<div>1</div>3</div> 我需要提取上面所有的文本，这样它就可以读到1234了。我有下面的代码，它获取所有的div

浏览 0提问于2014-02-28得票数 1

回答已采纳

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

python、web-scraping、beautifulsoup、data-extraction

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频<e

浏览 19提问于2019-03-25得票数 1

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试</

浏览 26提问于2019-07-13得票数 2

回答已采纳

7回答

将</br>转换为结束行

beautifulsoup

我正在尝试使用BeautifulSoup提取一些文本。为此，我使用了get_text()函数。我的问题是，文本包含</br>标记，我需要将它们转换为结束行。我该怎么做呢？

浏览 0提问于2012-09-23得票数 41

回答已采纳

1回答

如何将美汤字符串转换为utf-8编码

python-2.7、unicode、utf-8、beautifulsoup

我正在运行Python2.7中的一个解析器，它从数据库中提取xml代码的文本字段，并使用Beautiful Soup在xml中查找和提取不同的标记。当我从xml中的标记中提取标记并转到给定文本时，它将返回<name>Josef Šimánek</nam

浏览 1提问于2015-09-19得票数 1

2回答

Python、BeautifulSoup* - <div>文本和<img>属性按正确顺序排列*

python、html、beautifulsoup

我有一个简短的HTML，我想通过使用BeautifulSoup运行。我有基本的导航系统，但这次我很困惑。我不知道如何依次遍历div-标记。我可以执行以下操作来提取div-标记中包含的所有文本print html.get_text() 要获得div-标记中包含的所有<em

浏览 2提问于2013-12-15得票数 5

回答已采纳

3回答

关于BeautifulSoup中get_text()的建议

python、beautifulsoup

我正在使用BeautifulSoup解析html页面中的一些内容。我得到了这样的结果： <span class="myclass

浏览 3提问于2013-04-20得票数 10

回答已采纳

1回答

一种使用BeautifulSoup提取特定<p>标签的方法？

python、html、beautifulsoup

我遇到了使用BS4从p标记中提取文本的当前问题。我需要提取的是包含文本的p标记，但也存在其他p标记。我目前拥有的是：div = soup2.find("div"

浏览 8提问于2017-03-31得票数 0

1回答

当元素确实存在时，BeautifulSoup返回'None‘

python、beautifulsoup

首先，如果我错过了一些非常简单的东西，我道歉，我已经看了很多问题，但终生都找不到答案。基本上，我试图收集文本的网站是这样的： url = 'https://www.otcmarkets.com/stock/MNGG/overview'soup = Be

浏览 34提问于2021-02-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云