从列表BeautifulSoup中提取文本_使用BeautifulSoup从html中提取文本_从BeautifulSoup标记元素中提取文本 - 腾讯云开发者社区

python、list、text、beautifulsoup

我正在尝试从以"a href"开头的列表中提取文本。整个列表都在一个名为team"的变量中。如果我写team[0].a.text，我会得到第一个文本。但是当我执行team[0:14].a.text时，我得到了这样的响应： AttributeError: 'list' object has no attribute 'a'` 我猜这意味着a.text函数在列表上不起作用如何从中获取<

浏览 11提问于2020-07-29得票数 0

回答已采纳

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

python、list、web-scraping、beautifulsoup、python-requests

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url)soup = BeautifulSoup(r.text, 'html.parser

浏览 16提问于2019-12-24得票数 0

回答已采纳

1回答

如何在BeautifulSoup中捕获内部文本和内部标记

python、html、beautifulsoup、screen-scraping

我正在解析一个文档，它是一个包含div标记的列表，但它有时也只有文本内联。我需要知道如何从它们中提取内容。说我有以下几点：<div>1</div>3</div> 我需要提取上面所有的文本，这样它就可以读到1234了。我有下面的代码，它获取所有的div标记，但不会单独获得文本</

浏览 0提问于2014-02-28得票数 1

回答已采纳

1回答

使用Python从HTML5网站抓取文本

python、html、screen-scraping

我需要从一个使用python的网站上抓取文本。我已经安装了BeautifulSoup 4、HTML和NLTK，但我似乎无法找到如何抓取。我真的需要一个简单的代码片段，我可以插入任何URL并获得纯文本。我正试着从那里得到它

浏览 1提问于2014-09-17得票数 0

回答已采纳

3回答

使用BeautifulSoup从表中抽取选定的列

python、html-parsing、beautifulsoup

我正在尝试使用BeautifulSoup提取的第一列和第三列。从超文本标记语言看，第一列有一个<th>标记。感兴趣的另一列具有as <td>标记。在任何情况下，我所能得到的只是一个带有标签的列的列表。但是，我只想要文本。 table已经是一个列表，所以我不能使用findAll(text=True)。我不确定如何以另一种形式获得第一列的列表。from BeautifulSoup import Beauti

浏览 0提问于2012-10-26得票数 14

回答已采纳

2回答

如何在没有额外信息的情况下有效地从网页簇中提取文本

java、python、web-scraping、beautifulsoup、scrapy

我有大约一百万的网页列表，我想有效地从这些网页上提取文本。目前我正在使用python中的BeautifulSoup库从HTML中获取文本，并使用请求命令来获取网页的html。这种方法除了文本之外还提取一些额外的信息，比如在body中是否列出了任何javascript。你能给我推荐一些合适而有效的方法来完成这项工作吗？我看了scrapy，但它看起来像爬行特定的网站。我们可以将特定网页的列表<

浏览 24提问于2019-05-22得票数 0

2回答

使用python中的美观汤从具有更多文本内容的Web页面中提取数据

python、html、python-2.7、web-scraping、beautifulsoup

我一直在尝试提取网页中数据丰富的节点。有没有办法从网页中提取文本？import requestsfrom bs4 import BeautifulSoupurl = "http://www.amazon.in"r = requests.get(url)print html.title.text 我可以打印网页的

浏览 7提问于2015-04-22得票数 1

回答已采纳

1回答

如何通过将变量与python中的标记值匹配来提取数据

python-2.7

从第一个表中，我提取了4个i，分别是abc1、abc2、abc3和abc4。现在，我要检查在与第二个表中的ids匹配后，这些ids是否出现在第二个表中(确实如此)，我想提取扬声器和这些扬声器的文本。你可以看到我想要提取数据的第二个表rom的代码结构。

浏览 3提问于2013-08-07得票数 0

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我使用的代码：from bs4 impor

浏览 26提问于2019-07-13得票数 2

回答已采纳

1回答

用BeautifulSoup从XML文档中提取unicode文本

python、xml、beautifulsoup

我有这样的代码： url = open(fileid, 'r').read() print fileid它从本地xml文件中获取某个元素。然后，它从中提取xml代码并打印一个列表。下面是该列表的一个片段集。您可以看到其中分配了

浏览 1提问于2017-05-16得票数 0

2回答

当我不使用的时候，为什么我会得到与strip()相关的错误？(Python)

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup完成Python中的一个刮擦任务，并得到了一些奇怪的错误。它提到了脱衣舞，我没有使用，但我猜可能与BSoup的进程有关？在任务中，我尝试转到原始网址，找到第18个链接，点击该链接7次，然后在第7页上返回第18链接的名称结果。我试图使用一个函数从第18链接获得href，然后调整全局变量，每次使用不同的url进行递归。我将列出代码和错误：import urllib nameList = []

浏览 5提问于2016-06-20得票数 1

回答已采纳

1回答

如何用python阅读网站内容

rss、html-parsing、python-2.7、beautifulsoup、lxml

我考虑使用RSS/ Atom提要作为提取内容的基础。但是，由于RSS/ Atom提要通常不会包含整个网站的文章，我认为可以使用feedparser从提要中收集所有“帖子”链接，然后从相应的URL中提取文章内容。即提要中显示的文章内容)，但我想访问整个文章数据，我必须使用相应的URL。我遇到了各种各样的库，比如BeautifulSoup、lxml等。

浏览 2提问于2012-05-15得票数 0

回答已采纳

1回答

我正在尝试用python脚本在页面中找到一个特定的链接

python、beautifulsoup、urllib2

我试图找出如何从给定的站点中提取出只有链接到特定文本的from BeautifulSoup import BeautifulSoupimport rehtml_page = urllib2.urlopen("https://www.example.net/")linkContent链接是这样的 <a class=&

浏览 3提问于2020-10-10得票数 0

1回答

Python美丽汤如何将JSON解码成“命令”？

python、web-scraping、beautifulsoup

我对Python中的BeautifulSoup很陌生，我正在尝试从BeautifulSoup中提取dict。我使用BeautifulSoup提取JSON，并获得了beautifulsoup.beautifulsoup变量soup。我试图从soup中获取值，但当我执行result = soup.findAll("bill")时，会得到一个空列表[]。如何提

浏览 0提问于2013-11-11得票数 9

回答已采纳

4回答

如何使用python检测网页内容的语言

python

是否有任何方法可以通过使用Python语言返回网页中的内容语言？就像如果页面是中文的，那么它应该返回`“中文”。我用langdetect模块检查了它，但是无法得到我想要的结果。

浏览 13提问于2015-06-25得票数 1

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

python、beautifulsoup

abc.com"> </a> <a href="xyz.com">comments</a></p>下面是我如何使用Beautifulsoup从锚标记中提取文本 soup = <e

浏览 1提问于2016-04-28得票数 1

4回答

使用Python从HTML中提取可读文本？

python、html、text-extraction

我知道像html2text，BeautifulSoup等工具，但问题是他们也提取javascript并将其添加到文本中，这使得分离它们变得很困难。htmlDom = BeautifulSoup(webPage) 或者，extract= html2text(webPage) 这两个都提取了页面上的所有javascript，这不是我们想要的。我只想把你可以从</

浏览 2提问于2010-07-04得票数 4

回答已采纳

1回答

从多个网站中提取文本

python、web-scraping、web-crawler

from bs4 import BeautifulSoupimport urllib2list_open = open("weblist.txt")line_in_list: beautiful for news in soup: print

浏览 0提问于2018-09-16得票数 1

回答已采纳

1回答

当元素确实存在时，BeautifulSoup返回'None‘

python、beautifulsoup

基本上，我试图收集文本的网站是这样的： url = 'https://www.otcmarkets.com/stock/MNGG/overview'soup = BeautifulSoup(page.content, "html.parser") ticker = soup.find

浏览 34提问于2021-02-27得票数 0

1回答

使用BeautifulSoup将文本从一个超文本标记语言文档传输到另一个文档

python、html、beautifulsoup

我正在尝试从上的页面中提取类别名称和问题/答案文本，并使用Python将它们插入到我自己的HTML文档中。我已经能够使用soup.find_all("td", class_="clue_text)提取线索文本，理论上我知道如何提取其他数据，但我不知道如何将这些数据插入到我自己的HTML文档中，特别是考虑到BeautifulSoup输出一个列表，并且我的文本格式与源文件不同。例如

浏览 1提问于2018-03-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云