BeautifulSoup Python .text方法未返回正确的文本

文章/答案/技术大牛

发布

1回答

、、

我使用html获得结果，而当我尝试使用.text删除它们时，我得到了奇怪的输出。我使用parent方法来获取整个分数的父HTML元素。scraper脚本： html_soup = BeautifulSoup(response.text, 'html.parser') results = html_soup.find

浏览 19提问于2019-07-24得票数 0

回答已采纳

2回答

添加转义html的BeautifulSoup replaceWith()方法，希望它未转义

、、

我有一个python方法()，它接受一些html，并使用BeautifulSoup和Django的urlize将<a>标记包装在未格式化的链接周围：from bs4 import BeautifulSoup soup = BeautifulSoup(text, &q

浏览 5提问于2015-10-04得票数 9

回答已采纳

1回答

如何使用编码JSoup文档文本

我有一个这样的节点我需要像这样获取div元素的文本我从.text()方法得到的输出是在BeautifulSoup中，它将返回> something < not encoded输出。如何从JSoup获取未</e

浏览 0提问于2013-07-03得票数 0

7回答

Python/BeautifulSoup -如何从元素中删除所有标签？

、

如何才能简单地从BeautifulSoup中找到的元素中剥离所有标记？

浏览 1提问于2013-04-25得票数 88

1回答

由于某种原因，BeautifulSoup突然无法在我已经开始的新的Python中找到我的任何标记的内容。我已经使用BeautifulSoup大约一年了，从来没有遇到过这个问题。我能够用".json()“在Python中成功地注入一个JSON有效负载，并使用html.parser将其传递给BeautifulSoup，而且每次都非常有效。现在，我正在尝试读取包含原始MySql的BeautifulSoup

浏览 2提问于2021-04-22得票数 0

1回答

Python web抓取javascript生成的内容

、、、

我正在尝试使用python3返回由生成的bibtex引用。url是可预测的，因此脚本可以在不必与网页交互的情况下计算出url。我已经尝试使用selenium，bs4等，但无法获得框内的文本。url = "http://www.doi2bib.org/#/doi/10.1007/s00425-007-0544-9"from bs4 import <

浏览 3提问于2015-02-03得票数 8

回答已采纳

3回答

python [lxml] -清除html标记

、、

))- len(text)) except: print sys.exc_info()我把上面的(丑陋的)代码组合在一起，作为我最初进军python领域的尝试。我正在尝试使用lxml清理器清理几个html页面，所以

浏览 2提问于2010-06-01得票数 15

2回答

Python格式不错

、、、、

我正在尝试创建一个程序，打印出/r/笑话中的前5个笑话，但我在设置它的格式时遇到了一些问题，使它看起来很好看。我想让它像这样摆出来。Post Title: Post Content<item> 编辑:这是我的

浏览 0提问于2015-08-30得票数 2

回答已采纳

2回答

使用for循环从多个页面抓取Web第2部分

、、、

我最初的问题是： “我已经创建了一个网络抓取工具，用于从列出的房屋中挑选数据。当涉及到更换页面时，我遇到了问题。我确实让循环从1变成了某个数字。例如，如果我的范围是(1-74)，它将多次打印最后一页，因为如果超过最大值，页面总是加载最后一页。“ 然后我得到了Ricco D的帮助，他写了代码，它会知道什么时候停止： import requests url='https:这是我得到的错误。有没有什么办法让

浏览 20提问于2020-12-22得票数 0

回答已采纳

1回答

为什么BeautifulSoup找不到包含文本的标签，但我可以运行" find“并在HTML中查看文本？

、、、

我使用的是Python3.7和BeautifulSoup 4，搜索包含特定文本的标签的正确方法是什么？我以为我能做到 soup = BeautifulSoup(code, features="lxml")no_images_msgs = ["No very similar images were"No similar images were found."] for no_i

浏览 16提问于2019-06-13得票数 0

1回答

如何从python中未正确关闭的标签中恢复文档？

、

这是我的问题text="""<!(text)我的错误是 File "test.py", line 31, in<module> File "/usr/lib&#

浏览 0提问于2013-12-19得票数 0

1回答

为什么BeautifulSoup会错过<p>标记？

、

我使用的是BeautifulSoup，findAll方法缺少<p>标记。我运行代码，它返回一个空列表。但是如果我检查页面，我可以清楚地看到它，如下面的图片所示。from bs4 import BeautifulSoupurl = 'https://www.kite.com/python/answers/how-to-e

浏览 1提问于2021-03-09得票数 0

2回答

无法在python中获取<div>标记值

、

所需的值存在于div标记中：<span class="upc grey-text sml">Cost for 2: </span></div>soup.select('div.search-page-text'): 但在输出中，我得到了“零”。

浏览 8提问于2015-05-03得票数 0

回答已采纳

2回答

使用漂亮的汤解析python

、、、

我正试图通过一家餐厅结构不佳的网站进行解析，并打印出菜单标题如下：我正在使用Python库Beautiful，但我很难获得正确的输出：import requestsr= requests.get(url,

浏览 1提问于2015-04-25得票数 2

回答已采纳

3回答

网站的Python正确编码(漂亮汤)

、、、、

我试图加载一个html页面并输出文本，尽管我得到了正确的网页，但BeautifulSoup以某种方式破坏了编码。资料来源：import requestsr = requests.get(url) en

浏览 8提问于2016-04-25得票数 13

回答已采纳

3回答

如何提取特定的段落标记

、、

我想提取这个答复的内容： <p class="bio profile" ></div> 请假定还有其他具有不同类属性的附属器标记，但是我想使用类属性"bio-profile“来提取这个标记。我试过desc = bs.find ('p', {'class' : 'bi

浏览 5提问于2014-03-25得票数 0

回答已采纳

1回答

当教程总是返回嵌入的文本时，为什么使用BeautifulSoup获得多个搜索字符串的结果为零？

、、

我开始学习编码，不明白为什么视频教程总是使用一种简单的方法输入多个搜索字符串来返回标签中的嵌入标记，然后它们就会得到结果，但是我的len(query)在做同样的事情时总是带着一个很大的胖0回来。我使用的是几乎完全相同的代码。最后，对于这篇文章，假设我想返回URLS。它们位于"div“、"h3”和"href“标签后面。但是，让我们试着缩小"div“标记后面的"h3”<e

浏览 4提问于2021-06-27得票数 1

3回答

从HTML中提取数据

、、

我已经能够将网站上的内容放到一个字符串/文件中。现在，我想搜索包含以下内容的特定行： <li><span class="abc">Key 1:</span> <span class="aom_pb">Value 1</span></li>有一个gauranteed只有一个关键字1:在网站上，我需要得到的值1。什么是最好的方法来做到这一点。

浏览 1提问于2011-11-06得票数 1

1回答

如何在使用优美汤时获得文本标记

、、、

我是一个从事文本挖掘和玩具项目的纽比人，负责从网站上抓取文本，并将其分割成令牌。但是，在使用Beautifulsoup下载内容之后，我未能用下面的代码使用.split方法将其拆分import nltkfrom bs4 import BeautifulSoup url= 'http://python<

浏览 2提问于2017-09-05得票数 0

回答已采纳

1回答

如何在文本中用它的值替换标记

、

我怎么提取 I <img src="image.png" alt="love"> Python 获取字符串并将其拆分不起作用，文本由用户控制，可能包含<>

浏览 1提问于2018-12-27得票数 0

回答已采纳

点击加载更多