要解析BeautifulSoup以检索此数字的标记

BeautifulSoup 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。它创建了一个解析树，从中你可以提取和操作数据。如果你想使用 BeautifulSoup 来检索某个数字的标记，你需要首先安装 BeautifulSoup 库（如果你还没有安装的话），然后按照以下步骤操作：

安装 BeautifulSoup:
安装 BeautifulSoup:
导入库并解析 HTML:
导入库并解析 HTML:
查找数字的标记: 你可以使用 BeautifulSoup 的各种方法来查找包含数字的标签。例如，如果你知道数字是在一个具有特定类名的 <span> 标签中，你可以这样做：
查找数字的标记: 你可以使用 BeautifulSoup 的各种方法来查找包含数字的标签。例如，如果你知道数字是在一个具有特定类名的 <span> 标签中，你可以这样做：
获取数字的值: 一旦你找到了标签，你可以获取它的文本内容，这通常是数字的值。
获取数字的值: 一旦你找到了标签，你可以获取它的文本内容，这通常是数字的值。

优势:

BeautifulSoup 提供了非常直观的 API 来解析和导航 HTML/XML 文档。
它支持多种解析器，如 Python 标准库的 html.parser，以及 lxml 和 html5lib 等第三方解析器。

类型:

BeautifulSoup 支持 Python 标准库的 html.parser，以及 lxml 和 html5lib 解析器。

应用场景:

网络爬虫，用于从网站提取数据。
数据挖掘和分析，用于处理和分析网页内容。
自动化测试，用于验证网页的结构和内容。

可能遇到的问题及解决方法:

解析错误: 如果 HTML 文档格式不正确，可能会导致解析错误。确保你处理的 HTML 是有效的，或者使用更宽容的解析器，如 html5lib。
找不到元素: 如果使用 find 或 find_all 方法时没有找到预期的元素，检查你的选择器是否正确，以及 HTML 结构是否发生了变化。
性能问题: 对于非常大的 HTML 文档，解析可能会很慢。在这种情况下，考虑只解析文档的一部分，或者使用更快的解析器，如 lxml。

如果你在使用 BeautifulSoup 时遇到了具体的问题，可以提供更多的上下文，以便给出更具体的解决方案。

在做BeautifulSoup(source_code，'html.parser')时，"html.parser“是什么意思？

、、

我不明白BeautifulSoup的语法，尤其是括号中HTML解析器的用途。 BeautifulSoup(source_code, 'html.parser')

浏览 0提问于2019-07-20得票数 0

1回答

Python BeautifulSoup给出了不同的结果

、、、、

我正在尝试使用xml解析一个BeautifulSoup文件。考虑一个sampleinpt xml文件如下： <DOC> <DOCNO>1</DOCNO> .... </DOC> <DOC> <DOCNO>2</DOCNO> .... </DOC> ... 此文件由130个<DOC>标记组成。但是，当我试图使用BeautifulSoup的findAll函数解析它时，它会检索任意数量的标记(通常在15-25之间)，但从不检索130个标记。我使用的代码如下： from bs4 import B

浏览 0提问于2015-06-06得票数 1

回答已采纳

2回答

当网络抓取时，我们把"html.parser“的论点放在哪里？

、、、

请看下面的代码片段 import requests from bs4 import BeautifulSoup url = #Insert url here # Method 1 html = requests.get(url, "html.parser") soup = BeautifulSoup( html.text ) #Method 2 html2 = requests.get(url) soup2 = BeautifulSoup( html.text, "html.parser") 哪种方法是正确的？方法1还是方法2？我们应该将"html.

浏览 2提问于2020-08-11得票数 1

回答已采纳

1回答

BeautifulSoup4缺失标签

、、、

我在Anaconda的发行版中使用BeautifulSoup 4作为bs4。如果我错了，请纠正我--我理解BeautifulSoup是用来将格式不正确的HTML转换成格式良好的HTML的库。但是，当我将HTML赋值给它的构造函数时，我损失了一半以上的字符。它不应该只是修复HTML而不是清理它吗？在中，它不是很好的描述。这是代码： from bs4 import BeautifulSoup soup = BeautifulSoup(html) 其中html是谷歌主页的HTML。编辑：可能是因为我通过str(soup)检索HTML字符串的方式

浏览 2提问于2015-03-12得票数 3

回答已采纳

1回答

使用BeautifulSoup进行网络抓取返回NoneType

、

我试图用BeautifulSoup刮一个网站，并编写了以下代码： import requests from bs4 import BeautifulSoup page = requests.get("https://gematsu.com/tag/media-create-sales") soup = BeautifulSoup(page.text, 'html.parser') try: content = soup.find('div', id='main') print (content) except:

浏览 1提问于2019-01-18得票数 3

回答已采纳

1回答

Python: Regex v. BeautifulSoup从文本<TYPE>中删除

、、

我需要从标记<TYPE>EX和</TEXT>以及<TYPE>XML和</TEXT>之间的文本中删除所有部分。我正在考虑使用regex如下： re.sub(r"(?is)<TYPE>EX[^>]*>(.*?)</TEXT>",'',text) 和 re.sub(r"(?is)<TYPE>XML[^>]*>(.*?)</TEXT>",'',text) 但是，我继续在StackOverflow上阅读，如果regex能够

浏览 1提问于2014-11-20得票数 0

回答已采纳

1回答

用BS4 "lxml“刮取XML数据

、、、、

试图解决与这个问题非常相似的问题： [用beautifulsoup](https://stackoverflow.com/questions/37968565/scraping-xml-element-attributes-with-beautifulsoup)刮取XML元素属性我有以下代码： from bs4 import BeautifulSoup import requests r = requests.get('https://www.usda.gov/oce/commodity/wasde/latest.xml') data = r.text soup = Beau

浏览 1提问于2018-04-03得票数 2

1回答

从基于链接的网站拉取图片

、、、

我目前已经准备好了使用BeautifulSoup库来提取html文档中所有图像标签的代码。我想知道在Python中是否有一种方法可以通过图像标记中的link元素指向的图像以编程方式将图像下载到您的计算机上。这是我用来获取网页中所有图片标签的代码。 import urllib2 from bs4 import BeautifulSoup #Retrieve object containing website information page = urllib2.urlopen("http://google.com") soup = BeautifulSoup(page) #Pu

浏览 0提问于2013-04-13得票数 0

回答已采纳

2回答

使用Python和BeautifulSoup访问网页中标签的标题属性

、

我是Python新手，我试图从一个特定的url中检索所有的标题，但我无法这样做。代码正在编译，没有任何错误，但我仍然没有得到输出。 import requests import sys from bs4 import BeautifulSoup def test_function(num): url = "https://www.zomato.com/chennai/restaurants?buffet=1&page=" + str(num) source_code = requests.get(url) plain_t

浏览 3提问于2015-04-16得票数 1

回答已采纳

1回答

BeautifulSoup无法解析长视图状态

、、

我尝试使用BeautifulSoup4解析从检索到的html，如果打印出结果的汤，它的结尾如下： kZXI9IjAi"/></form></body></html> 搜索原始html中的最后一个字符9IjaI，我发现它位于一个巨大的viewstate的中间。BeautifulSoup似乎对此有问题。有什么提示，我可能做错了什么，或者如何解析这样的页面？

浏览 1提问于2013-08-09得票数 0

回答已采纳

1回答

在BeautifulSoup 4中将标签内容提取为文本(相当于QUOTE_TAGS)

、、

HTML3有一个很好的特性，那就是它不会试图将<textarea>标签的内容解释为BeautifulSoup --它会将其引用为文本。通过修改QUOTE_TAGS属性，可以将此行为应用于其他标记。下面的展示了它是如何有用的。在BeautifulSoup 4中，没有QUOTE_TAGS属性，我认为如果不自己创建html.parser子类，就无法获得相同的功能。我是不是遗漏了什么？您将如何使用BS4解决上面链接的问题？

浏览 1提问于2013-05-01得票数 1

3回答

Python BeautifulSoup如何获取最新选择器的数据

、

在发送python HTTP请求之后，它的响应(data)有一个html页面，其中包含许多ABCD块。下面是一个代码片段 <code>A0</code> 我需要检索ABCD的最新data-id (在本例中是134717，这个数字是动态的)。还请注意，有许多那些ABCD的与不同的日期，我想最近的。我可以使用正则表达式并逐行遍历它。但我认为用BeautifulSoup做这件事更好。我尝试了这个，它找到了所有ABCDs，但我不知道如何获得最新的一个： <code>A1</code>

浏览 6提问于2018-12-22得票数 3

回答已采纳

1回答

使用python检测HTML中图像的大小

、、、

我正在尝试实现一个类似于Facebook缩略图预览的功能。其想法是，用户输入产品的URL，并选择该产品的最佳图像。为了过滤掉明显不是产品的图像，我想根据高度和宽度> 150px来过滤它们。我正在使用python和BeautifulSoup下载超文本标记语言并提取图像，但无法找到在CSS中指定的高度或宽度的收集方法。

浏览 1提问于2011-06-06得票数 1

回答已采纳

2回答

抓取没有输出到所需链接的页面

、、

我想刮一下这个网页：但我必须点击“继续文件夹”，以获得这些链接。只有当我实际使用鼠标点击“继续文件夹”按钮时，我才能在HTML源代码中看到这些链接。我如何避免物理点击，以获得这些链接在网站上？我是新手，所以请帮我解决这个问题。谢谢你的关注和时间。奥佐哈 import requests from bs4 import BeautifulSoup s = requests.Session() url='http://protected.to/f-c9036f7a236b1511' r = s.get(url) soup = BeautifulSoup(r.text,

浏览 9提问于2022-04-11得票数 -2

回答已采纳

1回答

Web爬行两次提取相同的句子

、、

当我编写下面的代码时，正如您在图片中看到的那样，结果显示了两次相同的句子。我该如何解决这个问题？ import requests from bs4 import BeautifulSoup res = requests.get("https://www.consumeraffairs.com/education/online-courses/coursera.html?page=2#scroll_to_reviews=true") soup = BeautifulSoup(res.content, 'html.parser') data = soup.f

浏览 3提问于2022-03-05得票数 0

1回答

BeautifulSoup :在标记之间创建并插入自结束标记

、、、、

我正在解析html文件并用新的标记替换特定的链接。 Python代码： from bs4 import BeautifulSoup sample='''<a href="{Image src='https://google.com' link='https://google.com'}" >{Image src='https://google.com' link='google.com'}</a>''' soup=BeautifulSoup(s

浏览 0提问于2020-06-15得票数 1

回答已采纳

3回答

使用Python的维基百科刮板

、、、、

嗨，我正在尝试建立一个简单的维基百科报废工具，可以让我分析文本，并建立一个人的生活中使用python的事件的时间线。我已经在网上搜索了可能的方法，到目前为止，我已经能够使用BeautifulSoup和urllib2检索数据。到目前为止，代码看起来像这样： from bs4 import BeautifulSoup import urllib2 import re import nltk import json #get source code of page (function used later) def fetchsource(url): source = urllib2.

浏览 3提问于2012-10-15得票数 3

回答已采纳

1回答

BeautifulSoup只返回head标记内的内容

、、、

我正在使用BeautifulSoup，我发现了一个错误或者是我的一个错误。在我的示例中，我爬行了纽约时报的一个子部分网站... import urllib2 from bs4 import BeautifulSoup website = "http://www.nytimes.com/pages/politics/index.html" data = BeautifulSoup(urllib2.urlopen(website).read()) print data 当我运行代码时，返回的是head标记和其中的内容。但是，它不会获取body标记中的内容。如果我要将网站url更改为

浏览 0提问于2013-01-14得票数 4

回答已采纳

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

、、、

我有一个很大的HTML源代码，我想要解析(大约200,000)行，并且我相当确定在整个过程中都有一些糟糕的格式。我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。从这个网站上看，lxml似乎是最常用和最快的，而Beautiful Soup速度较慢，但会导致更多的错误和变化。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感到有点困惑。在这种情况下，它是否同时使用Beautiful Soup和html5lib/

浏览 0提问于2012-06-08得票数 1

1回答

通过BeautifulSoup返回RSS属性值

、、、

RSS：(在名为myfeed.rss的文件中) <?xml version="1.0" encoding="utf-8" ?> <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:newznab="http://www.newznab.com/DTD/2010/feeds/attributes/"> <channel> <title>MyFeed</title

浏览 2提问于2015-06-09得票数 1

回答已采纳

2回答

原始HTML与python中的DOM抓取使用机械化和美观的汤

、、、

我正在尝试写一个程序，作为一个例子，它将刮掉这个网页的最高价格：首先，通过执行以下操作，我可以轻松地检索HTML： from urllib import urlopen from BeautifulSoup import BeautifulSoup import mechanize webpage = 'http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults' br = mechanize.Browser() data = br.open(webpage).get_data() soup

浏览 3提问于2012-03-04得票数 3

回答已采纳

1回答

无法使用BeautifulSoup和python检索父标签

、、、、

从一个Instagram页面，我试图检索img标签的父元素。但我得到的错误是： AttributeError:'NoneType' object has no attribute 'parent' 下面是我的简单代码： from urllib.request import urlopen from bs4 import BeautifulSoup url=urlopen("https://www.instagram.com/people") html=url.read() soup=BeautifulSoup(html,"html.pa

浏览 25提问于2017-02-11得票数 0

2回答

使用Python中的优美汤迭代xml中的非href链接并检索特定信息

、、、、

我是个蟒蛇初学者，刚开始学习使用Bsoup爬行网站。我试图从上的所有单独链接中提取联系信息(地址、公司名称)。通常，我知道如何在典型的html源代码中检索href列表，但由于这是一个xml，所以我只能分离出以下格式的链接： [u''] 到目前为止，我的代码给了我所有的公司链接，但我不知道如何让它通过每一个，并提取相关的信息。 from bs4 import BeautifulSoup import requests import re resultsdict = {} companyname = [] url1 = 'http://www.agenzia-inte

浏览 5提问于2013-12-18得票数 1

回答已采纳

4回答

查找下面的带有pyparsing的标记

、、、

我正在使用pyparsing来解析HTML。我正在抓取所有的embed标记，但在某些情况下，有一个a标记紧跟在后面，如果它可用的话，我也想抓取它。示例： import pyparsing target = pyparsing.makeHTMLTags("embed")[0] target.setParseAction(pyparsing.withAttribute(src=pyparsing.withAttribute.ANY_VALUE)) target.ignore(pyparsing.htmlComment) result = target.searchString(

浏览 3提问于2009-11-20得票数 4

回答已采纳

1回答

为什么我的带有特殊字符的BeautifulSoup文本搜索无法检索我的元素？

、、、

我使用的是Python3.7，Django 2和Beautiful Soup4。我有这个HTML片段…… <p class="tagline ">submitted  on 2/20/2019</p> 我想检索这个元素，所以我创建了下面的代码... bs = BeautifulSoup(html, features="lxml") ... pattern = re.compile(r'^submitted\&\#32\;') submitted_elt = bs.find(text=pattern)

浏览 14提问于2020-02-27得票数 0

回答已采纳

1回答

尝试使用美汤访问[‘KeyError’]时的样式

、

我尝试使用Beautiful Soup4访问页面上的DIV元素的样式，但我一直收到一个关键错误。我知道样式肯定在那里，因为我可以使用浏览器中的检查器检查它们，并且我可以看到带有"header large border“类的DIV的样式。(见附图) 这是我的代码； url = 'https://www.themoviedb.org/movie/595743-sas-red-notice' response = requests.get(url, headers=headers) soup = bs4.BeautifulSoup(response.text, 'h

浏览 31提问于2021-09-19得票数 1

1回答

BeautifulSoup和php/html文件

、、、、

我一直在使用BeautifulSoup将一些古老的HTML文件中的相对URL从一个归档站点转换为绝对URL(主要是为了让.htaccess规则更好地针对它们)。下面这部分:搜索特定的标记和它们的att，使用urllib.parse.urljoin (这是Python3)进行更正。很好。然而，在这个集合中也有一些.php文件，从这个网站的后期开始。他们大多使用3-5行来包含其他.php文件，其余的都是HTML，不过也有一些例外。问题： BeautifulSoup解析器试图解释<?php ?>标记之间的内容。事实上，似乎有这样的情况，他们只是去掉尖括号，但留下了问号 for c i

浏览 2提问于2017-01-12得票数 4

回答已采纳

4回答

如何使用BeautifulSoup从网站中抓取所有标题？

、、、

我试图从一个简单的网站抓取所有的标题。我的尝试： from bs4 import BeautifulSoup, SoupStrainer import requests url = "http://nypost.com/business" page = requests.get(url) data = page.text soup = BeautifulSoup(data) soup.find_all('h') soup.find_all('h')返回[]，但是如果我执行类似于soup.h1或soup.h2的操作，它将返回相应的数据。我是不是不

浏览 5提问于2017-07-12得票数 13

回答已采纳

1回答

如何防止使用BeautifulSoup (python)在错误的HTML中关闭标记？

、、、

我自动地将HTML页面的内容翻译成不同的语言，所以我必须从不同的HTML页面中提取所有的文本节点，这些HTML页面有时写得很糟糕(我无法编辑这些HTML)。通过使用BeautifulSoup，我可以很容易地提取这些文本并将其替换为翻译，但是当我在这些操作之后显示HTML时: html = BeautifulSoup(source_html) --有时会因为BeautifulSoup自动关闭标记而中断(例如，表标记在错误的位置关闭)。有办法阻止BeautifulSoup关闭这些标记吗？例如，这是我的输入： html = "<table><tr><td&

浏览 8提问于2011-09-19得票数 5

1回答

用BeautifulSoup解析python中的文本

、

我使用的是来自kaggle的安然电子邮件数据。我正在读取emails.csv文件。我正在使用BeautifulSoup解析消息列。 import pandas as pd train = pd.read_csv( "C:\Users\JAYASHREE\Documents\NLP\enron-email-dataset (1)\emails.csv") from bs4 import BeautifulSoup message=train["message"] message[0] soup = BeautifulSoup(message[0],"lxm

浏览 4提问于2017-08-02得票数 2

1回答

BeautifulSoup解析器混淆- HTML

我试图从另一个站点上抓取一些内容，但我不确定为什么BeautifulSoup会产生这样的输出。它只在匹配中找到一个空格，但真正的HTML包含大量标记。如果这是我的愚蠢之处，我道歉。我是python的新手。下面是我的代码： import sys import os import mechanize import re from BeautifulSoup import BeautifulSoup def scrape_trails(BASE_URL, data): #Get the trail names soup = BeautifulSoup(data) site

浏览 0提问于2011-01-09得票数 1

回答已采纳

1回答

用id网络抓取python <span>

、、、、

我想要在<span/>属性中使用BeautifulSoup为给定的网站报废数据。你可以在屏幕截图中看到它所在的位置。但是，我使用的代码只是返回一个空列表。我找不到我想要的名单上的数据。我做错了什么？ from bs4 import BeautifulSoup from urllib import request url = "http://144.122.167.229" opener = urllib.request.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5

浏览 2提问于2018-02-22得票数 0

回答已采纳

1回答

如何在python中只丢弃html标记并提取相关的文本

、、、

我使用lxml提取与html标记相关联的文本，但它也将<>括号中的所有内容作为标记并丢弃。除了标准的html标记之外，还有什么方法可以保留文本中的所有内容吗？ from lxml import html data="<EXPE>(i)<i>you</i>" print(html.fragment_fromstring(data).text_content()) 这给出了输出 '(i)you' 但是所需的输出将是<Expe>(i)you 我也尝试了同样的美丽汤如下： from bs4 import Bea

浏览 2提问于2020-01-12得票数 1

1回答

如何提取<a class..> Text</a>之间的文本，然后对列中的文本进行排序

、、

我需要帮助删除html代码< a >和< /a >元素，只有离开之间的文本(在图片中标记为黄色)。文本应列在表中标题为"Description“的列中。我用来获取结果的代码： soup = BeautifulSoup( html, 'html.parser' ) ul = soup.select("h2 > a" ) 有什么想法吗？

浏览 3提问于2020-02-08得票数 0

2回答

解析HTML --为什么这个文档必须用文本而不是标记来解析呢？

、、、

我使用了一个Python模块，它可以抓取一个站点，并在下面的代码中注意到它处理不同的表的方式不同： def player_stats(request, stat, numeric=False, s_index=False): """ """ supported_tables = ["totals", "per_minute", "per_poss", "advanced", "playoffs_per_

浏览 3提问于2021-01-14得票数 0

回答已采纳

5回答

如何在Python中获取Html页面的内容

、、

我已将网页下载到html文件中。我想知道获取该页面内容的最简单方法是什么。就内容而言，我的意思是我需要浏览器所显示的字符串。要明确：输入： <html><head><title>Page title</title></head> <body><p id="firstpara" align="center">This is paragraph <b>one</b>. <p id="secondpara"

浏览 7提问于2010-03-10得票数 4

回答已采纳

1回答

如何用BeautifuSoup读取html标签的内容？

、

<td class="tag"> <a href="/tag/android" rel="tag"> <img src="http://127.0.0.1/idf2.png" > android </a> </td> 代码： soup = BeautifulSoup(html) print html.td.a.string # output None BeautifulSoup4中的哪种方法可以检索到&l

浏览 0提问于2013-06-07得票数 0

回答已采纳

1回答

用SoupStrainer解析注释

、、

如何使用SoupStrainer解析注释？我知道如何使用BeautifulSoup解析注释，但我想使用SoupStrainer来加速代码。这个是可能的吗？示例： from bs4 import BeautifulSoup,Comment import requests txt = requests.get('https://www.basketball-reference.com/boxscores/202012220BRK.html').text sp = BeautifulSoup(txt,'lxml') comment = sp.find(text

浏览 1提问于2021-09-16得票数 0

1回答

为什么在使用BeautifulSoup.find_all函数时会有附加的'/‘字符？

、、

我尝试从HTML页面中查找图像标记，如下所示： <img src="../img/gifts/img1.jpg"> <img src="../img/gifts/img1.jpg"> 等等…… 但是当我使用Web Scraping 2中的代码时: Ryan Mitchell from bs4 import BeautifulSoup import re html = urlopen('http://www.pythonscraping.com/pages/page3.html') bs = BeautifulSoup(

浏览 20提问于2020-10-29得票数 0

1回答

美汤在源文件中找到标签的位置？

、、

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

MIP包装:如何检索标签的保护设置，如标签的加密和标记属性

需要帮助检索标签的保护属性，如“加密文件&电子邮件”、“和”，使用MIP包装库编程标记文件内容“”。 Label类中没有字段来保存这些值： public class Label { private String id; private String name; private String description; private String color; private int sensitivity; private String tooltip; private String autotooltip; private ActionSource actionsource; pri

浏览 4提问于2021-08-27得票数 0

4回答

BeautifulSoup不能解析网页吗？

、、

我现在正在使用漂亮的汤来解析网页，我听说它很有名，也很好，但它似乎不能正常工作。下面是我所做的 import urllib2 from bs4 import BeautifulSoup page = urllib2.urlopen("http://www.cnn.com/2012/10/14/us/skydiver-record-attempt/index.html?hpt=hp_t1") soup = BeautifulSoup(page) print soup.prettify() 我认为这是一种简单的方式。我打开网页，把它传给漂亮的汤。但这是我得到的： Warning

浏览 0提问于2012-10-15得票数 5

回答已采纳

1回答

如何在字符串上使用eval()获取对象值

、、

我在玩维基百科的json，所以…我有这个对象： Object {query: Object} query: Object pages: Object 869994: Object ns: 0 pageid: 869994 revisions: Array[1] title // <- I need you baby 使用id检索(在本例中为869994)。现在我想检索标题，所以我应该使用 $.getJSON(myIdUrl, function(data) {

浏览 0提问于2012-09-30得票数 0

回答已采纳

2回答

BeautifulSoup查找元素，但不查找其文本

、

我试图提取游戏统计的MLB游戏使用BeautifulSoup。到目前为止，它运行得很好，但我只是注意到，我无法使用通常的方法检索有关游戏开始时间的信息： soup.findAll("span"，{"class"：“时间游戏-时间”}) 奇怪的是，它找到了确切的元素，并允许我打印它，它表明，除了文本之外，汤已经找到了元素的所有内容。不幸的是，文字部分是我所需要的。图片：有疑问的网址：不需要使用像Selenium这样的way驱动程序就可以解决这个问题吗？代码： with urllib.request.urlopen(link) as url:

浏览 2提问于2018-02-22得票数 3

回答已采纳

1回答

Python BS4与SDMX

、、、、

我想检索SDMX文件(如)中给定的数据。我尝试使用BeautifulSoup，但它似乎看不到标签。在下面的代码中 import urllib2 from bs4 import BeautifulSoup url = "https://www.bundesbank.de/cae/servlet/StatisticDownload?tsId=BBK01.ST0304&its_fileFormat=sdmx" html_source = urllib2.urlopen(url).read() soup = BeautifulSoup(html_source, 'lx

浏览 13提问于2016-09-16得票数 1

回答已采纳

1回答

使用BeautifulSoup解析HTML时缺少特殊字符和标记

、、、、

我试图使用BeautifulSoup和Python一起解析一个HTML。但它停止了对特殊字符的解析，如下所示： from bs4 import BeautifulSoup doc = ''' <html> <body> <div>And I said «What the %&#@???»</div> <div>some other text</div> </body> </html>''' so

浏览 3提问于2018-01-06得票数 3

回答已采纳

2回答

用于从视图源代码获取所有链接的python代码，包括所有标记

、、

有人可以指导我，如何获得所有的链接，在查看页面源代码中可见的使用python。我想从所有标签(如link，a，img，css...everything)中检索所有链接。.below是我尝试过的代码。 import requests from bs4 import BeautifulSoup r=requests.get(url) soup = BeautifulSoup(r.content) soup.prettify() for anchor in soup.find_all('a',href=True): print anchor['href'] f

浏览 1提问于2016-02-19得票数 0

2回答

在Django中没有为BeautifulSoup获得任何输出

、、、

我正在尝试Django中的BeautifulSoup4，并使用它解析了一个XML页面。当我尝试用不同的方式在python解释器中解析同一个XML页面时，它工作得很好。但是在Django中，我得到了如下所示的页面。 views.py： def rssfeed(request): list1=[] xmllink="https://rss.sciencedaily.com/computers_math/computer_programming.xml" soup=BeautifulSoup(urlopen(xmllink),'xml'

浏览 1提问于2016-09-19得票数 3

回答已采纳

3回答

如何消除html标签？

、

我正在从页面中获取第一段，并试图提取适合作为标记或关键字的单词。在一些段落中有链接，我想删除标记：例如，如果文本是 A <b>hex triplet</b> is a six-digit, three-<a href="/wiki/Byte" enter code heretitle="Byte">byte</a> ... 我想移除 <b></b><a href="/wiki/Byte" title="Byte"></a> 以这样的方

浏览 3提问于2011-10-15得票数 2

回答已采纳

1回答

美汤的使用

、

我从另一个开发人员那里继承了一个函数，该函数应该检查电子邮件消息的body参数是HTML正文还是明文。如果它是HTML，它会将正文的普通版本和html版本附加到消息中，如果主体不是html，则只附加一个普通正文。 def insertBody(self, body): if bool(BeautifulSoup(body, "html.parser").find()): b = MIMEMultipart('alternative') b.attach( MIMEText(html2text.html2text(body)

浏览 6提问于2017-05-17得票数 0

回答已采纳