HTML不能捕获文件中的所有BeautifulSoup_Selenium和BeautifulSoup不能获取所有HTML内容_BeautifulSoup不能从解析的html中找到所有标签吗？ - 腾讯云开发者社区

python、html、beautifulsoup

因此，我在Python中使用BeautifulSoup (bs4)，并尝试从网页中提取信息。作为参考，我正在查看的网页是一个高级搜索引擎，我想要的相应HTML是： <p class="viewing"> 1</strong值11,204的Xpath。我使用的是lxml解析器，堆栈上的大多数答案都表明这是一个解析问题，所以我查看了ht

浏览 7提问于2020-04-11得票数 0

4回答

Python -正则表达式-查找除标签之外的所有单词

python、regex

如何使用RE模块查找除标签中的单词之外的所有单词？它会打印<>标记中的所有内容，但是如何让它找到除了那些标记中的所有单词呢？我尝试在[]中的patte

浏览 3提问于2012-10-29得票数 0

回答已采纳

1回答

使用BeautifulSoup解析html文件

python、beautifulsoup、html-parsing

我有这个html文件： <head></head> Text1 <a href="XYCL7Q.html对于Text3，我没有问题，但是我不能捕获文本1-2；通过这样做： from bs4 import BeautifulSoup

浏览 2提问于2014-12-06得票数 0

2回答

用BeautifulSoup解析一小段HTML代码

python、beautifulsoup

我正在尝试解析特定网站上的一些数据，我已经找到了我需要的数据的确切位置，但当我在chrome中检查它时，我看到了我需要的数据，时间，当我在chrome上检查时，它是这样的：然而，当我在python中定位到这个特定的文本时，时间无处可见(我怀疑它是隐藏的)(见附件中的第二

浏览 1提问于2019-04-03得票数 0

1回答

BeautifulSoup (bs4)，html5lib，HTMLParseError:格式错误的开始标记，位于第1行，第11列

python、bs4、html5lib

我需要将源代码从网站复制到本地存储的html文件中，因为直接从url解析并不能捕获所有页面元素。我希望在源代码中提取一个表中的位置元素，用于地理编码。我的程序遍历几个页面的搜索结果，将每个页面的源代码写入本地存储的一个html文件。address元素大约只占每页材料的三分之一，所以去掉额外的元素以减小文件大小会

浏览 15提问于2017-07-01得票数 0

回答已采纳

1回答

在http服务器上存在url为http://somehost/maindir/recent/的目录。并且这个“最近”目录包含例如50个zip子目录。我可以用以下命令读取一个zip文件 zfile = "http://somehost/maindir/recent/1.zip" with RemoteZip(zfile) as zip:data = zip.read(zip_info.filename) 但是我没有任何想法去遍历"

浏览 22提问于2020-08-19得票数 1

回答已采纳

2回答

如何用Python将这种html表格转换成excel？

python、html、excel、pandas

在编写基于python的脚本时，我遇到了一个奇怪的html_table，它类似于： <tr> </tr> 我知道我可以使用MS Excel将其转换为普通的.xls或.xl

浏览 135提问于2020-11-04得票数 0

2回答

Regex-处理null (当表达式之间没有字符)

python、regex

我的短信看起来是：我想捕捉所有的超链接，下面是我写的正则表达式-['</a></div>abcd<i><a href=">World Bank&#

浏览 1提问于2015-10-26得票数 1

回答已采纳

1回答

美汤在源文件中找到标签的位置？

python、html、beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

如何使用Regex从HTML源代码中提取JSON

python、html、json、regex、parsing

Python脚本import jsonimport re soup = BeautifulSoup(r.content,'html.parser') URL：我试图使用Reg

浏览 2提问于2021-08-30得票数 0

回答已采纳

1回答

如何解析pyspark中的html文件并使用Beautifulsoup？

html、apache-spark、beautifulsoup、pyspark、hdfs

我遇到了一个非常困难的情况:我需要解析中的一堆html文件，但是我仍然希望使用BeautifulSoup来解析html文件。目前的困境是：如果我将这些html文件保存在HDFS中，并使用pyspark读取html文件，则只能以 RDD 的形式读取它们，但不能将RDD作为BeautifulSoup<

浏览 0提问于2017-10-23得票数 2

2回答

使用BeautifulSoup从多个XML列表中提取文本数据

python、xml、beautifulsoup

我正在解析一个大小为150 on的xml文件。因为美丽的汤是众所周知的，所以我捡了起来。由于根标记不在这里，所以我根据每个元素的主标记将其拆分，因为它是相同的，并转换为列表(同样是其中的两千个)。情况如下：from bs4 import BeautifulSoupbtree = BeautifulSoup2000次，而不是

浏览 1提问于2017-08-26得票数 1

回答已采纳

1回答

如何使用BeautifulSoup清除隐藏的数据元素

python、beautifulsoup

Level2StockQuotes.com提供了免费的实时顶级引用，我想用BeautifulSoup用python捕获这些引用。问题是，即使我可以在浏览器检查器中看到实际的数据值，我也不能将这些值抓取到python中。 BeautifulSoup返回每个数据元素为空的所有数据行。Pandas为每个数据元素返回一个带有NaN的数据帧。equities/market_statistics/book&#

浏览 0提问于2019-08-13得票数 0

2回答

我尝试使用以下代码从url中抓取数据，它将显示一条错误消息：

python、web-scraping

from urllib2 import urlopenfrom array import array import csvurl = ['http://cura.free.fr/gauq/902gdA1.html', 'http://cura.free.fr/gauq/902gdA1y.html', 'http:&

浏览 2提问于2017-04-13得票数 0

回答已采纳

1回答

使用BeautifulSoup来利用URL及其相关页面，并将结果存储在csv中？

pandas、csv、web-scraping、beautifulsoup、pagination

我希望在icao_publications.csv中填充所有页面上的所有记录，并捕获所有页面。数据集应该大约为10,000行或其总计约10,000行。我想在csv文件中得到这10,000行左右的数据。import requests, csv url = 'https://www.icao.int/publicatio

浏览 1提问于2022-01-12得票数 0

回答已采纳

3回答

美汤不会返回网页上的所有文本

python、web-scraping、beautifulsoup

尝试通过when抓取站点，但Beautifulsoup不能返回仅查看网页时可见的所有文本。/en/resorts-and-destinations" soup = BeautifulSoup(response.text, 'html5lib')f.close() 例如，以下文本在网页上可见，但不会由Beautifulsoup<

浏览 51提问于2020-09-18得票数 1

1回答

解析电子邮件中的“发送”行

python、regex、email、beautifulsoup

我有一个包含大约150封电子邮件的文件夹，全部保存为HTML文件(Firefox扩展名)，我需要捕捉“发送”行中总是能找到的年份；如下图所示。我试过使用RegEx，但失败了；它根本没有打印任何结果，表明我的RegEx不工作。我尝试使用来自get_payload()模块的email和message_from_string()命令，但是由于它是一个HTML，所以失败了。然后我尝试使用BeautifulSoup<

浏览 2提问于2017-01-24得票数 1

回答已采纳

2回答

如何通过Python中的“美丽汤”找到类和类名中有空格的文本？

python-3.x、web-scraping、beautifulsoup

例如，我在<div>中有一个类，还有一个类有空格。

浏览 3提问于2016-11-15得票数 2

回答已采纳

1回答

BeautifulSoup将单引号替换为双引号

python、beautifulsoup

在Python的BeautifulSoup4中，如果我执行以下命令：print soup澄清：我使用urllib2获取以下页面的html：http://www.download3000.com/，然后使用BeautifulSoup4仅提取

浏览 1提问于2013-07-22得票数 4

6回答

python中正则表达式的问题

python、html、regex

好的，我正在使用一个正则表达式来搜索站点中的所有标题信息。regex = re.compile(r'''当我在python reg ex中运行它的时候。测试人员，它工作得很好。然而，当我把它放到我的python代码中时，它只打印<a href="dog.com"> 这是我的</

浏览 0提问于2008-09-18得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云