如何使用Python和BeautifulSoup定位某些html标记

文章/答案/技术大牛

发布

1回答

python、html

我想用Python和BeautifulSoup从div class = "wxColumn wxColumn-seven dotw_0"中提取信息，直到div class = "wxColumn wxColumn-sevendotw_6"，但我不知道如何找到这些div。下面是我写的代码 import requests page = requests.get("https://

浏览 27提问于2020-06-28得票数 1

1回答

python的HTML解析器，可以跟踪标签在HTML文档中的位置

python、html、html-parsing

我正在使用python解析HTML页面。我需要定位某些标签，并以字节为单位测量它们之间的距离。我使用了BeautifulSoup，但它无法获取found标签的位置。有没有能做到这一点的python库？谢谢

浏览 13提问于2020-10-22得票数 0

3回答

从HTML中读取头内容

python、html、html-parsing

我需要在python的小脚本。需要读取web文件中的自定义块。# -*- coding: utf-8 -*-response= urllib2.urlopen(req)print the_page # Here is all page source with html</

浏览 1提问于2010-12-20得票数 2

回答已采纳

1回答

使用Python3.0中的Beautiful获取特定链接的最有效方法是什么？

python、html、beautifulsoup

我目前正在学习古瑟尔的Python专业知识。我遇到了使用BeautifulSoup从网页中提取特定链接的问题。虽然我可以用列表来编程，但我想知道是否有更简单的方法可以不使用列表或字典来实现呢？html = urllib.request.urlopen(url, context=ctx).read() soup = BeautifulSoup(html, 'html.parser')'a‘标记<em

浏览 3提问于2017-09-01得票数 0

回答已采纳

1回答

如何动态地找到所选元素的最近的特定父级？

python、html、beautifulsoup、html-parsing

我希望解析许多html页面，并使用beautifulsoup html.parser和python删除包含文本"Message“的div。div没有名称或id，因此指向它是不可能的。这是因为在这个html页面中，div标记和文本"Message“之间有5个标记(p，i，b，span，a)，第6个标记是div。下面的代码适用于1 html页面。soup = Beautifu

浏览 8提问于2022-11-30得票数 2

回答已采纳

1回答

美汤在源文件中找到标签的位置？

python、html、beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

5回答

如何修复错误的嵌套/未闭合的HTML标记？

python、html、algorithm、xhtml

我需要清理由用户提交的HTML通过关闭任何与正确的嵌套顺序打开的标签。我一直在寻找一种算法或Python代码来做这件事，但除了PHP等的一些半生不熟的实现外，我什么也没找到。

浏览 7提问于2008-11-16得票数 21

回答已采纳

2回答

在BeautifulSoup中使用过滤器时获取内部标记文本

beautifulsoup

我有：<div id="price">$199.00</div>我怎么才能得到$199.00的文本。使用不起作用，因为我从整个文档中获得了所有的innet文本。

浏览 1提问于2013-11-27得票数 0

3回答

相同的CSS，不同的结果在浏览器和bs4 .select()方法

python、parsing、beautifulsoup、css-selectors

tbody:nth-of-type(1)>tr:nth-of-type(1)>td:nth-of-type(5)>table:nth-of-type(1)>tbody:nth-of-type(1)'import requestsimport lxml url = 'https://web.archive.orglike Gecko) Chrome/53.0.2785

浏览 0提问于2018-12-14得票数 1

7回答

BeautifulSoup解析的问题

python、beautifulsoup

我正在尝试用BeautifulSoup解析一个html页面，但是看起来BeautifulSoup根本不喜欢这个html或者那个页面。"-- HTML ------------------------------------------"print "-- BeautifulSoup ---------------------------------" print BeautifulSoup

浏览 1提问于2009-03-02得票数 5

回答已采纳

3回答

漂亮的汤和bs4有什么区别？

python、xml、python-3.x、beautifulsoup、bs4

我是python的新手，我试着解析一些XML文件，以便添加一些新标记并存储新的XML文件。python-bs4 - error-tolerant HTML parser for

浏览 2提问于2015-03-27得票数 25

回答已采纳

2回答

如何导航到BeautifulSoup对象中的特定标记？

python、xml、beautifulsoup

链接到我正在使用的url：new_url = r"https://www.sec.gov/Archives/edgar/data/789019/000106299321002323/0001062993-21-002323.txt" response = requests.get(n

浏览 5提问于2021-04-28得票数 0

回答已采纳

2回答

Python 3 web抓取选项

python-3.x、web-scraping

我是Python的新手，所以很抱歉这是一个新手问题。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

1回答

如何根据<p> <div>或<br>标记的存在来拆分html页面

python、html-parsing、beautifulsoup、lxml

因此，第一个<p>标记将包含从<html>到相关<p>标记的所有数据/标记。我看过类似于lxml项目中的etree的东西，但它看起来并不重要。我看到的与“普通”html解析的不同之处在于所选标签的数量。我想要选择多个标签和它们的数据，并将它们分开保存，而“普通”html解析工具提供了只选择一个单独的标签/标签的能力(使用xpath等)并使用它。(我对web编程也是个新手)。我已经想出了一种方法，我

浏览 1提问于2013-07-30得票数 1

4回答

BeautifulSoup和lxml.html -首选哪个？

python、beautifulsoup、lxml

我正在从事一个项目，将涉及解析HTML。有什么理由更喜欢其中之一吗？我以前使用过lxml for XML，我觉得我会更习惯使用它，但是BeautifulSoup似乎很常见。我知道我应该使用对我有效的那个，但我在寻找两者的个人经验。

浏览 1提问于2011-02-11得票数 38

回答已采纳

2回答

使用Python和BeautifulSoup解析表

python、html、parsing、beautifulsoup

我正在尝试使用Python和BeautifulSoup访问某些td标签中的内容。我可以获得满足条件的第一个td标记(使用find)，也可以获取所有的td标记(使用findAll)。现在，我可以只使用findAll，获取所有内容，并从中获取我想要的内容，但这似乎效率很低(即使我对搜索进行了限制)。有没有办法转到满足我想要的条件的某个td标签？比如说第三个，还是第十个？__ import unicode_literals

浏览 0提问于2011-06-21得票数 1

回答已采纳

3回答

用标签替换字符串中的单词

python、beautifulsoup

让我们考虑以下HTML片段： <p>'''from bs4 import BeautifulSoup soup = BeautifulSoup(html, '

浏览 0提问于2019-04-04得票数 2

回答已采纳

2回答

使用find时BeautifulSoup挂起

python、html、parsing、beautifulsoup、html-parsing

></html>这是我的代码：soup = BeautifulSoup(data, 'html5lib')当我运行它时，bs4仍然在循环中并且不返回任何东西，可能是因为在某些HTML数据中不存在标记a。data是一个多行的变量html strin

浏览 0提问于2016-03-18得票数 3

1回答

调整Craigslist刮板Python

list、python-3.x、automation、craigslist

我正在尝试修改我在网上找到的python2.7Craigslist刮板，使其与python3.6一起工作。from bs4 import BeautifulSoup URL = 'http

浏览 11提问于2017-06-22得票数 0

1回答

漂亮的汤在标签中找到标签

python、beautifulsoup

我保证:)这是在Python2.7.3下的BS4和lxml解析器中实现的。我有这样的经历： self.chaptername = self.soup.find_all('center h3 b') 在我的html中我有 <center><h3><b>Chapter 34</b我是否应该能够查找<center><h3><b>嵌套结构，或者我使用BS4是错误的？谢谢你，艾德

浏览 15提问于2021-08-01得票数 1

点击加载更多