python的HTML解析器，可以跟踪标签在HTML文档中的位置_html中带制表符的PHP标头位置_用于HTML解析器的Python中的http请求和regex - 腾讯云开发者社区

、、

我正在使用python解析HTML页面。我需要定位某些标签，并以字节为单位测量它们之间的距离。我使用了BeautifulSoup，但它无法获取found标签的位置。有没有能做到这一点的python库？谢谢

浏览 13提问于2020-10-22得票数 0

1回答

现有的函数不是函数吗？

、

我的函数正常工作，直到突然单击一个应该运行download()的按钮，但它不运行。因此，我打开控制台，看到如下：我很困惑。所以我认为这可能是onclick的一个问题(我的按钮有onclick="download()")，所以我使用JavaScript来添加单击事件。$("#download").onclick=download() 注意：$()是一个定制的jQuery函数，而不使用框架本身

浏览 4提问于2018-04-18得票数 1

回答已采纳

2回答

使用find时BeautifulSoup挂起

、、、、

我有一个html文档，如下所示：<p> this is tab </p></body></html>这是我的代码： from bs4 import Be

浏览 0提问于2016-03-18得票数 3

3回答

如何消除BeautifulSoup用户警告？

、

安装BeautifulSoup后，每当我在命令行中运行Python时，就会发出以下警告：UserWarning: No parser was explicitly specified, so I'm using the best available HTMLparser for this system ("html.parser

浏览 4提问于2015-11-04得票数 67

回答已采纳

1回答

我试着从一个网站上抓取一些数据，发现BeautifulSoup4并没有像我期望的那样显示全部内容。在下面的第一个示例中，一切运行正常。不幸的是，在第二种情况下，以同样的方式找到标题，它返回的内容只有1个元素，我预计会有3个元素。我希望内容包含'a‘标签，文本和跨度，但它似乎只有'a’标签。编辑:我发现问题出在解析html响应的某个地方，因为它将第二个示例中的更改为如下所示： <h1 class="t

浏览 15提问于2020-09-08得票数 0

1回答

使用“另存为”下载的HTML与使用Python请求下载的HTML略有不同

、、、

因此，我使用以下代码通过请求将页面下载到另一个html文件中：with open('page_content.html“另存为html”页具有正确的结束标记，但“请求”页缺少某些标记的结尾。例如，另存为文档的所有标记都已关闭： <td>stuff</td> </

浏览 0提问于2019-05-13得票数 0

3回答

一个快速的python HTML解析器

、、、

我写了一个python脚本，处理大量下载的网页HTML(120K页面)。我需要解析它们并从中提取一些信息。我试过使用BeautifulSoup，它简单直观，但运行起来似乎超级慢。因为这是必须在弱机器(在amazon上)上例行运行的东西，所以速度很重要。在python中有没有比BeautifulSoup快得多的HTML/XML解析器？或者我必须求助于正则表达式解析..

浏览 0提问于2012-03-13得票数 14

回答已采纳

2回答

用Erlang编写HTML解析器

、

我对Erlang非常陌生，作为学习练习的一部分，我想用Erlang编写一个HTML解析器。我认为我需要将文档转换为一堆令牌，也许可以使用有限状态机来跟踪我在嵌套方面的位置以及我在元素中的位置

浏览 8提问于2010-06-24得票数 9

回答已采纳

2回答

美丽的汤和表格抓取- lxml与html解析器

、、、、

我正在尝试使用BeautifulSoup从网页中提取表格的超文本标记语言代码。我想知道为什么下面的代码与"html.parser"一起工作，并打印回none，如果我将"html.parser"更改为"lxml"。

浏览 3提问于2014-09-08得票数 14

回答已采纳

1回答

使用BeautifulSoup进行网络抓取返回NoneType

、

page = requests.get("https://gematsu.com/tag/media-create-sales") print (content) print ("Exception") 但是，这将返回一个NoneType，即使div在网站上具有正确的ID我看到页面上有id

浏览 1提问于2019-01-18得票数 3

回答已采纳

1回答

如何在jsoup中获取元素或节点的文本点

、

我正在使用jsoup，我需要知道Jsoup中元素或节点的文本点。例如:我有html：<p><span>1</span></p>，那么我需要知道<p>的文本点是0，<span>是4，</span>是10……如何做到这一点？

浏览 1提问于2015-09-05得票数 0

1回答

如何使用BeautifulSoup查看闭合标签的总数？

、

下面的代码检查是否有一个以上的打开html标签， <html> </html>""" print len(sou

浏览 0提问于2014-03-02得票数 1

2回答

这个解析XHTML时的XPath查询是错误的吗？使用TouchXML

、、、、

我一直在尝试通过TouchXML解析XHTML文档，但它总是无法通过XPath query找到任何标签。XHTML <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"因此，我们可以看到有一个"

浏览 0提问于2011-08-12得票数 5

回答已采纳

1回答

'BeautifulSoup‘和'lxml’之间有什么关系？

、、、

在“lxml's ”中，它写道：美丽的</em

浏览 2提问于2015-08-25得票数 3

回答已采纳

2回答

具有store_true标志的可选子解析器

、、、

如果我的术语取消了，请原谅我，但是我正在寻找一种方法，将子解析器添加到一个可选的arg解析参数中，每个arg上都有store_true标志。理想情况下，我希望使用以下语法来引用--html子解析器中的布尔值： print("Doing a thing") parser = argparse.ArgumentParser", action="s

浏览 3提问于2013-10-03得票数 0

回答已采纳

17回答

bs4.FeatureNotFound:找不到具有您请求的功能的树构建器: lxml。你需要安装解析器库吗？

、、、

...File "/Library/Python/2.7/site-packages/bs4/__init__.py", line我的终端上的上述输出。我使用的是Mac OS 10.7.x。我有Python2.7.1，并跟随获得了Beautiful Soup和lxml，它们都安装成功，并且可以使用单独

浏览 5提问于2014-06-25得票数 341

3回答

不能将file.readline()行与字符串进行比较

、

我试图将我的file.readline中的一行与字符串进行比较，但这是行不通的。我正在读取一个html文件，需要解析该文件才能将该部分发送到字典，但是当我使用if将一行行与字符串进行比较时，当它们匹配时，它不会返回True。

浏览 1提问于2017-05-13得票数 0

回答已采纳

1回答

Python3，BeautifulSoup删除段落标记

、、、、

如果有下面的html块：当我做以下事情时：soup = BeautifulSoup(chunk)>>> soup <html><body><p>BLA bla bla html...</p><div>

浏览 2提问于2014-08-11得票数 2

回答已采纳

1回答

Python3-HTTP代理问题

、、

我在Windows 7中使用python3.3.0。import sys, urllibproxies = {'http

浏览 1提问于2013-03-03得票数 0

2回答

JTidy保留CSS规则

、、、

寻找一种方法来获取一些像这样的html： <head> *.td { </style> <body> </body> </<em

浏览 1提问于2011-03-31得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云