开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >解析网页

问解析网页
EN

Stack Overflow用户

提问于 2009-11-23 15:05:28

回答 3查看 5.8K关注 0票数 1

我有一个关于解析HTML页面的问题，具体的论坛，我想解析一个论坛或线程包含某些后标准，我还没有定义算法，因为我以前只解析过结构文本格式，用例可以通过手工复制和粘贴每个线程到程序中，或者插入像http://www.forums.com/forum/showthread.php?t=46875&page=3这样的URL并让程序解析页面。

鉴于这一切，我想知道：

可以在HTML页面上解析论坛线程吗？
做这件事的最好/最快/最简单的语言是什么？
如果我更喜欢Java，那么我需要哪些工具/库呢？
还有什么我该考虑的吗？

EN

回答 3

Stack Overflow用户

发布于 2009-11-23 15:13:41

1/是

2/使用一些紧凑的语言，如python或ruby来进行原型设计。

对于python，有一个名为美汤的简洁的HTML/XML解析库。
对于红宝石，你可以尝试：诺科吉里或杏子

3/一个需要考虑的Java工具：htmlparser解析器

[4]如果您只对某些特定的文本或某些特殊类感兴趣，那么正则表达式可能就足够了。但是，只要您想深入了解内容的结构，您就需要某种模型来保存您的数据，因此需要一个解析器，在最好的情况下，它可以处理现实中html的不一致性。

票数 2

EN

Stack Overflow用户

发布于 2009-11-23 15:17:31

您可能希望查看某种类型的html解析库，而不是使用正则表达式来实现这一点。红宝石和python有一些非常好的html解析器，但是快速的谷歌显示也有很多用于java的解析器。这些库的好处是，您不必使用正则表达式处理每一个边缘大小写/它们处理格式错误的html (根据您想要做什么，使用regexes这两种方法都是不可能的)，并且它们还为您提供了处理数据的许多方法(例如，漂亮的soup允许您获取属于特定类的所有元素，或者使用其他css选择器来限制您想要处理的页面元素)。

就我个人而言，至少在一开始，我会从ruby或python开始，因为库是已知的，并且有很多关于使用它们的信息。此外，我发现在ruby或python中快速原型这些类型的东西比在jvm中更容易。如果有必要，您甚至可以在以后使用jruby或jython将该代码带到jvm中。

票数 1

EN

Stack Overflow用户

发布于 2009-11-23 15:09:08

是
正则表达式，任何味道。
可能是那个
外面有很多工具为你做这件事.

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1786689

复制

相关文章

html 正则表达式 xml python

网页解析完成的是从下载回来的html文件中提取所需数据的方法，一般会用到的方法有:

爱编程的小明

2022/09/06

3.2K0

深入解析网页结构解析模块beautifulsoup

beautifulsoup button class input select

beautifulsoup（以下简称bs），是一款网页结构解析模块，它支持传统的Xpath，css selector 语法，可以说很强大了，下面我们就来着重介绍下它的用法。

Python进阶者

2021/04/19

2.5K0

深入解析网页结构解析模块beautifulsoup

使用BeautifulSoup解析网页内容

html 数据分析

BeautifulSoup模块用于解析html和xml文档中的内容，相比正则表达式，其更好的利用了html这种结构性文档的树状结构，解析起来更加方便。

生信修炼手册

2020/11/09

3K0

使用BeautifulSoup解析网页内容

数据获取：网页解析之BeautifulSoup

beautifulsoup 遍历对象数据搜索

Beautiful Soup也有很多版本，不过Beautiful Soup3已经停止更新了，目前最新的都是Beautiful Soup4，而且也已经移植到bs4库中，我们安装bs4库后就可以直接使用。安装库使用pip安装，安装命令：

马拉松程序员

2023/09/02

2260

数据获取：网页解析之BeautifulSoup

使用 Beautiful Soup 解析网页内容

爬虫 python html

本文讲述如何使用Python的requests库和BeautifulSoup库提取网页中的文本内容。首先介绍了requests库的基本用法，然后通过一个实例详细讲解了如何使用requests库和BeautifulSoup库提取网页中的文本内容，最后介绍了使用BeautifulSoup进行网页解析的方法。

乐百川

2018/01/08

3.1K0

使用 Beautiful Soup 解析网页内容

数据获取：网页解析之lxml

lxml 对象浏览器数据语法

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath（XML Path Language）解析方式。XPath，它是一门在XML文档中查找信息的语言，具有自身的语法，是用来确定XML文档中某部分位置的语言，最初是用来搜寻XML文档的，当然也适用于HTML文档的搜索。通俗点讲就是lxml可以根据XPath表示的位置来确定HTML页面中的内容，从而实现找到我们需要的内容。

马拉松程序员

2023/09/02

3060

python︱HTML网页解析BeautifulSoup学习笔记

爬虫机器学习

一、载入html页面信息一种是网站在线的网页、一种是下载下来的静态网页。 1、在线网页参考《python用BeautifulSoup库简单爬虫入门+案例（爬取妹子图）》中的载入内容： import

悟乙己

2018/01/02

3.2K0

网页解析之Beautiful Soup库运用

爬虫深度学习

今日分享：Beautiful Soup库简单应用一句话来理解 Beautiful Soup库就是：它是解析遍历维护标签树的功能库。以下是BeautifulSoup库的文档链接：官方链接https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 中文链接https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 下面根据一个示例来了解学习BeautifulSoup库： >>> import req

企鹅号小编

2018/02/05

1.2K0

网页解析之Beautiful Soup库运用

python爬虫网页解析之parsel模块

css pip python爬虫 xpath 字符串

官网链接https://pypi.org/project/parsel/1.0.2/

小小咸鱼YwY

2019/09/11

3.2K0

Python 爬虫之网页解析库 BeautifulSoup

xml html html5 编程算法 python

BeautifulSoup 是一个使用灵活方便、执行速度快、支持多种解析器的网页解析库，可以让你无需编写正则表达式也能从 html 和 xml 中提取数据。BeautifulSoup 不仅支持 Python 内置的 Html 解析器，还支持 lxml、html5lib 等第三方解析器。

keinYe

2019/08/01

1.2K0

python爬虫网页解析之lxml模块

方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

小小咸鱼YwY

2019/09/11

7100

爬虫入门到精通-网页的解析（正则）

本文章属于爬虫入门到精通系统教程第五讲在爬虫入门到精通第四讲中，我们了解了如何下载网页（http://mp.weixin.qq.com/s?__biz=MzU2OTAxNTcwMw==&mid=1

爬虫

2018/04/08

7380

爬虫入门到精通-网页的解析（正则）

解析网页速度比较（BeautifulSoup、PyQuery、lxml、正则）

用标题中的四种方式解析网页，比较其解析速度。复习PyQuery和PySpider，PySpider这个项目有点老了，现在还是使用被淘汰的PhantomJS。

SeanCheney

2019/03/01

2.1K0

解析网页速度比较（BeautifulSoup、PyQuery、lxml、正则）

爬虫入门到精通-网页的解析（xpath）

爬虫正则表达式 xml 数据结构

本文章属于爬虫入门到精通系统教程第六讲在爬虫入门到精通第五讲中，我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言

爬虫

2018/04/08

1.2K0

爬虫入门到精通-网页的解析（xpath）

根据URL解析网页并保存相应文件

最近公司接入了一个平台的数据，给了一个连接，存放每天定时推的文件列表。我这里需要做的就是我要把这些文件下载下来，保存到服务器上，其他人那它去用。

青衫染红尘

2021/01/19

1.1K0

根据URL解析网页并保存相应文件

Python爬虫Chrome网页解析工具-XPath Helper

python 爬虫 html github

之前就说过Python爬虫中Xpath的用法，相信每一个写爬虫、或者是做网页分析的人，都会因为在定位、获取XPath路径上花费大量的时间，在没有这些辅助工具的日子里，我们只能通过搜索HTML源代码，定位一些id，class属性去找到对应的位置，非常的麻烦，今天推荐一款插件Chrome中的一种爬虫网页解析工具：XPath Helper，使用了一下感觉很方便，所以希望能够帮助更多的Python爬虫爱好者和开发者

沈唁

2018/07/25

3.8K0

Python爬虫Chrome网页解析工具-XPath Helper

Python从入门到入土-网络爬虫(BeautifulSoup、lxml解析网页、requests获取网页）

CSDN话题挑战赛第2期参赛话题：学习笔记 BeautifulSoup 获取所有p标签里的文本 # 获取所有p标签里的文本 # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup # 在此实现代码 def fetch_p(html): soup = BeautifulSoup(html, 'lxml') p_list = soup.find_all("p") results = [p.text for p in p_lis

共饮一杯无

2022/11/28

9520

点击加载更多

相似问题

网页解析

13

解析网页

20

解析网页

13

解析网页

14

停止解析网页

18

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例