首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >解析网页

解析网页
EN

Stack Overflow用户
提问于 2009-11-23 15:05:28
回答 3查看 5.8K关注 0票数 1

我有一个关于解析HTML页面的问题,具体的论坛,我想解析一个论坛或线程包含某些后标准,我还没有定义算法,因为我以前只解析过结构文本格式,用例可以通过手工复制和粘贴每个线程到程序中,或者插入像http://www.forums.com/forum/showthread.php?t=46875&page=3这样的URL并让程序解析页面。

鉴于这一切,我想知道:

  1. 可以在HTML页面上解析论坛线程吗?
  2. 做这件事的最好/最快/最简单的语言是什么?
  3. 如果我更喜欢Java,那么我需要哪些工具/库呢?
  4. 还有什么我该考虑的吗?
EN

回答 3

Stack Overflow用户

发布于 2009-11-23 15:13:41

1/是

2/使用一些紧凑的语言,如python或ruby来进行原型设计。

  • 对于python,有一个名为美汤的简洁的HTML/XML解析库。
  • 对于红宝石,你可以尝试:诺科吉里杏子

3/一个需要考虑的Java工具:htmlparser解析器

[4]如果您只对某些特定的文本或某些特殊类感兴趣,那么正则表达式可能就足够了。但是,只要您想深入了解内容的结构,您就需要某种模型来保存您的数据,因此需要一个解析器,在最好的情况下,它可以处理现实中html的不一致性。

票数 2
EN

Stack Overflow用户

发布于 2009-11-23 15:17:31

您可能希望查看某种类型的html解析库,而不是使用正则表达式来实现这一点。红宝石python有一些非常好的html解析器,但是快速的谷歌显示也有很多用于java的解析器。这些库的好处是,您不必使用正则表达式处理每一个边缘大小写/它们处理格式错误的html (根据您想要做什么,使用regexes这两种方法都是不可能的),并且它们还为您提供了处理数据的许多方法(例如,漂亮的soup允许您获取属于特定类的所有元素,或者使用其他css选择器来限制您想要处理的页面元素)。

就我个人而言,至少在一开始,我会从ruby或python开始,因为库是已知的,并且有很多关于使用它们的信息。此外,我发现在ruby或python中快速原型这些类型的东西比在jvm中更容易。如果有必要,您甚至可以在以后使用jruby或jython将该代码带到jvm中。

票数 1
EN

Stack Overflow用户

发布于 2009-11-23 15:09:08

  1. 正则表达式,任何味道。
  2. 可能是那个
  3. 外面有很多工具 为你做这件事.
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1786689

复制
相关文章
网页解析
网页解析完成的是从下载回来的html文件中提取所需数据的方法,一般会用到的方法有:
爱编程的小明
2022/09/06
3.2K0
网页解析
深入解析网页结构解析模块beautifulsoup
beautifulsoup(以下简称bs),是一款网页结构解析模块,它支持传统的Xpath,css selector 语法,可以说很强大了,下面我们就来着重介绍下它的用法。
Python进阶者
2021/04/19
2.5K0
深入解析网页结构解析模块beautifulsoup
使用BeautifulSoup解析网页内容
BeautifulSoup模块用于解析html和xml文档中的内容,相比正则表达式,其更好的利用了html这种结构性文档的树状结构,解析起来更加方便。
生信修炼手册
2020/11/09
3K0
使用BeautifulSoup解析网页内容
数据获取:​网页解析之BeautifulSoup
Beautiful Soup也有很多版本,不过Beautiful Soup3已经停止更新了,目前最新的都是Beautiful Soup4,而且也已经移植到bs4库中,我们安装bs4库后就可以直接使用。安装库使用pip安装,安装命令:
马拉松程序员
2023/09/02
2260
数据获取:​网页解析之BeautifulSoup
使用 Beautiful Soup 解析网页内容
本文讲述如何使用Python的requests库和BeautifulSoup库提取网页中的文本内容。首先介绍了requests库的基本用法,然后通过一个实例详细讲解了如何使用requests库和BeautifulSoup库提取网页中的文本内容,最后介绍了使用BeautifulSoup进行网页解析的方法。
乐百川
2018/01/08
3.1K0
使用 Beautiful Soup 解析网页内容
数据获取:​网页解析之lxml
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath(XML Path Language)解析方式。XPath,它是一门在XML文档中查找信息的语言,具有自身的语法,是用来确定XML文档中某部分位置的语言,最初是用来搜寻XML文档的,当然也适用于HTML文档的搜索。通俗点讲就是lxml可以根据XPath表示的位置来确定HTML页面中的内容,从而实现找到我们需要的内容。
马拉松程序员
2023/09/02
3060
数据获取:​网页解析之lxml
python︱HTML网页解析BeautifulSoup学习笔记
一、载入html页面信息 一种是网站在线的网页、一种是下载下来的静态网页。 1、在线网页 参考《python用BeautifulSoup库简单爬虫入门+案例(爬取妹子图)》中的载入内容: import
悟乙己
2018/01/02
3.2K0
网页解析之Beautiful Soup库运用
今日分享:Beautiful Soup库简单应用 一句话来理解 Beautiful Soup库就是:它是解析遍历维护标签树的功能库。以下是BeautifulSoup库的文档链接: 官方链接https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 中文链接https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 下面根据一个示例来了解学习BeautifulSoup库: >>> import req
企鹅号小编
2018/02/05
1.2K0
网页解析之Beautiful Soup库运用
python爬虫网页解析之parsel模块
官网链接https://pypi.org/project/parsel/1.0.2/
小小咸鱼YwY
2019/09/11
3.2K0
Python 爬虫之网页解析库 BeautifulSoup
BeautifulSoup 是一个使用灵活方便、执行速度快、支持多种解析器的网页解析库,可以让你无需编写正则表达式也能从 html 和 xml 中提取数据。BeautifulSoup 不仅支持 Python 内置的 Html 解析器,还支持 lxml、html5lib 等第三方解析器。
keinYe
2019/08/01
1.2K0
python爬虫网页解析之lxml模块
方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
小小咸鱼YwY
2019/09/11
7100
爬虫入门到精通-网页的解析(正则)
本文章属于爬虫入门到精通系统教程第五讲 在爬虫入门到精通第四讲中,我们了解了如何下载网页(http://mp.weixin.qq.com/s?__biz=MzU2OTAxNTcwMw==&mid=1
爬虫
2018/04/08
7380
爬虫入门到精通-网页的解析(正则)
解析网页速度比较(BeautifulSoup、PyQuery、lxml、正则)
用标题中的四种方式解析网页,比较其解析速度。复习PyQuery和PySpider,PySpider这个项目有点老了,现在还是使用被淘汰的PhantomJS。
SeanCheney
2019/03/01
2.1K0
解析网页速度比较(BeautifulSoup、PyQuery、lxml、正则)
爬虫入门到精通-网页的解析(xpath)
本文章属于爬虫入门到精通系统教程第六讲 在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言
爬虫
2018/04/08
1.2K0
爬虫入门到精通-网页的解析(xpath)
根据URL解析网页并保存相应文件
最近公司接入了一个平台的数据,给了一个连接,存放每天定时推的文件列表。我这里需要做的就是我要把这些文件下载下来,保存到服务器上,其他人那它去用。
青衫染红尘
2021/01/19
1.1K0
根据URL解析网页并保存相应文件
Python爬虫Chrome网页解析工具-XPath Helper
之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫、或者是做网页分析的人,都会因为在定位、获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定位一些id,class属性去找到对应的位置,非常的麻烦,今天推荐一款插件Chrome中的一种爬虫网页解析工具:XPath Helper,使用了一下感觉很方便,所以希望能够帮助更多的Python爬虫爱好者和开发者
沈唁
2018/07/25
3.8K0
Python爬虫Chrome网页解析工具-XPath Helper
Python从入门到入土-网络爬虫(BeautifulSoup、lxml解析网页、requests获取网页)
CSDN话题挑战赛第2期 参赛话题:学习笔记 BeautifulSoup 获取所有p标签里的文本 # 获取所有p标签里的文本 # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup # 在此实现代码 def fetch_p(html): soup = BeautifulSoup(html, 'lxml') p_list = soup.find_all("p") results = [p.text for p in p_lis
共饮一杯无
2022/11/28
9520
点击加载更多

相似问题

网页解析

13

解析网页

20

解析网页

13

解析网页

14

停止解析网页

18
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文