首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否有从HTML页面中提取数据的库?

是否有从HTML页面中提取数据的库?
EN

Stack Overflow用户
提问于 2012-01-23 13:00:18
回答 2查看 982关注 0票数 0

我想从网页中提取信息。不幸的是,据我所知,该网站(4chan)没有公共API。

从HTML文档中提取特定数据的好库是什么?我更喜欢在UNIX系统上工作的免费软件库。

编辑:基本上我想从4 4chan获得帖子和图片。网页不是有效的HTML (并且没有doctype),所以解析器不应该太严格。

EN

回答 2

Stack Overflow用户

发布于 2012-01-23 13:05:38

您要寻找的是一个。

This link of a previous question应该会帮你的。还可以查看this question

票数 2
EN

Stack Overflow用户

发布于 2012-01-23 13:35:11

这是正确的,有很多库来解析html数据。例如,如果使用Perl,则可以使用HTML::Parse。

如果您只想得到一个快速的结果,并且您同意使用一个系统命令,您可以使用:

代码语言:javascript
运行
复制
lynx -dump http://4chan.org

代码语言:javascript
运行
复制
links -dump http://4chan.org
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8972013

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档