文章/答案/技术大牛

发布

社区首页 >问答首页 >是否有从HTML页面中提取数据的库？

问是否有从HTML页面中提取数据的库？
EN

Stack Overflow用户

提问于 2012-01-23 13:00:18

回答 2查看 982关注 0票数 0

我想从网页中提取信息。不幸的是，据我所知，该网站(4chan)没有公共API。

从HTML文档中提取特定数据的好库是什么？我更喜欢在UNIX系统上工作的免费软件库。

编辑:基本上我想从4 4chan获得帖子和图片。网页不是有效的HTML (并且没有doctype)，所以解析器不应该太严格。

c++

html

objective-c

data-extraction

回答 2

Stack Overflow用户

发布于 2012-01-23 13:05:38

您要寻找的是一个。

This link of a previous question应该会帮你的。还可以查看this question

票数 2

Stack Overflow用户

发布于 2012-01-23 13:35:11

这是正确的，有很多库来解析html数据。例如，如果使用Perl，则可以使用HTML::Parse。

如果您只想得到一个快速的结果，并且您同意使用一个系统命令，您可以使用：

lynx -dump http://4chan.org

或

links -dump http://4chan.org

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8972013

复制

相似问题

问是否有从HTML页面中提取数据的库？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有从HTML页面中提取数据的库？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有从HTML页面中提取数据的库？
EN