我想从网页中提取信息。不幸的是,据我所知,该网站(4chan)没有公共API。
从HTML文档中提取特定数据的好库是什么?我更喜欢在UNIX系统上工作的免费软件库。
编辑:基本上我想从4 4chan获得帖子和图片。网页不是有效的HTML (并且没有doctype),所以解析器不应该太严格。
发布于 2012-01-23 13:05:38
您要寻找的是一个。
This link of a previous question应该会帮你的。还可以查看this question
发布于 2012-01-23 13:35:11
这是正确的,有很多库来解析html数据。例如,如果使用Perl,则可以使用HTML::Parse。
如果您只想得到一个快速的结果,并且您同意使用一个系统命令,您可以使用:
lynx -dump http://4chan.org或
links -dump http://4chan.orghttps://stackoverflow.com/questions/8972013
复制相似问题