请给我推荐一个很好的C++,JAVA或PHP语言编写的开源网络爬虫。
我只需要抓取/索引一些特定的网站的特定内容(图像,文本,视频)。
我知道他们在这个网站上已经有很多关于这个话题的问答了。
但看完后我有点迷惑了。
因此,如果我再次重复同样的问题,我很抱歉。
提前使用-Thanks
发布于 2011-01-10 16:31:50
这取决于网站的类型。如果需要登录(或类似的操作)才能查看/下载您想要的内容,我建议您使用cURL
(最好是在PHP中)。否则,您可以使用像wget
、sh或PHP中的file_get_contents
这样简单的东西。
您应该使用某种HTML解析器和/或正则表达式来查找特定的内容,这取决于您正在抓取的站点。
https://stackoverflow.com/questions/4644672
复制相似问题