我有丰富的PHP经验,尽管我意识到PHP可能不是大型网络爬虫的最佳语言,因为进程不能无限运行。人们推荐的语言是什么?
发布于 2010-09-08 09:34:58
C++ -如果你知道你在做什么。您不需要web服务器和web应用程序,因为web爬虫毕竟只是一个客户端。
发布于 2010-09-08 09:40:17
大多数语言可能都很适合,关键的组件是
用HTML库处理互联网中的Protcols
如今,大多数语言都有对上述功能提供良好支持的库,当然,您需要一些方法来持久化结果,这些结果可能是某种数据库。
比起语言,更重要的是理解你需要处理的所有概念。这里有一些Python示例,可能会帮助您入门。
http://www.example-code.com/python/pythonspider.asp
发布于 2010-09-08 09:37:01
任何一种你可以很容易使用的语言,有一个很好的网络库,并且支持解析你想要抓取的格式。这些真的是唯一的条件。
https://stackoverflow.com/questions/3664016
复制相似问题