第一次来这里
我实验室的人正在对各种私有化的神经成像中心(如http://www.canmagnetic.com/)的网络存在进行内容分析(例如逐行阅读一篇文章或成绩单并识别相关主题)。她用手绘制了整个站点地图,我知道我可以用Python来跟踪链接并为她倾倒全文(行号),但我从来没有做过这样的事情。我该怎么开始呢?
干杯,-alex
发布于 2010-06-09 19:40:05
这是你开始工作所需要的一切。阅读“清单7.SimplePython网站爬虫”一节。示例甚至是用python编写的。
http://www.ibm.com/developerworks/linux/library/l-spider/
祝好运!
发布于 2010-06-09 19:40:31
Python的一个流行的web抓取模块是刮痕。例如,继续查看底部的教程链接。
发布于 2010-06-09 19:37:27
你在找“网络刮擦”。
你可以在谷歌上搜索到很多不同的技术和实用工具,比如这个。
http://www.webscrape.com/
更多信息
http://blogs.computerworld.com/node/324
https://stackoverflow.com/questions/3009253
复制相似问题