首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从web域下载全文

从web域下载全文
EN

Stack Overflow用户
提问于 2010-06-09 19:33:58
回答 6查看 302关注 0票数 1

第一次来这里

我实验室的人正在对各种私有化的神经成像中心(如http://www.canmagnetic.com/)的网络存在进行内容分析(例如逐行阅读一篇文章或成绩单并识别相关主题)。她用手绘制了整个站点地图,我知道我可以用Python来跟踪链接并为她倾倒全文(行号),但我从来没有做过这样的事情。我该怎么开始呢?

干杯,-alex

EN

回答 6

Stack Overflow用户

发布于 2010-06-09 19:40:05

这是你开始工作所需要的一切。阅读“清单7.SimplePython网站爬虫”一节。示例甚至是用python编写的。

http://www.ibm.com/developerworks/linux/library/l-spider/

祝好运!

票数 1
EN

Stack Overflow用户

发布于 2010-06-09 19:40:31

Python的一个流行的web抓取模块是刮痕。例如,继续查看底部的教程链接。

票数 1
EN

Stack Overflow用户

发布于 2010-06-09 19:37:27

你在找“网络刮擦”。

你可以在谷歌上搜索到很多不同的技术和实用工具,比如这个。

http://www.webscrape.com/

更多信息

http://blogs.computerworld.com/node/324

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3009253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档