几天前,我从刮点开始,学习了一些特定的站点( dmoz.org示例);到目前为止,它还不错,我喜欢它。因为我想了解搜索引擎的发展,我的目标是建立一个爬虫(和存储,索引器等)的大量网站的“颜色”和内容。
到目前为止,我还尝试了深度一级和酿造一级的爬行。
我现在只使用一条规则,我设置了一些跳过的路径和一些域。
Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
callback='save_page', follow=True),我有一个管道,一个用来存储下载页面的url、body和头的mysql存储,它是通过带有这些字段的PageItem完成的。
我现在的问题是:
还有很多其他的问题,比如存储问题,但我想我要说的是,还有一个一般性的搜索引擎问题。
发布于 2011-11-08 05:08:32
我只想回答你的两个问题:
AFAIK,scrapy不在乎你在物品的字段里放了什么。只有你的管道才能处理它们。
如果一个页面已经被爬行了(在过去的六个月里),它是如何工作的呢?
Scrapy有重复的中间件,但它只过滤当前会话中的副本。你必须手动防止刮伤,而不是抓取你六个月前爬过的网站。
至于问题3和问题4--你不明白。
https://stackoverflow.com/questions/8026659
复制相似问题