我正在做这个简单的刮刮爬虫教程给在刮刮官方网站,但得到一些错误。我第一次做这件事,对这一切一无所知。我需要在我的应用程序中实现web爬虫,我发现刮伤可以满足我的需求,所以从教程开始,并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..?
这是我的爬虫代码
from scrapy.spider import Spider
class DmozSpider(Spider):
name="dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)这是我要犯的错误
2014-02-04 10:45:51+0530 scrapy调试: 10:45:51+0530服务侦听0.0.0.0:6080 2014-02-04 10:45:51+0530 dmoz调试:爬行(200) http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (引用:无)
错误:蜘蛛错误处理(最近一次调用):文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py",第1178行,mainLoop self.runUntilCurrent()文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py",行800,runUntilCurrent call.func(*call.args,文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第362行,回调文件(结果)文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第458行,_startRunCallbacks self._runCallbacks() -文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第545行,在_runCallbacks current.result =回调(current.result,*args,**kw)文件current.result第56行中,在parse exceptions.NotImplementedError中:
发布于 2014-02-04 06:27:25
这个错误意味着您没有在您的蜘蛛中实现parse函数,另一方面,根据您发布的代码(它看起来是这样的),我认为您有缩进问题,导致代码相信parse函数不是DmozSpider类的一部分。
https://stackoverflow.com/questions/21544926
复制相似问题