首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >抓取网页爬虫教程中的错误

抓取网页爬虫教程中的错误
EN

Stack Overflow用户
提问于 2014-02-04 05:51:44
回答 1查看 3.5K关注 0票数 3

我正在做这个简单的刮刮爬虫教程给在刮刮官方网站,但得到一些错误。我第一次做这件事,对这一切一无所知。我需要在我的应用程序中实现web爬虫,我发现刮伤可以满足我的需求,所以从教程开始,并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..?

这是我的爬虫代码

代码语言:javascript
运行
复制
from scrapy.spider import Spider

class DmozSpider(Spider):

    name="dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):

   filename = response.url.split("/")[-2]

   open(filename, 'wb').write(response.body)

这是我要犯的错误

2014-02-04 10:45:51+0530 scrapy调试: 10:45:51+0530服务侦听0.0.0.0:6080 2014-02-04 10:45:51+0530 dmoz调试:爬行(200) http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (引用:无)

错误:蜘蛛错误处理(最近一次调用):文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py",第1178行,mainLoop self.runUntilCurrent()文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py",行800,runUntilCurrent call.func(*call.args,文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第362行,回调文件(结果)文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第458行,_startRunCallbacks self._runCallbacks() -文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第545行,在_runCallbacks current.result =回调(current.result,*args,**kw)文件current.result第56行中,在parse exceptions.NotImplementedError中:

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-02-04 06:27:25

这个错误意味着您没有在您的蜘蛛中实现parse函数,另一方面,根据您发布的代码(它看起来是这样的),我认为您有缩进问题,导致代码相信parse函数不是DmozSpider类的一部分。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21544926

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档