文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取网页爬虫教程中的错误

问抓取网页爬虫教程中的错误
EN

Stack Overflow用户

提问于 2014-02-04 05:51:44

回答 1查看 3.5K关注 0票数 3

我正在做这个简单的刮刮爬虫教程给在刮刮官方网站，但得到一些错误。我第一次做这件事，对这一切一无所知。我需要在我的应用程序中实现web爬虫，我发现刮伤可以满足我的需求，所以从教程开始，并在我粘贴到下面的错误后结束。有谁能解释一下密码有什么问题吗..？

这是我的爬虫代码

from scrapy.spider import Spider

class DmozSpider(Spider):

    name="dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):

   filename = response.url.split("/")[-2]

   open(filename, 'wb').write(response.body)

这是我要犯的错误

2014-02-04 10:45:51+0530 scrapy调试: 10:45:51+0530服务侦听0.0.0.0:6080 2014-02-04 10:45:51+0530 dmoz调试:爬行(200) http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (引用:无)

错误:蜘蛛错误处理(最近一次调用)：文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py"，第1178行，mainLoop self.runUntilCurrent()文件"/usr/lib/python2.7/dist-packages/twisted/internet/base.py"，行800，runUntilCurrent call.func(*call.args，文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py"，第362行，回调文件(结果)文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py"，第458行，_startRunCallbacks self._runCallbacks() -文件"/usr/lib/python2.7/dist-packages/twisted/internet/defer.py"，第545行，在_runCallbacks current.result =回调(current.result，*args，**kw)文件current.result第56行中，在parse exceptions.NotImplementedError中：

python-2.7

web-crawler

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-02-04 06:27:25

这个错误意味着您没有在您的蜘蛛中实现parse函数，另一方面，根据您发布的代码(它看起来是这样的)，我认为您有缩进问题，导致代码相信parse函数不是DmozSpider类的一部分。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21544926

复制

相似问题

问抓取网页爬虫教程中的错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取网页爬虫教程中的错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取网页爬虫教程中的错误
EN