文章/答案/技术大牛

发布

社区首页 >问答首页 >新手问题-无法让教程文件正常工作

问新手问题-无法让教程文件正常工作
EN

Stack Overflow用户

提问于 2010-12-17 07:47:05

回答 3查看 1.5K关注 0票数 3

我完全是Python和Scrapy的新手，所以我从尝试复制教程开始。根据教程，我正在尝试抓取www.dmoz.org网站。

我按照下面的指示编写dmoz_spider.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

from dmoz.items import DmozItem

class DmozSpider(BaseSpider):
   name = "dmoz.org"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.select('a/text()').extract()
           item['link'] = site.select('a/@href').extract()
           item['desc'] = site.select('text()').extract()
           items.append(item)
       return items

而我通过网站应该得到的是不同的东西。

知道我搞砸了什么吗？

python

scrapy

回答 3

Stack Overflow用户

发布于 2012-08-30 10:11:38

我遇到了这个问题。

打开items.py并查看是否更改了类

class TutorialItem(Item):
    title=Field()
    link=Field()
    desc=Field()

进入：

class DmozItem(Item):
    title=Field()
    link=Field()
    desc=Field()

票数 7

Stack Overflow用户

发布于 2010-12-24 12:59:11

您粘贴的代码没有任何错误。问题一定出在别的地方，你能粘贴你得到的整个输出吗？(你的评论停止在有趣的部分开始...)

票数 1

Stack Overflow用户

发布于 2013-09-03 15:08:57

您需要转到包含settings.py文件的目录并运行

从那里抓取dmoz。

为了清晰起见，根据https://github.com/scrapy/dirbot对项目的结构进行FOllow

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4466474

复制

相似问题

问新手问题-无法让教程文件正常工作
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问新手问题-无法让教程文件正常工作EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问新手问题-无法让教程文件正常工作
EN