首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >新手问题-无法让教程文件正常工作

新手问题-无法让教程文件正常工作
EN

Stack Overflow用户
提问于 2010-12-17 07:47:05
回答 3查看 1.5K关注 0票数 3

我完全是Python和Scrapy的新手,所以我从尝试复制教程开始。根据教程,我正在尝试抓取www.dmoz.org网站。

我按照下面的指示编写dmoz_spider.py

代码语言:javascript
运行
复制
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

from dmoz.items import DmozItem

class DmozSpider(BaseSpider):
   name = "dmoz.org"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.select('a/text()').extract()
           item['link'] = site.select('a/@href').extract()
           item['desc'] = site.select('text()').extract()
           items.append(item)
       return items

而我通过网站应该得到的是不同的东西。

知道我搞砸了什么吗?

EN

回答 3

Stack Overflow用户

发布于 2012-08-30 10:11:38

我遇到了这个问题。

打开items.py并查看是否更改了类

代码语言:javascript
运行
复制
class TutorialItem(Item):
    title=Field()
    link=Field()
    desc=Field()

进入:

代码语言:javascript
运行
复制
class DmozItem(Item):
    title=Field()
    link=Field()
    desc=Field()
票数 7
EN

Stack Overflow用户

发布于 2010-12-24 12:59:11

您粘贴的代码没有任何错误。问题一定出在别的地方,你能粘贴你得到的整个输出吗?(你的评论停止在有趣的部分开始...)

票数 1
EN

Stack Overflow用户

发布于 2013-09-03 15:08:57

您需要转到包含settings.py文件的目录并运行

从那里抓取dmoz。

为了清晰起见,根据https://github.com/scrapy/dirbot对项目的结构进行FOllow

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4466474

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档