我完全是Python和Scrapy的新手,所以我从尝试复制教程开始。根据教程,我正在尝试抓取www.dmoz.org网站。
我按照下面的指示编写dmoz_spider.py
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['desc'] = site.select('text()').extract()
items.append(item)
return items
而我通过网站应该得到的是不同的东西。
知道我搞砸了什么吗?
发布于 2012-08-30 10:11:38
我遇到了这个问题。
打开items.py并查看是否更改了类
class TutorialItem(Item):
title=Field()
link=Field()
desc=Field()
进入:
class DmozItem(Item):
title=Field()
link=Field()
desc=Field()
发布于 2010-12-24 12:59:11
您粘贴的代码没有任何错误。问题一定出在别的地方,你能粘贴你得到的整个输出吗?(你的评论停止在有趣的部分开始...)
发布于 2013-09-03 15:08:57
https://stackoverflow.com/questions/4466474
复制相似问题