我试图用Scrapy从网站中提取json数据,但我遇到了一些问题,比如当我运行我的爬行器时,没有给出错误,并且说爬行了0个页面。我还使用该命令将de输出存储到json文件中,以查看输出。
下面的代码是我的爬虫:
import scrapy
class WineSpider(scrapy.Spider):
name = "SpidyWine"
i = 0
url = 'https://maiscarrinho.com/api/search?q=vinho&pageNumber=%s&pageSize=10'
start_urls = [url % 1]
def parse(self, response):
data = json.loads(response.body)
for item in data['results']:
yield {
'Image': item.get('image')
}
if data['Image']:
i = i + 1
yield scrapy.Request(self.url % i, callback=self.parse)和我的项目类别:
import scrapy
class MaiscarrinhoItem(scrapy.Item):
image = scrapy.Field()
price = scrapy.Field()
supermarket = scrapy.Field()
promotion = scrapy.Field()
wineName = scrapy.Field()
brand = scrapy.Field()现在,我只是在我的爬行器中使用Image字段来让事情变得更容易。此外,当我在爬虫中编写if语句时,我的理想是‘处理’无限的scorlling,而json api有'Image‘表示该页面有内容。
提前感谢
发布于 2016-11-05 20:55:10
除了一个非常小的错误,你做的每件事都是正确的。
包含图像的字段名称为Image而不是image
尝试:
yield {
'Image': item.get('Image')
}settings.py文件中的ITEM_PIPELINES可能也有问题


发布于 2016-11-12 23:00:59
好吧,回答我的问题,并在一段时间后深入研究我的代码……我意识到这是关于标识错误和一些语法错误。
另一个问题是管道,我忘了把姓氏改为管道的真实名称,所以现在我用'Maiscarrinho.pipelines.MaiscarrinhoPipeline': 300代替了'Maiscarrinho.pipelines.SomePipeline': 300
下面的代码像我想要的那样提取图像,但还有一个问题。因为页面有无限的滚动,所以我有一个条件来评估是否有一个名为'Image的元素,但是由于某些原因,我没有得到想要的结果。它应该提取40页,每页10张图片。
import scrapy
import json
class WineSpider(scrapy.Spider):
name = "SpidyWine"
url = 'https://maiscarrinho.com/api/search?q=vinho&pageNumber=%s&pageSize=10'
start_urls = [url % 1]
i = 1
def parse(self, response):
data = json.loads(response.body.decode('utf-8'))
for item in data['results']:
yield {
'Image': item.get('Image')
}
if item.get('Image'):
WineSpider.i += 1
yield scrapy.Request(self.url % WineSpider.i, callback=self.parse)https://stackoverflow.com/questions/40438189
复制相似问题