在Scrapy中,可以通过在Item中添加一个字段来描述值来自哪个链接。
import scrapy
class MyItem(scrapy.Item):
# 其他字段...
source_link = scrapy.Field()
import scrapy
from scrapy.loader import ItemLoader
from myproject.items import MyItem
class MySpider(scrapy.Spider):
name = 'my_spider'
def start_requests(self):
# 起始链接...
yield scrapy.Request(url='http://example.com', callback=self.parse)
def parse(self, response):
# 解析页面...
# 使用ItemLoader赋值
loader = ItemLoader(item=MyItem(), response=response)
loader.add_value('source_link', response.url)
item = loader.load_item()
# 或直接赋值
item = MyItem()
item['source_link'] = response.url
yield item
这样,在爬取的数据中,就会包含一个名为"source_link"的字段,它的值就是数据所来自的链接。你可以根据需要在后续的处理中使用这个字段的值。
领取专属 10元无门槛券
手把手带您无忧上云