首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

scrapy实践之item pipeline的使用

欢迎关注”生信修炼手册”!

spider以item的形式返回结构化的信息,这些信息会传递给item pipeline进行处理。在这个环节,我们可以根据需要对数据进一步处理,经典的处理场景有以下几种

1. 去重复

根据业务场景来判断重复,然后去掉重复项,代码如下

2. 验证数据

对数据的有效性进行验证,保留有效数据,代码如下

3. 写入文件

将item中的信息,保存到文件中,代码如下

4. 持久化

将item中的信息,存储到数据库中,以sqlite3为例,代码如下

在pipelines.py中,每个类定义了一个组件,对于多个组件,需要在settings.py中进行配置,控制多个组件的使用顺序,代码如下

后面的数字位于0到800之间,表示优先级,数字越低,优先级越高。‍

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201109A0GBQ800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券