前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据加学堂:大熊学python3爬虫–scrapy浅探(三)

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

作者头像
小莹莹
发布2018-04-25 10:39:45
5990
发布2018-04-25 10:39:45
举报
文章被收录于专栏:PPV课数据科学社区

在新手上路(三)贴过一段代码,就是爬取问吧里面的question 问题,answer回答,topic话题标签,source问题来自哪个板块。

有一种有一种感觉就是被折腾的不要不要的,DataFrame想merge又不好办,map()智能针对返回值只有一个的函数,本来pandas,numpy就不怎么熟练。

发现scrapy处理就简单了。

spider

VARITEM是自定义函数,在parse中Request对其进行调用,并且把url值给了它。算得上有两只脚的爬虫了。

item

settings

pipelines

采用最常用的管道,对数据库,什么的接口不熟

———————————————————-


看着这个结构就感觉比py2的简洁多了。完全不用懂http协议什么的。


运行爬虫—- 让系统帮搞定csv,管道学的差:

scrapy crawl daxiong -o item.csv


结果:

txt格式的:unicode码……就不贴了,有点吓人。


搞了这么多,对框架应该有些了解了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档