数据加学堂:大熊学python3爬虫–scrapy浅探(三)

在新手上路(三)贴过一段代码,就是爬取问吧里面的question 问题,answer回答,topic话题标签,source问题来自哪个板块。

有一种有一种感觉就是被折腾的不要不要的,DataFrame想merge又不好办,map()智能针对返回值只有一个的函数,本来pandas,numpy就不怎么熟练。

发现scrapy处理就简单了。

spider

VARITEM是自定义函数,在parse中Request对其进行调用,并且把url值给了它。算得上有两只脚的爬虫了。

item

settings

pipelines

采用最常用的管道,对数据库,什么的接口不熟

———————————————————-


看着这个结构就感觉比py2的简洁多了。完全不用懂http协议什么的。


运行爬虫—- 让系统帮搞定csv,管道学的差:

scrapy crawl daxiong -o item.csv


结果:

txt格式的:unicode码……就不贴了,有点吓人。


搞了这么多,对框架应该有些了解了。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据架构

超大规模 Spark 集群灰度发布 CI CD

目前主流的代码管理工具有,Github、Gitlab等。本文所介绍的内容中,所有代码均托管于私有的 Gitlab 中。

2433
来自专栏恰童鞋骚年

谈谈对于企业级系统架构的理解—李平

原文地址:http://www.cnblogs.com/liping13599168/archive/2011/05/11/2043127.html

1214
来自专栏Python小屋

Python使用OCR技术识别图片中的文字(入门篇)

首先下载并安装tesseract-ocr软件,然后使用pip install pytesseract和pip install pillow安装扩展库。 接下来准...

4985
来自专栏数据和云

创新,才能不被淘汰-机器学习时代,运维将何去何从?

我们曾经分享过一篇文章,云时代的DBA,何去何从?,在文中我们讨论了Oracle最近几年重点转而向云的变革,它全力以赴在做的一件事情就是把所有的产品和服务转移到...

2866
来自专栏机器学习算法与Python学习

原创:scikit-learn 在Ubuntu上环境的搭建详解

之前一直想在Ubuntu下搭建一个机器学习的框架,由于忙于各种事情一直拖到先在。终于在上周成功的在Ubuntu下搭建了scikit-learn的学习矿机。 首先...

3335
来自专栏精细化测试

当代码变更遇上精准测试的总结

敏捷模式下迭代频繁,回归测试时总是不知道变动的范围。Devlop 有的时候也不知道他改了哪些东西,影响到哪些节点,或者是很多人改的,彼此不知道。

4844
来自专栏Android机动车

Google 最新模拟器重磅来袭!秒开并还原到之前工作状态!

12月18日,Google 官方Quick Boot博客的发布,给我们带来了最新的Android模拟器,其中最突出的特点技术 快速启动。声称可以在 6 秒之内便...

3662
来自专栏Golang语言社区

Go1.7改善了编译速度并且会生成更快的代码

Go1.7的开发周期正在接近它的下一个里程碑,Go的提交者Dave Cheney报告了子即将发布的版本中,团队成员在语言工具链上的努力。 Cheney称,基于当...

3579
来自专栏恰童鞋骚年

谈谈对于企业级系统架构的理解

在我们刚开始学习架构的时候,首先会想到分层的概念,分层架构比较经典的是三层架构,那么,什么是三层架构呢?它包括表现层,业务层,数据访问层;而对于一个新手来说,从...

1352
来自专栏软件测试经验与教训

接口分类

3358

扫码关注云+社区

领取腾讯云代金券