前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简书非官方大数据(一)

简书非官方大数据(一)

作者头像
罗罗攀
发布2019-02-22 10:14:18
3830
发布2019-02-22 10:14:18
举报

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大:

1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。 2 数据的清洗和处理: “一个好的数据决定一个好的分析”,昨天才开始下载anaconda玩,估计得恶补下。 3 数据分析 : 本人感觉表达能力不是特别好,本人现在也是一个研究生,社会实践项目较少,对数据的表达能力缺乏。

不过既然感兴趣,也想去做,那就做呗!然后准备就建个系列文章记录我的一个小的实战项目吧。

数据爬取分析

今天先讲讲我的爬取数据的一点分析吧。简书没有管理用户的一个系统,我的想法是:

1

2

3

第四步:就是通过URL获取用户的具体信息啦

部分成果

已经爬取了50w+数据,代码今天就不贴上了。大家有什么好的想法也可以和我讨论。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.02.09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据爬取分析
  • 部分成果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档