腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

木东居士的专栏

专栏作者

222

文章

402723

阅读量

177

订阅数

从0写一个爬虫，爬取500w好友关系数据

爬虫编程算法

0x00 前言上一篇文章已经写了一部分数据获取和爬虫的内容，这篇文章我们一起来实现一个网络爬虫，用这个小爬虫来爬取500w的简书的粉丝关系对。 1. 两个小问题为什么要爬关系对数据呢，爬些文字数据岂不更好？为什么要爬关系对数据？因为居士最近正在搞和社交关系相关的项目，需要对大量的关系数据做处理，而且要用到 LPA 、 PageRank 这些算法，写博客本来就需要为自己学习和工作来服务，为了加深自己的理解，因此前几篇博客都和关系数据相关。后续当需要文本数据的时候，会有专门的文章。为什么要爬简书数据呢？

2018-05-25

1.5K0

聊一聊数据获取和爬虫

爬虫数据挖掘大数据

0x00 前言为什么要把数据获取、爬虫放在一起来聊呢？居士是想成为一名数据科学家的！数据科学家就要具备很多的技能，什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。但是，首先我们要有数据，没有数据我们玩什么？想要玩数据，我们就要来聊一下数据获取，数据获取有很多途径，爬虫算是其中最自力更生的技能了，而实现爬虫又和图论的知识有很深的联系，因此在聊得时候还要顺便聊一下图论。 0x01 数据获取我们站在个人的角度看一下数据获取，我们会有几个比较简单的数据获取途径：公司提供的数据网上下载的免费数

2018-05-25

8040

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态