首页
学习
活动
专区
工具
TVP
发布

木东居士的专栏

专栏作者
222
文章
402723
阅读量
177
订阅数
从0写一个爬虫,爬取500w好友关系数据
0x00 前言 上一篇文章已经写了一部分数据获取和爬虫的内容,这篇文章我们一起来实现一个网络爬虫,用这个小爬虫来爬取500w的简书的粉丝关系对。 1. 两个小问题 为什么要爬关系对数据呢,爬些文字数据岂不更好? 为什么要爬关系对数据?因为居士最近正在搞和社交关系相关的项目,需要对大量的关系数据做处理,而且要用到 LPA 、 PageRank 这些算法,写博客本来就需要为自己学习和工作来服务,为了加深自己的理解,因此前几篇博客都和关系数据相关。后续当需要文本数据的时候,会有专门的文章。 为什么要爬简书数据呢?
木东居士
2018-05-25
1.5K0
聊一聊数据获取和爬虫
0x00 前言 为什么要把数据获取、爬虫放在一起来聊呢? 居士是想成为一名数据科学家的!数据科学家就要具备很多的技能,什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。 但是,首先我们要有数据,没有数据我们玩什么?想要玩数据,我们就要来聊一下数据获取,数据获取有很多途径,爬虫算是其中最自力更生的技能了,而实现爬虫又和图论的知识有很深的联系,因此在聊得时候还要顺便聊一下图论。 0x01 数据获取 我们站在个人的角度看一下数据获取,我们会有几个比较简单的数据获取途径: 公司提供的数据 网上下载的免费数
木东居士
2018-05-25
8040
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档