腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
木东居士的专栏
专栏作者
举报
222
文章
402723
阅读量
177
订阅数
订阅专栏
申请加入专栏
全部文章(222)
大数据(60)
编程算法(49)
数据分析(45)
机器学习(38)
神经网络(30)
深度学习(25)
sql(24)
人工智能(21)
数据挖掘(15)
数据可视化(15)
java(14)
数据库(14)
https(13)
其他(12)
网络安全(12)
数据处理(11)
python(10)
决策树(8)
spark(7)
hive(7)
数据结构(7)
hadoop(5)
api(4)
企业(4)
数据安全(4)
存储(4)
开源(4)
线性回归(4)
微服务(4)
html(3)
腾讯云开发者社区(3)
数据湖(3)
app(3)
费用中心(2)
官方文档(2)
oracle(2)
mapreduce(2)
电商(2)
游戏(2)
爬虫(2)
推荐系统(2)
特征工程(2)
报表(2)
产品(2)
产品经理(2)
设计(2)
事件(2)
数据仓库(2)
node.js(1)
jquery(1)
json(1)
单片机(1)
云数据库 SQL Server(1)
nosql(1)
git(1)
github(1)
搜索引擎(1)
apache(1)
命令行工具(1)
TDSQL MySQL 版(1)
检测工具(1)
知识图谱(1)
腾讯云测试服务(1)
金融风控(1)
http(1)
分布式(1)
自动化(1)
缓存(1)
运维(1)
正则表达式(1)
erp(1)
面向对象编程(1)
jdbc(1)
监督学习(1)
scrapy(1)
dubbo(1)
scikit-learn(1)
windows(1)
系统架构(1)
hbase(1)
云计算(1)
flink(1)
腾讯云图数据可视化(1)
数据集成(1)
bi(1)
bitmap(1)
el(1)
event(1)
excel(1)
find(1)
model(1)
pmp(1)
publish(1)
text(1)
管理(1)
开发(1)
优化(1)
搜索文章
搜索
搜索
关闭
从0写一个爬虫,爬取500w好友关系数据
爬虫
编程算法
0x00 前言 上一篇文章已经写了一部分数据获取和爬虫的内容,这篇文章我们一起来实现一个网络爬虫,用这个小爬虫来爬取500w的简书的粉丝关系对。 1. 两个小问题 为什么要爬关系对数据呢,爬些文字数据岂不更好? 为什么要爬关系对数据?因为居士最近正在搞和社交关系相关的项目,需要对大量的关系数据做处理,而且要用到 LPA 、 PageRank 这些算法,写博客本来就需要为自己学习和工作来服务,为了加深自己的理解,因此前几篇博客都和关系数据相关。后续当需要文本数据的时候,会有专门的文章。 为什么要爬简书数据呢?
木东居士
2018-05-25
1.5K
0
聊一聊数据获取和爬虫
爬虫
数据挖掘
大数据
0x00 前言 为什么要把数据获取、爬虫放在一起来聊呢? 居士是想成为一名数据科学家的!数据科学家就要具备很多的技能,什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。 但是,首先我们要有数据,没有数据我们玩什么?想要玩数据,我们就要来聊一下数据获取,数据获取有很多途径,爬虫算是其中最自力更生的技能了,而实现爬虫又和图论的知识有很深的联系,因此在聊得时候还要顺便聊一下图论。 0x01 数据获取 我们站在个人的角度看一下数据获取,我们会有几个比较简单的数据获取途径: 公司提供的数据 网上下载的免费数
木东居士
2018-05-25
804
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档