简书非官方大数据新思路专题URL专题管理员URL粉丝和关注URL优点和缺点

爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。

专题URL

这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。

专题管理员URL

这部分就是新的思路,之前是爬取专题文章的作者,然后爬取作者的粉丝,这部分做完爬取对象。这次是先爬取专题管理员URL作为第一层用户,这部分是异步加载的,还有就是首页的和其他的专题在异步加载的url有所不同(这个大家找包的时候就知道了)。

粉丝和关注URL

我们可以这样想,基本上管理员的粉丝都会很多,这部分大多像我们一样,吃瓜群众;还有同行间的话,就是关注用户,这样双向传递,可以爬取大部分用户(还是有一些用户爬不到)。

优点和缺点

这种方法比爬取文章会快很多,重复的数据也会少很多(因为用户会投多篇文章)。缺点就是可能数据会不全。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏花叔的专栏

Nodes大更新,邀你不删档公测

花叔很高兴地通知到大家,Nodes进行了一个比较大的版本更新,内容较多不敢冒然提审,所以现进行限号不删档公测体验(怎么这么像游戏运营术语),大家可先看看都更新了...

34960
来自专栏DevOps时代的专栏

微服务的服务网格

71430
来自专栏IT技术精选文摘

微信后台基于时间序的海量数据冷热分级架构设计实践

37960
来自专栏知晓程序

如何删除小程序缓存 / 小程序列表能同步吗 / 追剧小程序推荐 | 小程序问答 #11

不知道有多少人在用微信谈工作?每次向对方用纯文字介绍自己的时候,都觉得低效又不美观。

13630
来自专栏CSDN技术头条

eBay:如何用HDFS分层策略优化数千节点、数百PB的数据存储

目前在eBay的Hadoop集群有数千个节点,支持成千上万的用户使用。他们的Hadoop集群存储数百PB的数据。这篇文章中将探讨eBay如何基于数据使用频率优化...

26760
来自专栏机器人网

工业机器人控制系统的组成

(1)控制计算机:控制系统的调度指挥机构。一般为微型机、微处理器有32位、64位等,如奔腾系列CPU以及其他类型CPU。

12630
来自专栏腾讯移动品质中心TMQ的专栏

探秘APP性能三角区

APP要做性能测试,什么样的数据能反应应用的性能情况,如何评估应用的性能状态? 不知道该如何入手?一起来分析下如何给APP做性能测试。 性能测试三角:性能指标、...

23770
来自专栏java一日一条

采用断路器设计模式来保护软件

程序员的人生就像在一个快车道上行驶。几周甚至几小时完成某些特性编码,打包测试没有问题,盖上QA认证,代码部署到生产环境。然而最坏的事情发生了,你所部署的软件在运...

10120
来自专栏即时通讯技术

快速理解高性能HTTP服务端的负载均衡技术原理

在一个典型的高并发、大用户量的Web互联网系统的架构设计中,对HTTP集群的负载均衡设计是作为高性能系统优化环节中必不可少的方案。HTTP负载均衡的本质上是将W...

10210
来自专栏FreeBuf

旧版Windows打上CPU补丁后会出现性能下降

微软正式确认,“熔毁”和“幽灵”补丁可能导致显著的性能下降,这与之前的想法截然不同。 就在Meltown和Spectre漏洞被爆出之后,许多安全专家认为,相关的...

24460

扫码关注云+社区

领取腾讯云代金券