简书非官方大数据新思路专题URL专题管理员URL粉丝和关注URL优点和缺点

爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。

专题URL

这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。

专题管理员URL

这部分就是新的思路,之前是爬取专题文章的作者,然后爬取作者的粉丝,这部分做完爬取对象。这次是先爬取专题管理员URL作为第一层用户,这部分是异步加载的,还有就是首页的和其他的专题在异步加载的url有所不同(这个大家找包的时候就知道了)。

粉丝和关注URL

我们可以这样想,基本上管理员的粉丝都会很多,这部分大多像我们一样,吃瓜群众;还有同行间的话,就是关注用户,这样双向传递,可以爬取大部分用户(还是有一些用户爬不到)。

优点和缺点

这种方法比爬取文章会快很多,重复的数据也会少很多(因为用户会投多篇文章)。缺点就是可能数据会不全。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DevOps时代的专栏

微服务的服务网格

4553
来自专栏高性能服务器开发

2 网络游戏服务器开发框架设计介绍

在开发过程中,会先有一份开发大纲或是一份策划案,但是这些在我的开发中可能不会有,或者即使有,也很有可能是我随性写下来的,但是我会尽可能写好它。

2882
来自专栏跟着阿笨一起玩NET

数据库水平切分的原理探讨、设计思路--数据库分库,分表,集群,负载均衡器

数据量巨大时,首先把多表分算到不同的DB中,然后把数据根据关键列,分布到不同的数据库中。库分布以后,系统的查询,io等操作都可以有多个机器组成的群组共同完成了。...

1022
来自专栏IT技术精选文摘

微信后台基于时间序的海量数据冷热分级架构设计实践

2556
来自专栏java一日一条

采用断路器设计模式来保护软件

程序员的人生就像在一个快车道上行驶。几周甚至几小时完成某些特性编码,打包测试没有问题,盖上QA认证,代码部署到生产环境。然而最坏的事情发生了,你所部署的软件在运...

582
来自专栏花叔的专栏

Nodes大更新,邀你不删档公测

花叔很高兴地通知到大家,Nodes进行了一个比较大的版本更新,内容较多不敢冒然提审,所以现进行限号不删档公测体验(怎么这么像游戏运营术语),大家可先看看都更新了...

3326
来自专栏运维平台规划

巧妙的CMDB设计,减少告警对运维的轰炸

本文主要介绍运维CMDB的设计思路,恰当的CMDB设计,对运维效率的提升,如收敛告警和故障自愈等,有着意向不到的效果。

4264
来自专栏腾讯移动品质中心TMQ的专栏

探秘APP性能三角区

APP要做性能测试,什么样的数据能反应应用的性能情况,如何评估应用的性能状态? 不知道该如何入手?一起来分析下如何给APP做性能测试。 性能测试三角:性能指标、...

2067
来自专栏网络

SAN、NAS、DAS是什么东西?它们之间有什么关联?

前言: 数据中心机房设备分类众多,大大小小的设备零部件及部位,都是决定着数据中心是否安全运营的基础,下面普及总结中心技术名词,SAN、NAS、DAS,是什么意思...

4765
来自专栏小白课代表

MATLAB 2018a 安装教程。

1.5K4

扫码关注云+社区