Python数据分析之简书粉丝敌我差距爬虫分析及代码敌我差距

最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。 但随着粉丝的增长,也担心粉丝的质量问题,我发现许多粉丝都是没有发表任何文字的,我把这些用户定义为非活跃用户(这样太过偏激),今天就已作者本人的粉丝和向右奔跑前辈的粉丝做比较,看下敌我差距~

爬虫分析及代码

简书的原因,这里只能爬取粉丝的前100页,一页就是9个粉丝,总共只能爬取900个粉丝,爬取的字段也是很简单:

  • 粉丝id
  • 关注量
  • 粉丝量
  • 文章数(这里我把没写过文章的定义为非活跃用户)
import requests
from lxml import etree
import pymongo

client = pymongo.MongoClient('localhost', 27017)
jianshu = client['jianshu']
luopan = jianshu['luopan']
xiangyou = jianshu['xiangyou']

urls = ['http://www.jianshu.com/users/54b5900965ea/followers?page={}'.format(str(i)) for i in range(1,101)]
for url in urls:
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="user-list"]/li')
    if len(infos) > 0:
        for info in infos:
            id = info.xpath('div/a/text()')[0]
            topic = info.xpath('div/div[1]/span[1]/text()')[0].strip('关注 ')
            fans = info.xpath('div/div[1]/span[2]/text()')[0].strip('粉丝 ')
            article = info.xpath('div/div[1]/span[3]/text()')[0].strip('文章 ')
            content = {
                'id':id,
                'topic':topic,
                'fans':fans,
                'article':article
            }
            # print(id,topic,fans,article)
            xiangyou.insert_one(content)
    else:
        break

敌我差距

此部分通过python数据分析及pyecharts库可视化。

  • 首先看看粉丝的质量:

向右奔跑前辈的粉丝质量明显比我高很多,也会和一些大咖互粉,什么时候大咖也和我互粉呢~由于只能爬取前900个粉丝,差异会扩大很多倍。

  • 看看活跃粉丝差异

这个差距不是很大,这也是简书一直来的问题,大量用户都是不写文章的,简书就是让我们简单的书写我们的人生,大家也可以多写写文章啦,无论是学习,生活,工作,总有你的精彩~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯NEXT学位

2018 年最流行的 100 个前端项目

? 作为一名开发工程师,当接手一个全新的项目任务时,如何选用并设计合适的技术架构?面对日新月异的技术更新,如何保持一份积极而又淡定的心态,持续高效地跟进学习这...

6582
来自专栏WeTest质量开放平台团队的专栏

腾讯WeTest-舆情监控最新版本揭秘

腾讯WeTest舆情监控平台作为国内一流手游测试平台的王牌工具,在过去的一年中帮助无数游戏团队了解各第三方市场评分,掌握游戏和竞品的口碑情况和效果,为团队了解目...

2803
来自专栏开源项目

数据可视化:商业智能的未来 | 码云周刊第 68 期

1262
来自专栏量子位

科学剁手:这个AI人体扫描仪能让你网购衣服更合身

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 如何优雅的在网上买衣服? 不试穿怎么确定是否合身? 现在有一家公司表示可以用AI技术来解决这个问题。...

35410
来自专栏企鹅号快讯

什么是小程序?微信小程序为什么这么火热?

根据小程序是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或者搜一下即可打开应用。也体现了“用完即走”的理念,用户不用关心是否安装...

2217
来自专栏顾宇的研习笔记

云原生 DevOps

技术雷达是ThoughtWorks每年出品两期的技术趋势报告,新一期即将在5月15日正式发布。本人有幸第三次参与技术雷达的汉化发布工作,并借此机会一览技术前沿的...

1251
来自专栏CDA数据分析师

盘点 | 2017 最“热”门的十大数据技术

原作者 Gil Press 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 随着大数据近年来的迅速发展,大数据分析已渗透到各行各业。当中...

2176
来自专栏无原型不设计

UX最佳演练:交互驱动连接

以下内容由Mockplus团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具 我们开展了最佳用户体验演练的系列活动,其涵盖了模式和格式...

2615
来自专栏知晓程序

在微信看视频,用这个小程序能快到飞起来 | 知晓程序 · MINA 奖

1524
来自专栏BestSDK

2016,APP开发者必须关注的新技术

编辑导语 元宵过完,2015年就彻底结束啦。对于永远需要孜孜不倦学习的开发者来说,必须随时关注业内最新推出的新开发技术,否则落后一步,就得步步落后,本文就来数一...

27810

扫码关注云+社区