专栏首页有趣的Python和你Python数据分析之简书粉丝敌我差距爬虫分析及代码敌我差距

Python数据分析之简书粉丝敌我差距爬虫分析及代码敌我差距

最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。 但随着粉丝的增长,也担心粉丝的质量问题,我发现许多粉丝都是没有发表任何文字的,我把这些用户定义为非活跃用户(这样太过偏激),今天就已作者本人的粉丝和向右奔跑前辈的粉丝做比较,看下敌我差距~

爬虫分析及代码

简书的原因,这里只能爬取粉丝的前100页,一页就是9个粉丝,总共只能爬取900个粉丝,爬取的字段也是很简单:

  • 粉丝id
  • 关注量
  • 粉丝量
  • 文章数(这里我把没写过文章的定义为非活跃用户)
import requests
from lxml import etree
import pymongo

client = pymongo.MongoClient('localhost', 27017)
jianshu = client['jianshu']
luopan = jianshu['luopan']
xiangyou = jianshu['xiangyou']

urls = ['http://www.jianshu.com/users/54b5900965ea/followers?page={}'.format(str(i)) for i in range(1,101)]
for url in urls:
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="user-list"]/li')
    if len(infos) > 0:
        for info in infos:
            id = info.xpath('div/a/text()')[0]
            topic = info.xpath('div/div[1]/span[1]/text()')[0].strip('关注 ')
            fans = info.xpath('div/div[1]/span[2]/text()')[0].strip('粉丝 ')
            article = info.xpath('div/div[1]/span[3]/text()')[0].strip('文章 ')
            content = {
                'id':id,
                'topic':topic,
                'fans':fans,
                'article':article
            }
            # print(id,topic,fans,article)
            xiangyou.insert_one(content)
    else:
        break

敌我差距

此部分通过python数据分析及pyecharts库可视化。

  • 首先看看粉丝的质量:

向右奔跑前辈的粉丝质量明显比我高很多,也会和一些大咖互粉,什么时候大咖也和我互粉呢~由于只能爬取前900个粉丝,差异会扩大很多倍。

  • 看看活跃粉丝差异

这个差距不是很大,这也是简书一直来的问题,大量用户都是不写文章的,简书就是让我们简单的书写我们的人生,大家也可以多写写文章啦,无论是学习,生活,工作,总有你的精彩~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python有趣|数据可视化那些事(一)

    上文我们使用了pandas可视化,其就是matplotlib库的封装,其优点就是简单粗暴,但相应的确定也是很多的。不美观,做出来的图是这样的;而且功能不强大,例...

    罗罗攀
  • Python进阶|聊聊异常处理

    在编写代码中,总会遇到一些bug和报错,怎么去捕获这些异常,并进行处理,以让程序更健硕了?本篇文章将带你聊聊Python的异常处理。

    罗罗攀
  • 不要轻易合并单元格

    在Excel的数据分析中,是切记不要合并单元格的,这可能会导致不能排序等一些列问题。而我为了表格好看,在工作的前几天就入了这种坑。那我们以下面的数据为例,看看如...

    罗罗攀
  • 粉丝购买力达普通用户4倍,京东如何调动粉丝热情?

    刚刚过去的11.11,京东创下了2044亿元的成交新纪录,电商历史由此翻开了崭新的一页。

    庄帅
  • 从锤子到合伙人看六类手机粉丝

    锤子手机的暴热,再次印证粉丝模式在智能手机屡试不爽。罗永浩的粉丝处处在维护着锤子手机的情怀,这样的狂热现象并不陌生。果粉和G粉已存在多年甚至势不两立,中国的小...

    罗超频道
  • 粉丝经济学:移动互联网时代的荣光之路

    用户1756920
  • 用Python开源机器人和5美元,我在Instagram上搞到了2500个真粉儿

    大数据文摘
  • 怎么提高微信公众号粉丝的互动性?提高公众号粉丝的互动方法

    随着微信公众号的增多,运营公众号已经越来越困难了。而且有很多的人只是把公众号作为一个信息推送的工具,根本不在乎与粉丝的互动性,完全不顾粉丝需求,所以到最后很多的...

    企鹅号小编
  • 投稿 | 中国粉丝追星大数据报告:90后最爱宋仲基,高学历成粉丝标配?

    近日,搜狗联合音悦台共同发布了《中国粉丝追星大数据报告》,从多个不同角度对国内粉丝群体进行了全方位、立体化的剖析和描摹。报告显示,20多岁的年轻人已经撑起粉丝圈...

    数据猿
  • 半年在百家号收获30万粉丝,算法时代粉丝究竟还有无价值?

    最近盘点了下各个内容平台的数据,发现“罗超频道”在百家号的粉丝,终于突破了30万,半年前,这个数据还不到10万,如今粉丝数量依然以每天2000人左右的速度在增加...

    罗超频道

扫码关注云+社区

领取腾讯云代金券