专栏首页灯塔大数据干货|Bilibili (B站)200万用户数据爬取与分析

干货|Bilibili (B站)200万用户数据爬取与分析

该爬虫仅供学习使用

  1. B站用户爬虫
  2. B站视频爬虫
  3. B站弹幕下载器

文件介绍

  • bilibili_user.py:爬虫文件
  • bilibili_user_info.sql:数据库文件
  • get_face.py:用户头像下载器

基本概况

  • 总数据数:20119918
  • 抓取用户的顺序为其注册时间顺序:2009-06-24 14:06:54 至 2016-02-18 21:04:52
  • 预估遗漏数据:不超过 2%
  • 抓取字段:用户 id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。

性别

  • 有效数据:14643019
  • 保密:11621898
  • 男:1674196
  • 女:1346925

这个男女比例是有点出乎个人预料的,接近 1:1。其实之前初步抓了 2013 年暑假之前的数据,男女比例当时还在 3:1 这样。

可见明确性别的群体还是比较少的,只占了总数据的 15% 左右。

更多的分析日后再做。

年龄
  • 统计范围:1970-2010(1980 年除外)
  • 总数据:3800767

具体数据不放了,简单看一下统计结果吧。

主要用户分布在 93-00 年的用户(大概 16-23 周岁),其中 97 年(19 岁)用户占了绝对的主导地位。

事实证明,B 站小学生并不多,而是高中生、大学生比较多。

90 后用户占主体,但是用户年龄段正在不断后移。毕竟,是一个年轻人的网站。

地区
  • 分析范围:国内 34 个省市及地区。
  • 有效数据:863541

主要用户分布在:广东、江苏、北京、上海、浙江等地区。都是一些经济很发达的沿海地区。

注册时间
  • 统计时间:2009-06-24 14:06:54 至 2016-02-18 21:04:52
  • 总数据:20119823

由于 16 年才过去 2 个多月,所以少一点,不过可以预见其发展必将远超 2015 年。自 2009 年开站以来,每年用户几乎都是以指数级增长。

活跃度统计
  • 等级范围:0 – 6
  • 总数据:20119918
  • 截止时间:2016-02-18

由于 B 站有经验等级规则,用户的活跃度可以依据等级判断。

等级为 0,就是只注册未登陆过的用户。等级为 1 或 2,为非活跃用户。等级为 3 以上,就是活跃用户。其中等级为 5 或 6 的,为投稿数特别特别多、视频特别火爆的用户,为 B 站的主干用户(约 5000 人)。

关于留存率等数据,日后再统计分析。

粉丝统计

  • 有效数据:2011918
  • 范围:0 – 988323
  • 截止时间:2016-02-18 21:04:52

哎 – -,我也是有 2 个粉丝的人!

以下是 B 站 TOP20 用户。很多人都非常的眼熟哈。

来源:数据挖掘入门与实战

本文分享自微信公众号 - 灯塔大数据(DTbigdata)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 产品经理究竟应该关注什么数据 由产品特点和生命周期决定

    产品这群人啊,真的是三句话不离老本行,之前和部门的产品Mentor一起吃饭的时候,他问了我这么一个问题:“如果你是饿了么的产品经理,那你日常工作的时候应该关注一...

    灯塔大数据
  • 荐读|浅谈电信运营商的大数据应用探索

    如《大数据时代》作者迈尔-舍恩伯格所说,“大数据开启了一次重大的时代转型。大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正...

    灯塔大数据
  • 如何快速全面建立自己的大数据知识体系?

    作者刘永平经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设...

    灯塔大数据
  • Bilibili (B站)200万用户数据爬取与分析(附源码)

    该爬虫仅供学习使用 B站用户爬虫 B站视频爬虫 B站弹幕下载器 文件介绍 bilibili_user.py:爬虫文件 bilibili_user_inf...

    机器学习AI算法工程
  • 好的用户界面-界面设计的一些技巧

    如此有用的文章我已记不得是什么时候发现的了,但在看完的那一刻便想将之翻译,分享给大家自己也受用。

    lyb-geek
  • 一些关于界面设计的技巧

    最近做项目有些忙,百忙之中老师让我给新生讲下界面设计的知识o(╯□╰)o(只因自己会小弄些PS戳我),这就尴尬了讲什么好呢?偶然间看到刘哇勇前辈翻译过这篇文章,...

    牧云云
  • 分析了3个实战案例,我找到了精细化运营的数据方法论

    9月13日,DT君邀请到了数数科技CEO吕承通,带大家了解数据驱动实现方法,并通过3个实战案例解析数据分析如何影响产品核心指标。本文为其演讲实录。

    DT数据侠
  • SQL数据分析淘宝用户分析实操

    常见的数据清洗,预处理,数据分类,数据筛选,分类汇总,以及数据透视等操作,用SQL一样可以实现(除了可视化,需要放到Excel里呈现)。SQL不仅可以从数据库中...

    1480
  • 运营基础:用户分层

    在运营过程中,用户分层的作用很明显,它能帮助我们把用户分成各个层次和群体,然后我们根据各个层次和群体的不同,才能有的放矢的制定出更精准、更有针对性的运营策略。

    大葡萄
  • 【大咖周语录】中国有望在全球范围内首先实现OMO

    高铁、支付宝、共享单车、网购,这新四大发明已经使我们的生活发生了翻天覆地的变化,这些新发明都有新技术在背后做支撑。技术改变生活,生活也在考验技术。技术使我们的生...

    数据猿

扫码关注云+社区

领取腾讯云代金券