专栏首页机器学习AI算法工程Bilibili (B站)200万用户数据爬取与分析(附源码)

Bilibili (B站)200万用户数据爬取与分析(附源码)

该爬虫仅供学习使用

  1. B站用户爬虫
  2. B站视频爬虫
  3. B站弹幕下载器

文件介绍

  • bilibili_user.py:爬虫文件
  • bilibili_user_info.sql:数据库文件
  • get_face.py:用户头像下载器

基本概况

  • 总数据数:20119918
  • 抓取用户的顺序为其注册时间顺序:2009-06-24 14:06:54 至 2016-02-18 21:04:52
  • 预估遗漏数据:不超过 2%
  • 抓取字段:用户 id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。

性别

  • 有效数据:14643019
  • 保密:11621898
  • 男:1674196
  • 女:1346925

这个男女比例是有点出乎个人预料的,接近 1:1。其实之前初步抓了 2013 年暑假之前的数据,男女比例当时还在 3:1 这样。

可见明确性别的群体还是比较少的,只占了总数据的 15% 左右。

更多的分析日后再做。

年龄

  • 统计范围:1970-2010(1980 年除外)
  • 总数据:3800767

具体数据不放了,简单看一下统计结果吧。

主要用户分布在 93-00 年的用户(大概 16-23 周岁),其中 97 年(19 岁)用户占了绝对的主导地位。

事实证明,B 站小学生并不多,而是高中生、大学生比较多。

90 后用户占主体,但是用户年龄段正在不断后移。毕竟,是一个年轻人的网站。

地区

  • 分析范围:国内 34 个省市及地区。
  • 有效数据:863541

主要用户分布在:广东、江苏、北京、上海、浙江等地区。都是一些经济很发达的沿海地区。

注册时间

  • 统计时间:2009-06-24 14:06:54 至 2016-02-18 21:04:52
  • 总数据:20119823

由于 16 年才过去 2 个多月,所以少一点,不过可以预见其发展必将远超 2015 年。自 2009 年开站以来,每年用户几乎都是以指数级增长。

活跃度统计

  • 等级范围:0 – 6
  • 总数据:20119918
  • 截止时间:2016-02-18

由于 B 站有经验等级规则,用户的活跃度可以依据等级判断。

等级为 0,就是只注册未登陆过的用户。等级为 1 或 2,为非活跃用户。等级为 3 以上,就是活跃用户。其中等级为 5 或 6 的,为投稿数特别特别多、视频特别火爆的用户,为 B 站的主干用户(约 5000 人)。

关于留存率等数据,日后再统计分析。

粉丝统计

  • 有效数据:2011918
  • 范围:0 – 988323
  • 截止时间:2016-02-18 21:04:52

哎 – -,我也是有 2 个粉丝的人!

以下是 B 站 TOP20 用户。很多人都非常的眼熟哈。

https://gekspider.org/geek/223.html

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【电商】如何用商业思维分析用户行为数据

    数据这么多,各类数据的表达不一样,具体应该如何处理?有人说:“产品初期,活动为辅,处理数据在于稳定。”有人说:“产品中期,活动为主,处理数据在于调控。...

    机器学习AI算法工程
  • 一位数据挖掘工程师眼中的“大数据与企业的数据化运营

    有一种说法,未来所有的行业都会被互联网改造,这种说法可能会有点绝对,但确实说明了一个趋势。前几天参加BDTC2013,看到了越来越多的原来在传统IT企业的同学和...

    机器学习AI算法工程
  • 浅析数据化设计思维在阿里系产品的应用

    1、做设计为什么还需要看数据? 很多设计师从来不看数据,要么是因为没有数据可看,要么是根本不想看,但是也一样把设计做的很好啊!设计本来就是有感性的一面,为什么...

    机器学习AI算法工程
  • 干货|Bilibili (B站)200万用户数据爬取与分析

    该爬虫仅供学习使用 B站用户爬虫 B站视频爬虫 B站弹幕下载器 文件介绍 bilibili_user.py:爬虫文件 bilibili_user_info.sq...

    灯塔大数据
  • 好的用户界面-界面设计的一些技巧

    如此有用的文章我已记不得是什么时候发现的了,但在看完的那一刻便想将之翻译,分享给大家自己也受用。

    lyb-geek
  • 一些关于界面设计的技巧

    最近做项目有些忙,百忙之中老师让我给新生讲下界面设计的知识o(╯□╰)o(只因自己会小弄些PS戳我),这就尴尬了讲什么好呢?偶然间看到刘哇勇前辈翻译过这篇文章,...

    牧云云
  • 分析了3个实战案例,我找到了精细化运营的数据方法论

    9月13日,DT君邀请到了数数科技CEO吕承通,带大家了解数据驱动实现方法,并通过3个实战案例解析数据分析如何影响产品核心指标。本文为其演讲实录。

    DT数据侠
  • 数据分析师必学第一课:构建完整的指标体系

    掌握理论知识和编程知识可以被看作入职数据分析师的“敲门砖”。掌握了这些知识,表示候选人对于成为数据分析师有了良好的准备,可以说“万事俱备,欠东风”,而“东风”就...

    博文视点Broadview
  • 用户体验设计中结果页设计的几点思考

    8月初从电商行业跨度到互金领域,在视觉改版中体验了很多的产品,其中对结果页的再设计有了一些新的思路与总结。 无论是电商还是互金行业,用户对支付过程中的体验是至关...

    企鹅号小编
  • SQL数据分析淘宝用户分析实操

    常见的数据清洗,预处理,数据分类,数据筛选,分类汇总,以及数据透视等操作,用SQL一样可以实现(除了可视化,需要放到Excel里呈现)。SQL不仅可以从数据库中...

    1480

扫码关注云+社区

领取腾讯云代金券