前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分析B站100万+视频,发现竟然有这么多干货资源。

分析B站100万+视频,发现竟然有这么多干货资源。

作者头像
小F
发布2020-10-09 15:48:18
6781
发布2020-10-09 15:48:18
举报

最近一年来B站真的是火热火热的。

最近的跨年晚会,得到了人民日报的表扬。

去年4月份被央视点名表扬。

弄的小F也注册了一个B站账号,去学习~

那么问题来了,面对B站8千万的视频,该如何找到那些优质的资源呢?

小F爬取了B站科技分区下三个板块2019年的所有视频,约110w。

其中演讲·公开课板块视频最多,占了一半的数量。

数据是放在Mysql数据库,所以放一下数据处理的代码。

import pandas as pd
import pymysql

# 设置列名与数据对齐
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)
# 显示20列
pd.set_option('display.max_columns', 20)
# 显示10行
pd.set_option('display.max_rows', 10)
# 设置显示宽度为2000,这样就不会在IDE中换行了
pd.set_option('display.width', 2000)

# 读取数据
conn = pymysql.connect(host='localhost', user='root', password='20200118', port=3306, db='bilibili', charset='utf8mb4')
cursor = conn.cursor()
sql = "select * from messages"
db = pd.read_sql(sql, conn)

选取上传时间为2019年的视频,看一下整体的数据情况。

# 选取2019年的视频数据
df = db[db['day'].str.contains("2019")]
# 选取观看数、弹幕数、点赞数、投币数、收藏数、分享数、回复数的列数据
df = df[['view', 'danmaku', 'love', 'coin', 'favorite', 'share', 'reply']]

# 计算每列的总和
df.loc['Row_sum'] = df.apply(lambda x: x.sum())
# 打印结果
print(df)

结果如下。

可以看到2019年上传了1086739个视频。

共产生了41亿次的观看,2千万的弹幕,1.3亿的点赞,近7千万的投币,1.1亿的收藏,1.5千万的分享,以及1.8千万的评论。

厉害了,这个硬核的「B站」。

下面分别看一下各个数据的Top10。

# 对播放量进行排序,其它就是修改view为danmaku,love,coin,favorite,share,reply
df = df.sort_values('view', ascending=False, na_position='last')
# 输出排行前10位
df = df[['aid', 'view', 'name', 'title']].head(10)
print(df)

话说逛过B站的你,看过下面中的哪几个视频呢?

才入坑的小F,也就看过那么几个吧...

「何同学」算是知道的,那个讲解5G的视频。

还有「见齐」,他开源的可视化工具(动态条形图)真的香。

没玩过B站的,可以输入图片中的「mid」值(av号)即可访问视频。

https://www.bilibili.com/video/av52012946(复制到浏览器打开)

目前B站的注册人数已经超过4亿人,月活跃用户也超过1亿人。

下面就来看一下这110w的视频是由多少个UP主上传的,那些UP主上传视频最多。

# 对UP主进行分类汇总,计算上传视频数量
df = df.groupby(['name'])[['mid']].count().reset_index()
# 输出所有结果
# df = df.sort_values('mid', ascending=False, na_position='last')

# 输出排行前10位
df = df.sort_values('mid', ascending=False, na_position='last').head(10)
print(df)

结果如下。

可以看到共有11万+的UP主参与了这个大工程的建设。

以下10位作者可以说是B站科技板块最勤奋的UP主了。

「knnstack」这位UP主贡献了近2万的视频,貌似都是搬运的。

那么2019年谁是B站最强UP主呢?

下面以2019年视频总播放量作为一个参考,看一下Top10。

其中「我是EyeOpener」以5千万的播放量位居第一,其他各项数据也位居前列。

就主页来看,应该是一位偏向科普类型的UP主。

通过这些数据应该就能将B站科技板块热门的UP主搜罗的差不多了。

对于那些冷门但质量好的UP主,或许就只能慢慢发现了。

接下来查询一下关于Python的视频有多少呢?

# 查询标题含有Python的视频
df = df[df['title'].str.contains("python|Python")]
# 输出结果
print(df)

结果如下。

1万多条,也是不少,不过其中的版权问题也较大。

之前看过网易数读的一篇文章,里面提到了北京大学的课程最受欢迎。

这里小F就来验证一下。

# 查询标题含有北京大学的视频
df = df[df['title'].str.contains("北京大学")]
# 查询标题含有清华大学的视频
# df = df[df['title'].str.contains("清华大学")]
# 选取av号,类型,播放量数据的列
df = df[['aid', 'tname', 'view']]
# 输出结果
print(df)

结果如下。

其中2019年清华大学相关课程的播放量已经达到1千万+,而北京大学则是3千万+。

不愧是一个超硬核的「学习网站」。

小F最近想了解视频剪辑,一查就有优质资源(以播放量排序)。

最后来看一下B站视频上传时间及视频时长分布。

总体上全年成上升趋势。

8月份最高,看来暑假的时候大家学习的欲望很强啊!

对于科普的视频,时长一般都短点,这样能够快速了解。

对于需要深入学习的,时长应该就长了,所以可以看到大于30分钟的视频数量最多。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 法纳斯特 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档