作者 / 来源:法纳斯特(ID:walker398)
01 获取分析
信息肯定不是去抖音获取的,而是从某平台爬取的。具体的就不透露了,如果需要数据集的,公众号回复抖音数据,即可获取。
主要包含了大V们的昵称、性别、类型、点赞数、粉丝数以及视频数。
一共有2840位抖音大V,粉丝数都是50w+。
02 数据可视化
1. 性别分布情况
2000多位大V,除去未知性别的,男女比例基本在「1:1」。
可视化代码如下。
def create_gender(df):
"""
性别
"""
df = df.copy()
df.loc[df.gender == 0, 'gender'] = '未知'
df.loc[df.gender == 1, 'gender'] = '男性'
df.loc[df.gender == 2, 'gender'] = '女性'
gender_message = df.groupby(['gender'])
gender_com = gender_message['gender'].agg(['count'])
gender_com.reset_index(inplace=True)
# 生成饼图
attr = gender_com['gender']
v1 = gender_com['count']
pie = Pie("抖音大V性别分布情况", title_pos='center', title_top=0)
pie.add("", attr, v1, radius=[40, 75], label_text_color=None, is_label_show=True, legend_orient="vertical", legend_pos="left", legend_top="%10")
pie.render("抖音大V性别分布情况.html")
2. 点赞数TOP10
点赞数都是过亿的存在,就问你怕不怕。
其中「浙有正能量」和「人民日报」这两个都是属于弘扬中国正能量的。
泱泱大中华,复兴在当下,国强则无惧,龙行在天涯。
可视化代码如下。
def create_likes(df):
"""
点赞数
"""
df = df.sort_values('likes', ascending=False)
attr = df['name'][0:10]
v1 = ["{}".format(float('%.1f' % (float(i) / 100000000))) for i in df['likes'][0:10]]
# 生成柱状图
bar = Bar("抖音大V点赞数TOP10(亿)", title_pos='center', title_top='18', width=800, height=400)
bar.add("", attr, v1, is_convert=True, xaxis_min=0, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
bar.render("抖音大V点赞数TOP10.html")
3. 粉丝数TOP10
粉丝数前十,大部分大V都是娱乐圈的。
这也是当下所流行的~
可视化代码如下。
def create_fans(df):
"""
粉丝数
"""
df = df.sort_values('fans', ascending=False)
attr = df['name'][0:10]
v1 = ["{}".format(float('%.1f' % (float(i) / 10000))) for i in df['fans'][0:10]]
# 生成柱状图
bar = Bar("抖音大V粉丝数TOP10(万)", title_pos='center', title_top='18', width=800, height=400)
bar.add("", attr, v1, is_convert=True, xaxis_min=0, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
bar.render("抖音大V粉丝数TOP10.html")
4. 各类型点赞数汇总分布图
「蓝V」「娱乐」「生活」「美女」「搞笑」「帅哥」「音乐」这些类型的抖音视频,应该算是在抖音里较受欢迎的。
蓝V是抖音上的一个认证方式,主要是针对企业。
从上面可以看出大部分是媒体这一块,内容则主要是一些时事以及那些正能量视频。
可视化代码如下。
def create_type_likes(df):
"""
类型点赞数
"""
dom = []
likes_type_message = df.groupby(['type'])
likes_type_com = likes_type_message['likes'].agg(['sum'])
likes_type_com.reset_index(inplace=True)
for name, num in zip(likes_type_com['type'], likes_type_com['sum']):
data = {}
data['name'] = name
data['value'] = num
dom.append(data)
# 生成矩形树图
treemap = TreeMap("各类型抖音大V点赞数汇总图", title_pos='center', title_top='5', width=800, height=400)
treemap.add('各类型抖音大V点赞数汇总图', dom, is_label_show=True, label_pos='inside', is_legend_show=False)
treemap.render('各类型抖音大V点赞数汇总图.html')
5. 各类型粉丝数汇总分布图
「娱乐」类型大V的粉丝数遥遥领先,位居第一。
其次便是「美女」「生活」「音乐」「帅哥」「文化」「蓝V」类型的。
结合一下点赞数的数据,我们就能知道在抖音里什么样的视频大家比较喜欢。
便是「娱乐」「生活」「美女」「帅哥」「音乐」「蓝V」这几个类型。
可视化代码如下。
def create_type_fans(df):
"""
类型粉丝数
"""
dom = []
fans_type_message = df.groupby(['type'])
fans_type_com = fans_type_message['fans'].agg(['sum'])
fans_type_com.reset_index(inplace=True)
for name, num in zip(fans_type_com['type'], fans_type_com['sum']):
data = {}
data['name'] = name
data['value'] = num
dom.append(data)
# 生成矩形树图
treemap = TreeMap("各类型抖音大V粉丝数汇总图", title_pos='center', title_top='5', width=800, height=400)
treemap.add('各类型抖音大V粉丝数汇总图', dom, is_label_show=True, label_pos='inside', is_legend_show=False)
treemap.render('各类型抖音大V粉丝数汇总图.html')
6. 视频粉丝点赞三维度图
视频越多并不意味着点赞数就越多,粉丝数就越多。
不过还是会有个例出现,比如「浙有正能量」,1744个视频,4.6亿点赞数。
可视化代码如下。
def create_scatter(df):
"""
三维度散点图
"""
# 生成数据列表
data = [list(i) for i in zip(df['videos'], df['fans'], df['likes'], df['name'])]
# 生成散点图
x_lst = [v[0] for v in data]
y_lst = [v[1] for v in data]
extra_data = [v[2] for v in data]
sc = Scatter("抖音大V视频数粉丝数点赞数三维度", title_pos='center', title_top='5', width=800, height=400)
sc.add("", x_lst, y_lst, extra_data=extra_data, is_visualmap=True, visual_dimension=2, visual_orient="horizontal", visual_type="size", visual_range=[0, 500000000], visual_text_color="#000", visual_range_size=[5, 30])
sc.render('抖音大V视频数粉丝数点赞数三维度.html')
7. 平均视频点赞数TOP10
第一居然被一个珠宝商给霸占了。
可视化代码如下。
def create_avg_likes(df):
"""
平均点赞数
"""
df = df[df['videos'] > 0]
df.eval('result = likes/(videos*10000)', inplace=True)
df['result'] = df['result'].round(decimals=1)
df = df.sort_values('result', ascending=False)
attr = df['name'][0:10]
v1 = df['result'][0:10]
# 生成柱状图
bar = Bar("抖音大V平均视频点赞数TOP10(万)", title_pos='center', title_top='18', width=800, height=400)
bar.add("", attr, v1, is_convert=True, xaxis_min=0, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
bar.render("抖音大V平均视频点赞数TOP10.html")
8. 平均视频粉丝数TOP10
妥妥的娱乐圈大佬。
反正我是一个没关注,你们呢?
可视化代码如下。
def create_avg_fans(df):
"""
平均粉丝数
"""
df = df[df['videos'] > 0]
df.eval('result = fans/(videos*10000)', inplace=True)
df['result'] = df['result'].round(decimals=1)
df = df.sort_values('result', ascending=False)
attr = df['name'][0:10]
v1 = df['result'][0:10]
# 生成柱状图
bar = Bar("抖音大V平均视频粉丝数TOP10(万)", title_pos='center', title_top='18', width=800, height=400)
bar.add("", attr, v1, is_convert=True, xaxis_min=0, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
bar.render("抖音大V平均视频粉丝数TOP10.html")
03 总结
我们常说,刷抖音就是浪费时间。
讲道理,抖音上也是有不少技术流的大佬,当然内容上更趋向于视频制作。
比如下面这几位,鼎鼎大名的「黑脸V」。
所以,抖音也并不是一无是处。
如果哪天你也能学会制作出那些吊炸天的视频,也是一种收获。
当然路很长,慢慢走~
有话要说?
Q: 你关注了哪些抖音大V?
欢迎留言与大家分享
猜你想看?
更多精彩?
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 报告 | 读书 | 书单 | 干货
大数据 | 揭秘 | Python | 可视化
AI | 人工智能 | 5G | 区块链
机器学习 | 深度学习 | 神经网络
合伙人 | 1024 | 段子 | 数学 | 高考
据统计,99%的大咖都完成了这个神操作
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩,请在后台点击“历史文章”查看