做了六百万字歌词分析,告诉你为何“freestyle”火遍全网

HipHop到底在唱些什么?

各个国家和地区的 Rapper 们想要说的聊的唱的都有哪些特色?

如果想当一个Rapper,我应该怎样写词才能紧跟潮流又不会离题太远?

所以我用 Python 抓取了美国、英国、中国台湾、中国香港、中国大陆四个地区,总共六千万的歌词,其中包括大陆600万的歌词,做了一些数据分析的工作,目的就是给你想要的答案。

我的数据源选了虾米音乐,因为虾米有详细的嘻哈音乐分类,其它的如网易云音乐、QQ、Spotify、iTunes、StreetVoice,要么欠缺对歌手音乐风格的分类,要么分类粗糙,没法当做数据源。

选定虾米音乐之后,写了好一会代码,抓取歌词的爬虫开始蹭蹭工作了

爬虫一般会面对两个问题——

1.代理问题

频繁地抓取网站的页面,IP 很容易被封。于是写了个抓免费代理的爬虫,抓了八百多个代理 IP,够用了。

2.效率问题

10万首歌,即使是1秒一个请求,那得27个小时,我可等不了27个小时。

于是我决定开10个线程,三小时程序就能跑完。

……

然后在三小时之后,我收获一个约100M,49419首歌的数据库。

看着这满满的记录,感受到蜜蜂辛勤搬运后看着蜂蜜的喜悦,我相信,关于HipHop歌词的秘密全部都包含在里边了。

接下来,就是一些数据清洗、处理、分析的工作。

虾米的歌词都是用户编辑上传的,格式不适用数据分析,所以我得把无用的符号、编曲、作词之类的信息除去(格式统一有多么重要啊朋友们),然后中英文各自分词。英文需要去停词(对数据分析无用的词,一般没有实际含义,如 is、on、at、which),大小写变换,以及词形变换。英语中词汇有单复数、各种时态,为了易于分析,需要还原为词干。另外不管是中文还是英文都需要词性标注,一般来说分析也就分析名词和形容词,这些现成的开源库使用(此处省去1000万字)。

总之,我都搞定了,以下就是分析结果。我们先看看大陆地区的 rapper 歌词里有都写啥关键词

“世界”“时间”占据首位,“老子”、“兄弟”、“baby”、“money”、“bitch”、“real” 等词倒是让 rapper 的形象呼之欲出。rapper 的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐非常在乎。

接着,我们来看看与其他几个地区的关键词对比

看起来 rapper 的生活差不多,无论大陆还是台湾,都喜欢喊 “baby”,身边都有一群“兄弟”“朋友”,有“梦想”,平时都在唱 “hip hop” ,有“烦恼”了就骂骂街。

亮点是美国的关键字 top1 是 “nigga”,这个和带有种族歧视意味的 “nigger” 还不是一个词。关于这个Tupac 有过一个有意思的定义。

nigger : a black man with a slavery chain around his neck.

nigga : a black man with a gold chain on his neck.

接下来,为了了解 rapper 的生活状况,我开始分析一些常见词汇在歌词中出现的频率。饶舌歌手们的生活想必少不了豪车,出门骑摩拜可能有被开除 rap 籍的风险。

这是各汽车品牌在国内16284首嘻哈歌曲中出现的情况,在一首歌的歌词中出现算一次,总共约有400多首歌中出现至少一次汽车的品牌名字。可以看出,饶舌歌手喜欢宝马和奔驰的很多,特点只有一个,就是贵!其实夏利、桑塔纳等车也有不少歌提到,但一般表达的是消极情绪。

然后我又统计了一下 rapper 们都喝什么

*红色是国内饶舌歌手的数据,黄色是总数据

看来饶舌歌手不那么喜欢喝威士忌,排在威士忌前面的还分别有龙舌兰、白兰地、朗姆酒,限于图表大小我没将这几个列入图表。香槟作为富有的象征,遥遥领先,不过国内的饶舌歌手似乎处于消费尚未升级的水平,啤酒排在首位。

绝对伏特加在《中国有嘻哈》做广告确实是找对地方了,rapper 们对伏特加有高于常人的偏好。

然后,我们来看一下管制药物的情况

果然大家还是喜欢叶子,不只是饶舌歌手啦。

饶舌歌手喜欢互相 diss,所以他们 diss 时会骂些啥?让我们来看看他们都骂了什么脏话。

这个统计有个小插曲,第一次统计发现一个中文脏话都没有,还以为净网运动成功了,结果发现分词的词库里压根就没脏话的词汇,重新手动加入词库后就好了。

(左边是所有数据的出现次数,右边是大陆说唱的出现次数)

大陆16284首歌有2496首出现脏话,脏话率约为15%,而非大陆的数据中,33134首歌有13217首出现脏话,脏话率约为40%。

总的来看,我国歌手比较符合社会主义核心价值观。我试着把 “damn” 和 “shit” 这两个不那么“脏”并且口语常见的词在国外的统计中去掉,最后脏话率还有33%,比例远远高于大陆。一个推测是,英文脏话词汇在歌词中更容易押韵,或者唱起来 flow 更好把握。另一个可能是审查原因,早有 “in3” 这样的乐队英文歌词原因被禁,国内的 rapper 创作起来可不能太奔放。

最后我们来探讨一下 rap 里的押韵。

在《中国有嘻哈》中我们看到有单押、双押、三押,各种层出不穷的押韵。旋律、押韵、节奏是说唱歌曲三个很重要的评判标准,一个好的押韵,能让歌曲的 flow 更加流畅。

那么我们怎么才能唱出酷酷的押韵呢?我从歌词库中取出所有歌词,分词,然后根据韵母、声调分类,然后得到了一个押韵词汇文件。

韵脚的分布挺有趣的,我统计了一下出现前十的两字词语韵脚

可以看出,i i 这个韵脚是最容易押韵的。下图的这个韵脚的部分词汇。“势利”,“世纪”,“日志”,“秘密”……

看着这些词汇,我就情不自禁 rap 起来了,drop the beat!

原文发布于微信公众号 - BestSDK(bestsdk)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

AI击败DotA顶级选手是不是突破?OpenAI放出了更多细节

陈桦 编译自 OpenAI Blog 量子位 报道 | 公众号 QbitAI ? 周末,OpenAI在DotA 2全球顶级赛事TI7(The Internati...

33330
来自专栏灯塔大数据

原创译文 | 中国学校应用人工智能为学生批作文,与老师打分相差无几

据“南华早报”报道,中国的一些学校正在使用人工智能为学生作业评分。中国国内有四分之一的院校(大约六万所)正在悄然测试这种机器学习动力系统,可以自动为学生的作业打...

14130
来自专栏机器人网

深度报道:磁共振引导的手术机器人

外科医生在进行脑肿瘤治疗时面临一个困境:他们可以使用磁共振成象(MRI)捕捉超高分辨率的肿瘤图像,也可以使用超精密的手术器具移除肿瘤,但是他们不能在同一时间做这...

33060
来自专栏架构说

程序员练级攻略(2018):技术资源集散地

其实还有很多不错的博客,不过,现在国外不错的博客都在一个叫 Medium 的网站,我也发现我 Google 很多东西时都会到这个网站上。这个网站上的内容不只有技...

1.2K20
来自专栏挖掘大数据

另类大数据:中国有嘻哈的rapper们都在唱些什么?

2017年下半年,钱多、戏多、话题多的《中国有嘻哈》突然带火了一众rapper,原来格格不入的嘻哈音乐突然变成了主流。数据统计显示,截至9月7日,《中国有嘻哈》...

31370
来自专栏MixLab科技+设计实验室

当AI学会了咪蒙的文风之后……

不小心训练了一个AI学习了咪蒙的文章风格,获取了她的世界观,本文演示下此AI的能力。

19320
来自专栏华章科技

今年最好的数据可视化作品,看了就赚了!

今年,评委们重新设计了作品分类方式——根据作品的表现主题进行分类,大体上分为艺术、时政、环境、人文、科学、体育等。下面,让我们一同目睹这些美轮美奂的数据可视化作...

20020
来自专栏企鹅号快讯

让AI为你的2017年“尬歌”一首

一年即将结束,鹅粉们都上传了多少照片到QQ空间的相册里? 在这里记录的生活点滴可能多到数不过来,那就直接用这些照片来总结你的2017年吧! ? 可能今天也有鹅粉...

20950
来自专栏大数据文摘

可视化经典:10幅精妙绝伦的科学视图

12520
来自专栏PPV课数据科学社区

可视化经典:10幅精妙绝伦的科学视图

来源|译言网 作者|Dave Mosher 译者|Lineker 海量的科学数据可以通过艺术化的科学视图进行呈现,集合与美感相互交融,无序的信息大山化为纸面的五...

36280

扫码关注云+社区

领取腾讯云代金券