专栏首页数据冰山被diss的《离人愁》撑起古风圈半边天?

被diss的《离人愁》撑起古风圈半边天?

以抖音3亿月活、在抖音话题榜上超过5亿浏览量、全网15亿的播放量的水准来看,《离人愁》是一首真正达到了「不听不是中国人」水平的爆款神曲。《离人愁》的作者李袁杰声称自己唱的是「古风」,暂且不论抄袭争议,《离人愁》到底是不是古风?如果《离人愁》让你爱上了古风、你想顺藤摸瓜听别的古风歌曲:

1.但你知道什么是「古风」歌曲吗?什么才是「古风」呢?

2.「古风」圈小众吗?

3.谁算古风歌手呢?

4.如果你信普通听友的,在「古风」圈,哪首歌火?哪些人火?

5.如果你信古风发烧友的,在「古风」圈,哪首歌火?哪些人火?

本文将按照上述脉络进行研究分析。

1.古风识别

当然你可以去各大音乐网站搜索「古风」。以QQ音乐、虾米音乐以及网易云音乐为例。当你漫无目的想发现新歌的时候,可以通过音乐网站的「发现」渠道、或者搜索关键词,去找自己想要的歌曲。除了通过歌手和热榜(排行榜)索引之外,音乐网站都具备「分类歌单」体系。QQ音乐、虾米音乐以及网易云音乐三大音乐网站的「分类歌单」界面如下图所示。

QQ音乐「音乐馆-分类歌单」界面

虾米音乐「发现音乐-风格」界面

网易云音乐「发现音乐-歌单」界面

「分类歌单」是如何形成的呢?我们以网易云音乐的歌单为例来看一下。这个歌单名为《女孩子是世界上最可爱的生物鸭》是由网易云用户「溺水小熊」于2018年3月16日创建,歌单下打着三个标签词:华语、流行、清新。在简单的文字介绍之后,就是本歌单的所有歌曲列表。点击第一首歌《微醺的午后》,会跳转到歌曲播放链接,可以看出,这是一首由歌手「四枝筆 Four Pens」在专辑《AM 6:57》中发布的歌曲。由此可以看出,分类歌单实际上是音乐网站的用户根据网站定制标签对歌单进行分类的结果

单曲界面 来源:网易云音乐

歌单界面 来源:网易云音乐

但是这样找出来的古风歌曲靠谱吗?让我们用网易云音乐尝试一下。之所以选取网易云音乐,是因为相对于其他主流音乐网站,“网易云音乐主打UGC歌单和音乐社交,鼓励探索音乐、分享音乐,让越来越多冷门、小众的优质音乐进入用户的视野中,提高用户的音乐品味,也有「听见好时光」这样的情怀Slogan”,契合本文探索小众音乐圈——「古风圈」的主题。我们爬取网易云音乐上所有带有「古风」标签的歌单及其歌曲信息,合计约5万首歌曲。按照单曲评论数量从高到低排序形成一份「热议榜单」,前十名「古风」歌曲分别是《雅俗共赏》、《Fade》、《起风了》、《可乐》、《The truth that you leave》、《说散就散》、《告白气球》、《成都》、《暧昧》、《理想三旬》。评论数量最多的《雅俗共赏》来自许嵩,单曲评论数量达到200万。

按照百度百科词条定义,「古风音乐」歌词风格偏向古诗词,我们来看一看《雅俗共赏》的画风,歌词基本上都是通俗易懂的白话文,明显不是一首偏「古风」的歌词。再看看刚刚列举的前十榜单,一首英文歌曲(《The truth that you leave》)、一首纯音乐(《Fade》)、传唱度比较高的两首民谣(《成都》和《理想三旬》)等,看上去都不符合「古风」标准。

《雅俗共赏》歌曲界面 来源:网易云音乐

看来「古风」标签并不靠谱。为什么呢?问题出在一张歌单允许被打上多个标签。从下图可以看到,单一「古风」标签的歌单数量占所有含「古风」标签歌单数量的比例不到10%。与「古风」最常一起出现的词语有:华语、轻音乐、电子、民族、流行、翻唱、古典、游戏、器乐、治愈。

具备标签分类属性的是歌单而非单曲。歌单创建人的喜好、歌单的混合风格以及流行歌手的影响力(如薛之谦)对我们研究「古风(音乐)圈」产生了较大的噪音。比如下面这张「古风」歌单,创建者明显是许嵩的粉丝——收录的全部是许嵩的歌曲,除了偏古风曲目《清明雨上》,还有《亲情式的爱情》这类现代流行音乐。

《嵩鼠》歌单 来源:网易云音乐

理想情况是每首歌都具备「标签」体系,这样就可以剔除「不古」的歌曲,得到我们想要的「古风(音乐)圈」。在没有单曲标签体系的前提下,我们能判断一首歌是不是属于「古风」吗?以许嵩的《清明雨上》和《亲情式的爱情》为例。《清明雨上》用了「窗透初晓」、「日照西桥」、「木雕流金」等具有较强古诗词意象的词语,而后者则多用现代汉语词汇,如「上班」、「下班」、「买菜」等,相对来说,我们会认为《清明雨上》更偏「古风」。

《清明雨上》与《亲情式的爱情》 来源:网易云音乐

也就是说,参考「古风音乐」的定义,我们可以通过歌词来主观判断一首歌是否偏「古风」,为单首歌曲打上「古风」标签的想法是可行的。但问题在于人肉的速度太慢。假设比对一首歌是否为「古风」需要花费2分钟,辨别5万首歌要花10万分钟,一周有1万分钟,不吃不喝不睡快10周才能完成分类,有没有更高效的办法?

提高效率的事情,我们通常都可以交给机器来做。我们可以采用TF-IDF(term frequency–inverse document frequency)算法来让机器帮助我们实现根据歌词打标签的工作。TF-IDF的主要思想是:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语

用两个简单的语句来举例:

1-我今天跟朋友一起去看了电影,非常开心!

2-我今天跟朋友一起去看了画展,非常开心!

当你看到上面两句话的时候,你可以快速的抓住每句话的「词眼」:「电影」、「画展」,我们用这两个词来区分这两句话,因为「电影」和「画展」是唯一的用词差别。如果我们告诉机器第一句话的标签是「电影」,第二句话的标签是「画展」,机器会识别出词眼,并用「电影」和「画展」这两个词在文本中是否出现、出现的频率情况来判断第三句话的标签是「电影」还是「画展」。而当文本更加复杂的时候,机器能够比人更好的胜任这份工作,它会孜孜不倦地为大段文本分词、精准计算每一个词出现的频率。利用TF-IDF统计指定语料的词频指数后,机器会根据决策树算法将这些词频指数生成分类规则,并将这些分类规则应用到新的文本上进行对比判断,从而生成一个相似概率,帮助我们了解新文本与指定文本的相似程度。

我们选取了1400余首古风单曲(这些单曲都来自于「古风」和「华语」标签下的高播放量歌单,人工抽验未混合其他语种、民谣、嘻哈等其他风格曲目,不包括《离人愁》)和1400余首非古风单曲(这些单曲都来自单一「嘻哈」和「民谣」标签下的高播放量歌单,人工抽验未混合偏古风曲目)。将这些定义好标签的单曲「投喂」给机器训练出判断模型后,我们就可以开始为单曲打标签了。除了「古风」标签歌单曲目,我们还爬取了网易云音乐华语歌手的热门曲目,累计约18万首歌曲。有了小机器的帮忙,扩大判断范围后,我们没用一年,只用了30分钟,就跑遍了18万首歌曲、为每一首歌曲生成一个相似概率——我们不妨称之为「古风度」。古风度越高,说明这首歌与我们指定的1400首古风歌曲共有的高频词越多、且与1400首非古风歌共有的高频词越少。

以0.5作为分界线,可以看到《雅俗共赏》、《说散就散》、《起风了》、《可乐》、《告白气球》、《成都》等原本被归类到「古风」的歌曲成功的被分离出来。

在0.5~0.6古风度之间充斥了部分外文歌曲,偶有偏古风的歌曲遗漏,比如 不才 的《参商》,但从热议歌曲人工校验结果来看,误差率较低,不超过5%。

选取古风度大于0.6的热议曲目,人工抽查校验歌词,从结果来看还是非常靠谱的。我们选取18万首歌曲中所有古风度大于0.6的歌曲,形成相对纯粹的「古风圈」。

让我们来看看人工智能跑出来的「古风圈」吧!

2.「古风」算不算小众?

  • 「古风」圈大小:曲少人不少

机器识别出的「古风」歌曲约1.8万余首,占此次研究的歌曲总体比例大约为10%,但唱过「古风」歌曲的歌手人数约4.3千人,占华语歌手+「古风」标签歌单涉及到的歌手总数量的29%。看来接近3成的人都有那么一点「古风」偏好。

  • 麦霸榜:「古风」圈的麦霸型选手居然是爷爷奶奶辈的歌手!

「古风」圈 演唱作品数量最多的分别是邓丽君、费玉清以及凤飞飞,这三个人的出生年份都在1955年及之前,已经是爷爷/奶奶辈的歌手。

3.谁算「古风」歌手呢?

  • 华语歌手「古风」偏爱声量榜:

上份榜单里出现了许嵩、周杰伦以及林俊杰的名字,这些都是我们熟悉的知名华语歌手。华语歌手中还有哪些歌手偏爱「古风」呢(此处华语歌手指网易云音乐歌手界面「华语」分类下的所有歌手)

网易云音乐 华语歌手界面 来源:网易云音乐

经过统计,我们发现整个人工智能定义的「古风」歌曲声量占华语热门歌曲声量的8%,故以8%为标准筛选出有一定声量(歌手总声量在10万以上)、且「古风」歌曲声量占比在8%以上的歌手,如下图所示。在这份榜单里面,我们发现了更多熟悉的华语歌手,比如 王力宏&谭维维、毛阿敏、后弦、胡歌、好妹妹乐队、朴树、刘欢、易烊千玺、大张伟、汪苏泷、李克勤、韩红、李宇春、黄龄、姚贝娜、金沙以及徐薇

4.如果你信普通听友的,在「古风」圈,哪首歌火?哪些人火?

  • 热议歌手榜:「古风」圈声量最高的歌手是许嵩

在「古风」圈,许嵩的作品声量最高,听友们喜欢在许嵩的歌曲下留言讨论。许嵩评论量最高的一首「古风」作品是《燕归巢》,前三热评有两条提到了「考试」,而三条评论都充满了对青葱时代的回忆,看来大家的青春不仅仅是周杰伦啊。

许嵩「古风」歌曲中评论数最多的《燕归巢》截图 来源:网易云音乐

《燕归巢》热评截图 来源:网易云音乐

除了许嵩、李袁杰、周杰伦、戴荃、林俊杰,其余热议歌手都以「圈名」活跃。双笙、以冬、河图、伦桑、小曲儿、音频怪物、萧忆情Alex、玄觞、慕寒、HITA、Wink诗、西瓜JUN以及排骨教主都并不是真实名字,而是这些歌手「混迹」「古风」圈所采用的化名。单人作战之外,还有 音阙诗听(音乐社团)和 洛天依(虚拟人物)这样的非「单」或非「人」型选手

Yamaha公司推出的中文声库和虚拟形象——洛天依 来源:百度图片

  • 热议单曲榜:《离人愁》达到人工智能的「古风」判断标准,还是声量最高的歌曲;「古风」圈翻唱成风

抖音神曲《离人愁》于2018年2月开始蓄势、2018年4月热度爆发、2018年7月因歌唱者李袁杰参加《明日之子》、《离人愁》被指抄袭激发热议。时隔两个月,2018年8月31日《中国好声音》哈林战队演唱《离人愁》,又掀起一波热度。「古风」圈不承认《离人愁》,但《离人愁》却撑起了人工智能确认过眼神的「古风」圈,这大概是我今年听到的音乐圈中最让人悲伤的一件事了。

《离人愁》百度指数

值得注意的是,排名第二的《我的一个道姑朋友》最早是以歌手 以冬 于2016年12月份发布的版本火起来的,在《离人愁》出现之前,它曾有「古风」第一歌曲之称(仅从评论量来看是名副其实的—笔者注)。从我们获取的数据来看,这首歌在网易云音乐上有310个不同版本,除了以冬,纱琉璃Shelley、萧忆情Alex、伦桑、小曲儿、LON、泥鳅Niko等人也唱过《我的一个道姑朋友》,连虚拟人物洛天依都唱过。

但《我的一个道姑朋友》被曝是一首翻唱作品,原创作品是日本歌手田井中彩智的《一番星》,网络盛传田井中彩智创作本意是为了纪念她最爱的爷爷逝世并且禁止二次创作,《我的一个道姑朋友》涉嫌侵权,也被戏称为「我的一个盗姑朋友」。因为版权争议问题,以冬下架了这首歌,现在已经无法在网易云音乐上听到以冬的版本了。

来源:网易云音乐

同样名列前茅的另一首翻唱作品是《故梦》。笔者未在热议榜上看到《故梦》原作,出于好奇去检索了一下,发现原唱橙翼仅获得了1.3万条评论,是双笙翻唱作品评论数量的22%。

来源:网易云音乐

来源:网易云音乐

那么「古风」圈的翻唱情况多吗?笔者按照作品名称中带有「翻唱」或者「cover」字样以及作品所属专辑名中带有「翻唱」字样进行简单统计,将「古风」圈热议歌手的声量分为「翻唱」声量和「原唱」声量。可以看到,整个「古风」圈翻唱歌曲贡献了14.41%的评论量。这个比例大吗?我们以同样的逻辑统计了华语歌手热门歌曲评论类型,大约只有2.77%的评论量来自翻唱歌曲,翻唱声量比例不到「古风」圈的20%!看来「古风」圈翻唱成风也并非空穴来风

「古风」圈哪些人是因为翻唱而火起来的?统计「古风」圈前25位热议歌手的声量类型,可以看到,双笙、以冬、伦桑、萧忆情Alex、玄觞、西瓜JUN、排骨教主、小魂等人明显受益于翻唱歌曲,翻唱为他们带来的声量比例都大于「古风」圈的平均水准。

这些分析结果看起来有点丧。除了评论数量,还有没有其他指标能看「古风」圈所推崇的东西?

5.如果你信古风发烧友的,在「古风」圈,哪首歌火?哪些人火?

  • 歌单认可榜:在人工智能识别的「古风」圈中,带有「古风」标签歌单最喜欢收录的前五名歌手是 音频怪物、小曲儿、河图、银临以及HITA的作品,最喜欢收录的前五名单曲是《牵丝戏》(银临/Aki阿杰)、《锦鲤抄》(银临/ 云の泣)、《棠梨煎雪》(银临)、《杏花弦外雨》(CRITTY/司夏)、《不老梦》(银临)、《第三十八年夏至》(河图)、《倾尽天下》(河图)和《琴师》(音频怪物)、《典狱司》(音频怪物)和《红尘》(小曲儿)。

其中,《牵丝戏》、《锦鲤抄》、《不老梦》、《第三十八年夏至》、《倾尽天下》以及《琴师》都是歌手作曲的原创作品。河图和银临也是圈内公认的创作型歌手,结合上面翻唱分析情况来看,河图从来不翻唱别人的歌曲、银临的翻唱比例也极低。据笔者检索结果,河图和银临也是该榜单中唯二被维基百科收录的歌手看来歌单创建人在「古风」音乐审美上还是有一定水准。

到这里,笔者对「古风」圈的分析研究也暂时告一段落,大致可以总结如下:

  • #1. 哪些算古风歌曲呢?用音乐网站歌单的「古风」标签来判断歌曲「古」不「古」并不可靠,但人工智能可以快速识别出「古风」歌曲;
  • #2. 古风算小众吗?「古风」圈可能小众(歌曲比例约10%),但唱「古风」歌曲的人并不少(歌手比例约29%)。上至爷爷奶奶辈的邓丽君、费玉清、凤飞飞,下至伴随90后青葱岁月的华语流行歌手如许嵩都贡献了大量「古风」歌曲;
  • #3.谁是听友认可的「偏古风歌手」?如果你想听自己熟悉的歌星唱古风,你可以选择以下几位:许嵩、周杰伦、林俊杰、戴荃、王力宏&谭维维、毛阿敏、后弦、胡歌、好妹妹乐队、朴树、刘欢、易烊千玺、大张伟、汪苏泷、李克勤、韩红、李宇春、黄龄、姚贝娜、金沙以及徐薇;
  • #4. 如果按普通听友推荐,哪些古风歌手和歌曲比较火?你可以选择《离人愁》、《我的一个道姑朋友》、《故梦(Cover橙翼)》等热议歌曲,也可以选择双笙、以冬、李袁杰、伦桑、萧忆情Alex等以翻唱闻名的圈内歌手,翻一翻歌曲评论、评一评江湖恩怨,愉快的做一个吃瓜群众;
  • #5. 如果按发烧友推荐,哪些古风歌手和歌曲比较火?你可以选择关注河图、银临、音频怪物、小曲儿、HITA等歌手,给自己取一个别致又独特的「圈名」,为自己建一份包括《牵丝戏》、《锦鲤抄》、《棠梨煎雪》、《杏花弦外雨》、《不老梦》、《第三十八年夏至》、《倾尽天下》和《琴师》、《典狱司》和《红尘》等歌曲的歌单,喝一喝花茶、品一品歌词,感受「古风」圈的圈地自萌。

话说回来,最近音乐类综艺节目层出不穷,而最频繁出现在知乎热榜的恐怕就是《中国新说唱》了。在六强决赛中,热狗有一句歌词振聋发聩:「现在是最好的时代却也最坏,现在讲求流量啊,各位妖魔鬼怪」。除了「白了华发、两股痒痒」这种「流量妖魔鬼怪」,破坏「古风」圈的还有版权意识淡薄。笔者最近发现《锦鲤抄》开始在网易云音乐上付费下载了,而歌曲最新评论则对于付费下载颇有微词。优秀的原创作品要面临前文讨论的侵权和大量翻唱问题,同时又要被诟病正版收费,的确让人心寒。希望看到这里的你能够多支持优秀的原创音乐人,也希望「古风」圈能保持初心创作出更多更好的音乐作品。

来源:《中国新说唱》

参考:

1-《比赛撒娇还被劝多学乐理知识 李袁杰还能火多久?》

2-《版权共享之后,我选网易云音乐》

3- 维基百科:tf-idf

4-维基百科: 河图银临

本文分享自微信公众号 - 数据冰山(shujubingshan)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2018互联网人恋爱调查报告出炉,程序员恋爱比例居然最高

    此份报告是在今年11.11期间,以调查问卷和随机抽样的方式,对西二旗地铁站周边的互联网行业非单身人士进行了调查。(据说有一半的问卷因为填写“单身”而作废)

    后端技术探索
  • 成都微软圆桌技术交流活动圆满成功

    2018年11月7日周三晚上,在成都中海国际中心微软office举办了成都微软圆桌技术交流活动,成都的技术小伙伴汇聚一堂。给社区新人或者开发者举办一次与各位技...

    角落的白板报
  • 深度解析用户画像的标签体系

    用户画像已经是作为一个数据从业者来说家常便饭的内容,围绕自然人的年龄、性别、职业、收入、风险、兴趣等各个维度去建立和完善相关的标签体系,重复重复再重复的优化。 ...

    宇相
  • 产品笔记:产品经理和项目经理到底有什么区别?

    产品经理的英文是“Product Manager”,项目经理的英文是“Project Manager”,都简称为 PM;那么这两个岗位有什么区别呢?

    宇相
  • 初创公司做产品,正在踩哪些坑?

    “产品”已然成为现阶段创业公司不得不接触的词汇,互联网产品给各行业带来了进阶性的变化,运营结构与手段在无声中展现震撼性的变化。

    齿轮易创说互联网
  • 婚姻大数据:姐弟恋最靠谱,男同学们,小姐姐会好好爱护你的

    导读:每个人都会有自己的宿命,在感情上也一样,有些人可能经历过几段婚姻,绕个弯最后找到自己的归宿,而有些人只是一直在寻找的路上。那么你最适合和什么样的人结婚?来...

    华章科技
  • Python中4种更快速,更轻松的数据可视化方法(含代码)

    数据可视化是任何数据科学或机器学习项目的重要组成部分。我们通常会从探索性数据分析(EDA)开始,以获得对数据的一些见解,然后创建可视化,这确实有助于使事情更清晰...

    AiTechYun
  • 8.26头条/字节跳动数据分析面试面经

    笔试简单聊一下吧~我记得好像是4部分,第一部分是简答题,一共3题,都是业务分析,第一题是数学计算,好像是一款app,给了第一天日活,目标是30天后日活达到D30...

    牛客网
  • 100行代码爬取全国所有必胜客餐厅信息

    当我刚接触 Python 时,我已经被 Python 深深所吸引。Python 吸引我的地方不仅仅能用其编写网络爬虫,而且能用于数据分析。我能将大量的数据中以图...

    猴哥yuri
  • Netflix大溃败:放弃算法崇拜,向好莱坞低头

    网飞Netflix的“数据分析指导影视创作”模式早已为全球熟知,爆红神剧《纸牌屋》的成功正是得益于此。

    大数据文摘

扫码关注云+社区

领取腾讯云代金券