专栏首页AI研习社用Python分析周杰伦6.5W字的歌词,原来他是这样的人

用Python分析周杰伦6.5W字的歌词,原来他是这样的人

前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。

一、准备歌词素材

歌词选择:杰伦至今的所有专辑(从最开始的<JAY>到最新的<周杰伦的床边故事>)

由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。

二、对歌词文件完成分词

这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!

没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。

千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~(>_<)~~~~)

三、对分词的结果进行分析

好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 ♪(^∇^*) )

结论一:杰伦最喜欢的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)

拉了下出现频率 top20 的词语,满满的都是文艺、伤感、爱情 :

我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始

我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 ♪(^∇^*)

结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)

大家应该都听过<听妈妈的话>。

杰伦专门为外婆写了一首歌<外婆>,其中也就1句歌词提到了外公。

至于爷爷,杰伦也有那首<爷爷泡的茶>

结论三:杰伦喜欢黑色、白色胜过其他颜色

很符合周董的形象,歌词里高大上的黑色&白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是<以父之名>,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为<青花瓷>吧。

结论四:杰伦最喜欢的语气词是 oh~

毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 "哎呦不错哦~" 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。

总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^

注:以上内容纯属胡说八道,如有雷同,纯属巧合。

另,头图不是 python 生成,是使用一个国外的网站(wordart)生成的。文章中使用的分词代码、歌词文本、头图已通过有道云笔记分享(文章末尾有链接),内容如下:

有道云笔记链接:http://t.cn/RaICFIV

本文分享自微信公众号 - AI研习社(okweiwu),作者:冬鑫

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 解读吴文俊三大研究与人工智能的渊源 | 百年诞辰纪念

    2019年5月12日(即昨天)是著名数学家吴文俊的诞辰100周年纪念日。1956年,吴文俊因为在拓扑学上的成就,与华罗庚、钱学森获得首届国家自然科学一等奖;在3...

    AI研习社
  • 博客 | Github开源人体姿态识别项目OpenPose中文文档

    人体姿态识别与估计的应用场景:抖音尬舞机、体育动作教学、3D健身教练、3D试衣、绘画辅助、游戏人物动作采集。

    AI研习社
  • 5 个越早知道越好的 Python 特性

    Python 是近十年来兴起的编程语言,并且被证明是一种非常强大的语言。我用 Python 构建了很多应用程序,从交互式地图到区块链。Python 有很多特性,...

    AI研习社
  • pygame系列_箭刺Elephant游戏_源码下载

    http://www.pygame.org/docs/tut/chimp/ChimpLineByLine.html

    Hongten
  • Python之pygame学习精灵碰撞做一个躲避球游戏(13)

    获取鼠标返回的坐标,用这个坐标来画圆的时候,设置好不能超出边框,结果圆居然能出去????

    萌海无涯
  • 前端基础-css字体与文本属性

    一张图片的打印出来的实际尺寸是由电子图片的像素和分辨率共同决定的,像素(Pixel)是指构成图片的小色点,分辨率(单位DPI)是指每英寸(Inch)上的像素数量...

    cwl_java
  • TensorFlow-VGG16模型复现

    VGG全称是指牛津大学的Oxford Visual Geometry Group,该小组在2014年的ImageNet挑战赛中,设计的VGG神经网络模型在定位和...

    xxpcb
  • 阻止a标签的默认事件及延伸

    先贴一段代码 <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" ...

    吴裕超
  • Python——动画精灵

    前边已经讲到,看似简单的动画实际上并不简单。如果有大量图像在四处移动,要想跟踪每个图像“底下”有些什么,以便在移动图像时能够重绘,这要给很大的功夫。我们之前的小...

    py3study
  • python接口自动化测试 - mock模块基本使用介绍

    当我们测试某个目标接口(模块)时,该接口依赖其他接口,当被依赖的接口未开发完成时,可以用mock模拟被依赖接口,完成目标接口的测试

    小菠萝测试笔记

扫码关注云+社区

领取腾讯云代金券