Python分词和词频,Beyond的“理想”比“唏嘘”更多

看了一个Beyond的纪录片, 提到“唏嘘”是他们的歌词中出现最多的词. 觉得心有不甘, 于是搜集了下面24首歌词, 用Python做了简单分词和词频统计.

Amani 遥望 不再犹豫 午夜怨曲 灰色轨迹 旧日的足迹农民 长城 不可一世 可否冲破 逝去日子 谁伴我闯荡大地 冷雨夜 光辉岁月 岁月无声 无悔这一生 为了你,为了我情人 喜欢你 再见理想 海阔天空 无泪的遗憾

统计了单个词语在所有歌词中总出现次数, 以及某个词出现在了几首歌中。

Python源码如下,使用了结巴分词:

使用中文命名的Python简单脚本,计算Beyond歌词中的词频排序

前者的最高频几个中文词(完整的在"所有词频输出.txt"):

('多少', 22), ('一生', 21), ('多么', 20), ('理想', 19), ('没有', 19), ('一天', 19), ('Woo', 18), ('今天', 18), ('心中', 16), ('一起', 16), ('OH', 16), ('唏嘘', 15), ('彼此', 14)

“理想”出现了19次,“唏嘘”出现了15次。

后者的前几位(完整的在"所在文件数.txt"):

('多少', 9), ('心中', 8), ('没有', 8), ('一切', 8), ('理想', 7), ('Woo', 7), ('一生', 7), ('今天', 7), ('唏嘘', 6), ('拥有', 6), ('可否', 5), ('多么', 5), ('风雨', 5), ('感觉', 5), ('天空', 5), ('心里', 5), ('岁月', 5)

“理想”出现在了7首歌中,“唏嘘”出现在了6首中。

至少这几首经典里, "理想"比"唏嘘"更多.

这应该是Beyond希望的吧。

更多中文编程推广过程内情,请关注“用中文编程”微信公众号。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190627A0CWV700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券