最近在学 Python 编程的过程中,发现一个有意思的第三方模块 jieba,用它可以自动给文章中的汉字进行分词,并统计出它们出现的次数。于是,按照教程输入相关代码,然后让程序运行起来,对指定的文本进行词频统计,从而发现了一些以前不曾知道的秘密。
下图是对从网上下载的《二十五史》(下图处)统计前 200 个高频词(下图处)的运行结果:
从中不难看出,中国人自己写的历史,就是一部帝王将相”抢椅子“的权力游戏,几千年来从未改变。
用同样的代码和方法再统计《全唐诗》和《全宋词》合并后的文本,前30 个高频词如下:
”何处“竟然遥遥领先,成为唐诗、宋词中使用最多的词语,难道这就是中国古人心中最大的问题吗?
从整体上看,诗书和史书中的高频词几乎没有交集。可见,这是两个完全不同的世界:一个是残酷的现实,一个是惆怅的想像。看到此处的朋友,不知你作何感想?如果你也是个文科生,那像我一样,赶紧学点编程技能吧,它对你的学习和工作都大有裨益!
用程序统计词频不光能发现别人文章背后的秘密,也能了解自己的兴趣爱好。比如,我硬盘里收藏了数千本电子书,它们有什么特点呢?
将所有书名保存到一个文本文件(与上面的文本一样,都要使用 UTF-8 编码,如下图箭头所示):
然后再用前面的程序代码进行词频统计,结果前 9 个高频词如下:
虽然书不一定都读了,但这些高频词起码反映了自己的读书方向。
最后,我将前面提到的 Python 代码分享出来,如果你也想试试,除了要在电脑上安装 Python 之外,还要再安装 jieba 模块才能正常运行。这些网上都能搜到,就不再赘述了。
在这个大数据时代,不会处理大数据,谈何竞争力?
领取专属 10元无门槛券
私享最新 技术干货