我用 20 行代码告诉你，文科生也该学点编程

文章来源：企鹅号 - 书图同归

最近在学 Python 编程的过程中，发现一个有意思的第三方模块 jieba，用它可以自动给文章中的汉字进行分词，并统计出它们出现的次数。于是，按照教程输入相关代码，然后让程序运行起来，对指定的文本进行词频统计，从而发现了一些以前不曾知道的秘密。

下图是对从网上下载的《二十五史》（下图处）统计前 200 个高频词（下图处）的运行结果：

从中不难看出，中国人自己写的历史，就是一部帝王将相”抢椅子“的权力游戏，几千年来从未改变。

用同样的代码和方法再统计《全唐诗》和《全宋词》合并后的文本，前30 个高频词如下：

”何处“竟然遥遥领先，成为唐诗、宋词中使用最多的词语，难道这就是中国古人心中最大的问题吗？

从整体上看，诗书和史书中的高频词几乎没有交集。可见，这是两个完全不同的世界：一个是残酷的现实，一个是惆怅的想像。看到此处的朋友，不知你作何感想？如果你也是个文科生，那像我一样，赶紧学点编程技能吧，它对你的学习和工作都大有裨益！

用程序统计词频不光能发现别人文章背后的秘密，也能了解自己的兴趣爱好。比如，我硬盘里收藏了数千本电子书，它们有什么特点呢？

将所有书名保存到一个文本文件（与上面的文本一样，都要使用 UTF-8 编码，如下图箭头所示）：

然后再用前面的程序代码进行词频统计，结果前 9 个高频词如下：

虽然书不一定都读了，但这些高频词起码反映了自己的读书方向。

最后，我将前面提到的 Python 代码分享出来，如果你也想试试，除了要在电脑上安装 Python 之外，还要再安装 jieba 模块才能正常运行。这些网上都能搜到，就不再赘述了。

在这个大数据时代，不会处理大数据，谈何竞争力？

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货