首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我用 20 行代码告诉你,文科生也该学点编程

最近在学 Python 编程的过程中,发现一个有意思的第三方模块 jieba,用它可以自动给文章中的汉字进行分词,并统计出它们出现的次数。于是,按照教程输入相关代码,然后让程序运行起来,对指定的文本进行词频统计,从而发现了一些以前不曾知道的秘密。

下图是对从网上下载的《二十五史》(下图处)统计前 200 个高频词(下图处)的运行结果:

从中不难看出,中国人自己写的历史,就是一部帝王将相”抢椅子“的权力游戏,几千年来从未改变。

用同样的代码和方法再统计《全唐诗》和《全宋词》合并后的文本,前30 个高频词如下:

何处“竟然遥遥领先,成为唐诗、宋词中使用最多的词语,难道这就是中国古人心中最大的问题吗?

从整体上看,诗书和史书中的高频词几乎没有交集。可见,这是两个完全不同的世界:一个是残酷的现实,一个是惆怅的想像。看到此处的朋友,不知你作何感想?如果你也是个文科生,那像我一样,赶紧学点编程技能吧,它对你的学习和工作都大有裨益!

用程序统计词频不光能发现别人文章背后的秘密,也能了解自己的兴趣爱好。比如,我硬盘里收藏了数千本电子书,它们有什么特点呢?

将所有书名保存到一个文本文件(与上面的文本一样,都要使用 UTF-8 编码,如下图箭头所示):

然后再用前面的程序代码进行词频统计,结果前 9 个高频词如下:

虽然书不一定都读了,但这些高频词起码反映了自己的读书方向。

最后,我将前面提到的 Python 代码分享出来,如果你也想试试,除了要在电脑上安装 Python 之外,还要再安装 jieba 模块才能正常运行。这些网上都能搜到,就不再赘述了。

在这个大数据时代,不会处理大数据,谈何竞争力?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190621A0RAC100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券