数据分析告诉你,鲁迅的文章真的是匕首投枪

我们读一篇文章时,很容易感受到作者的情绪,作者是悲伤的,笔下的文字可能字字泣血,作者是快乐的,笔下的文字也会跳舞。

小时候读鲁迅的《纪念刘和珍君》,只觉得作者的愤怒和绝望喷涌而出。

可是我实在无话可说。我只觉得所住的并非人间。四十多个青年的血,洋溢在我的周围,使我艰于呼吸视听,那里还能有什么言语?长歌当哭,是必须在痛定之后的。而此后几个所谓学者文人的阴险的论调,尤使我觉得悲哀。我已经出离愤怒了。我将深味这非人间的浓黑的悲凉;以我的最大哀痛显示于非人间,使它们快意于我的苦痛,就将这作为后死者的菲薄的祭品,奉献于逝者的灵前。

这种字里行间的激烈情感,来自文章里一些关键词语,这些关键词语可以是形容词,比如“阴险”,“悲哀”,“愤怒”,“悲凉”,“哀痛”;可以是名词,比如“血”,“苦痛”,“死者”,“祭品”;可以是动词,比如“哭”。

那有没有可能有一种情感分数,可以来量化一篇文章的情感?

文本分析有一种场景,是通过大量的语料训练一个情感词库,这个词库有每一个词语对应的情感分数,分数>0且越高,表示情感越积极,分数<0且越低,表示情感越消极。

在网上一番搜刮,真的找到这样一个词库,这个词库有11万多个词,每个词都有其对应的情感分数,比如 红红火火 这个词,它的情感分数高达 5.73,是一个非常正面积极的词语,而像 新加坡 ,黑猩猩 这种名词,他们是中性词,基本不含情感,他们的分数在0到1之间,一些比较消极的形容词,比如孤苦伶仃,它的分数是-2.58,或者一些消极的动词比如发飙,它的分数是-2.62。

把一篇文章进行分词,然后挨个匹配情感词库对应的分数,再求个均值,于是一篇文章的情感就量化粗来了!

挽起袖子,说肛就肛!用Python分词并匹配情感词库的分数

article=open('d:/python/xx.txt','r').read() words=pd.DataFrame(jieba.cut(article)) words=words.rename(columns={0:'word'})score=pd.read_table('d:/python/score.txt',encoding='utf8',sep=' ',names=['word','score']) finish=pd.merge(left=words, right=score, how='left', left_on='word', right_on='word') finish=finish[finish.score.isnull()==False] print finish.mean()

结果发现《纪念刘和珍君》虽然通篇有很多绝望,消极的词汇,但也有很多积极有力量的词汇,两者一中和,情感分数在中间的位置 (o゚ω゚o)

文章里边情感分数最消极的是:杀害-3.69,噩耗-3.41,血痕-3.39

文章里边情感分数最积极的是:师友3.36,永存3.03,奉献2.83

我给迅哥的几篇文章都输出了情感分数,有以下的分布:

看到《药》的负分,脑海中浮现出那个人血馒头,那种压抑,悲凉和血雾弥漫的画面感,55,不敢看,相对来说《从百草园到三味书屋》行文还是较为轻松的。

在那个时代,除了拿着匕首投枪,横眉冷对千夫指的鲁迅,也有骑着云中鹤,逛着窑子的徐志摩,我们来看看摩哥的行文,会不会跟迅哥有很大的不同呢?

以下是摩哥文章的情感分布:

果然,摩哥积极的娱乐精神也渗透在他的行文里。

有趣的地方来了,我们知道文章有时可以变为音乐,比如一些曼妙的诗词,配上旋律,那种画面感会更明显,像邓丽君的《清平调》,王菲的《明月几时有》,或者王海玲唱的那首《忘了我是谁》(李敖的诗),还有那首《只爱一点点》,也是李敖的诗。

那么,文章是不是也可以变成一幅画?

把文章的每个词作为一个色块,跟情感分数关联,情感越积极颜色越亮,情感越消极颜色越深暗,这样不就形成了一副图画?我把它称为文章的“情感地图”。

朱自清的《背影》分词后是794个词,把这794个词变成一个28*28的矩阵,矩阵的排列跟文章从左到右,从上到下的行文是一致的,再把这些矩阵的颜色跟每个词的情感分数关联,Python代码如下:

article=open('c:/python/hot/beiying.txt','r').read()words=pd.DataFrame(jieba.cut(article)) words=words.rename(columns={0:'word'})score=pd.read_table('c:/python/hot/score.txt',encoding='utf8',sep=' ',names=['word','score']) finish=pd.merge(left=words, right=score, how='left', left_on='word', right_on='word') finish=finish[finish.score.isnull()==False] finish=finish[0:784]finish=finish['score'].reshape(28,-1) plt.matshow(finish, cmap=plt.cm.hot, vmin=-0.5, vmax=4) plt.colorbar() plt.show()

生成的《背影》的“情感地图”

图中的黑色块,是情感分数在-0.5以下的词,颜色越亮黄的词,情感越积极,可以看到在文末,有1个情感很积极的词,看看是什么词

在晶莹的泪光中,又看见那肥胖的、青布棉袍、黑布马褂的背影。唉!我不知何时再能与他相见!

清哥,我们知道您爱您的父亲 Q_Q

这是徐志摩的《翡冷翠山居闲话》生成的31*32的“情感地图

满眼都是欢快的黄色。

文学很美,鲁迅的文章读来让人警醒,徐志摩的诗歌读来让人心情愉悦,读他们的文章,你能感受到他们的精雕细琢和他们的脉脉情感,你能感受到那个年代的抱负,那种拳拳的赤子心。

反观现在,充斥着各种情感公众号,24小时霸占你的时间,有一些还有毒(说的就是你,咪蒙),这些文章左一个“小奶狗”,右一个“出轨”,无时不刻煽动你的情绪,给你喂毒,你还甘之若饴,我真想说一句呜呼哀哉!!

同意的请转发 (╬ ̄皿 ̄)凸

End

本文分享自微信公众号 - 挖数(washu66)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

30440
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18330
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51520
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44730
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12310
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

16220
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

34930
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22440
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13750

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励