一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析。
相关视频
简而言之
本教程是对情感分析的一个介绍。本教程建立在tidy text教程的基础上,所以如果你没有读过该教程,我建议你从那里开始。在本教程中,我包括以下内容。
要求:重现本教程中的分析需要什么?
情感数据集:用来对情感进行评分的主要数据集
基本情感分析:执行基本的情感分析
比较情感:比较情感库中的情感差异
常见的情绪词:找出最常见的积极和消极词汇
大单元的情感分析:在较大的文本单元中分析情感,而不是单个词。
复制要求
本教程利用了harrypotter文本数据,以说明文本挖掘和分析能力。
我们正在处理的七部小说,包括
情感数据集
有各种各样的字典存在,用于评估文本中的观点或情感。tidytext包在sentiments数据集中包含了三个情感词典。
这三个词库是
这三个词库都是基于单字(或单词)的。这些词库包含了许多英语单词,这些单词被分配了积极/消极情绪的分数,也可能是快乐、愤怒、悲伤等情绪的分数。nrc词典以二元方式("是"/"否")将单词分为积极、消极、愤怒、期待、厌恶、恐惧、快乐、悲伤、惊讶和信任等类别。bing词库以二元方式将单词分为积极和消极类别。AFINN词库给单词打分,分数在-5到5之间,负分表示消极情绪,正分表示积极情绪。
基本情感分析
为了进行情感分析,我们需要将我们的数据整理成一个整齐的格式。下面将所有七本《哈利-波特》小说转换为一个tibble,其中每个词都按章节按书排列。更多细节请参见整洁文本教程。
现在让我们使用nrc情感数据集来评估整个《哈利-波特》系列所代表的不同情感。我们可以看到,负面情绪的存在比正面情绪更强烈。
这给出了一个很好的整体感觉,但如果我们想了解每部小说的过程中情绪是如何变化的呢?要做到这一点,我们要进行以下工作。
创建一个索引,将每本书按500个词分开;这是每两页的大致字数,所以这将使我们能够评估情绪的变化,甚至是在章节中的变化。
用inner_join连接bing词典,以评估每个词的正面和负面情绪。
计算每两页有多少个正面和负面的词
分散我们的数据
计算出净情绪(正面-负面)。
绘制我们的数据
现在我们可以看到每部小说的情节是如何在故事的发展轨迹中朝着更积极或更消极的情绪变化。
领取专属 10元无门槛券
私享最新 技术干货