用Rapidminer做文本挖掘的应用：情感分析

文章来源：企鹅号 - 拓端

情感分析的基本任务是将文档，句子或实体特征中表达的观点分类为肯定或否定。本教程介绍了Rapidminer中情感分析的用法。此处提供的示例给出了电影列表及其评论，例如“ 正面” 或“ 负面”。该程序实现了Precision and Recall方法。精度是（随机选择的）检索文档相关的概率。召回率是在搜索中检索到（随机选择的）相关文档的概率。高召回率意味着算法返回了大多数相关结果。精度高表示算法返回的相关结果多于不相关的结果。

首先，对某部电影进行正面和负面评论。然后，单词以不同的极性（正负）存储。矢量单词表和模型均已创建。然后，将所需的电影列表作为输入。模型将给定电影列表中的每个单词与先前存储的具有不同极性的单词进行比较。电影评论是根据极性下出现的大多数单词来估算的。例如，当查看Django Unchained时，会将评论与开头创建的矢量单词表进行比较。最多的单词属于正极性。因此结果是肯定的。负面结果也是如此。