ACL：新加坡科技与设计大学：基于核学习传播结构的微博谣言发现

文章来源：企鹅号 - 读芯术

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第31篇论文

ACL 2017 Short Papers

基于核学习传播结构的微博谣言发现

Don’t Count, Predict! An Automatic Approach to Learning Sentiment Lexicons for Short Text

新加坡科技与设计大学

Singapore University of Technology and Design

【摘要】我们描述一种高效的神经网络方法来自动学习情感词典，而不依赖任何手工资源。该方法从NRC方法中获得启发，通过利用大型推文中的表情符号在SemEval13中给出最佳结果，使用词语和推特情感之间的PMI值来定义词语的情感属性。我们表明，通过使用它们来预测tweet情感标签可以学习到更好的词典。通过使用一个非常简单的神经网络，在与NRC方法相同的数据量下，可以达到更加高效的性能。实验表明，与当前最好的方法相比，我们的词典在多种语言上的准确率显著提高。

1 引言

情感词典包含情感极性和/或单词或短语的情感强度（Baccianella等，2010; Taboada等，2011; Tang等，2014a; Ren等，2016a）。它们已被用于基于规则（Taboada等，2011）和无监督（Turney，2002; Hu和Liu，2004; Kiritchenko等，2014）或者监督（Mohammad等，2013; Tang等2014b; Vo和Zhang，2015）基于机器学习的情感分析中。因此，构建情感词典是情感分析的一个重要研究课题。

已经提出了许多方法来构建情感词典。传统方法手动标注词的情感属性（Hu and Liu, 2004; Wilson et al., 2005; Taboada et al., 2011）。这样的词典的一个好处是高质量。另一方面，这些方法耗时，需要语言和领域的专业知识。最近，统计方法已经被利用来自动学习情感词典（Esuli和Sebastiani，2006; Baccianella等人，2010; Mohammad等人，2013）。这些方法利用知识资源（Bravo-Marquez等，2015）或标记的情感数据（Tang等，2014a），与人工词典相比，覆盖率明显提高。

在自动方法中，Mohammad等人（2013）建议使用带有表情符号或主题标签的推文作为训练数据。主要优点是这些训练数据丰富，可以避免手工标注。尽管表情符号或主题标签在说明推特的情感方面可能是嘈杂的，但现有的研究（Go等人，2009; Pak和Paroubek，2010; Agarwal等人，2011; Kalchbrenner等人，2014; Ren等人，2016b）已经表明，这些数据用于有监督情感分类器的有效性。

Mohammad et al.（2013）通过计算单词和表情符号之间的点对点互信息（PMI）来收集情感词典。由此产生的词汇在SemEval13基准测试中给出了最好的结果（Nakov等，2013）。在本文中，我们表明，可以通过直接优化预测准确率来学习更好的词典，以词典为输入，以表情符号为输出。我们的方法与Mohammad等人的方法之间的相关性（2013）类似于分布式和分布式词语表示之间的“预测”与“计数”相关性(Baroni et al., 2014).。

我们遵循Esuli和Sebastiani（2006）使用两个简单的属性来表示每个情感词，并从Mikolov等人（2013）的灵感使用一个非常简单的神经网络进行情感预测。该方法可以利用与Mohammad等人（2013）相同的数据，因此受益于规模和标注的独立性。实验表明，神经模型在多种语言的标准基准测试中给出了最好的结果。我们的代码和词典可在https://github.com/duytinvo/acl2016公开获得。

2相关工作

自动学习情感词典的现有方法可以分为三大类。第一类用现有的情感信息来扩充现有的词典。例如，Esuli和Sebastiani（2006）和Baccianella等人（2010）使用一个元组（pos，neg，neu）来表示每个词，pos，neg和neu分别代表积极性，否定性和中立性，通过从WordNet提取特征来训练这些属性。这些方法依赖于现有词典的分类结构，仅限于特定的语言。

第二种方法扩展了现有的词典，通常是手动标记的。例如，Tang等人（2014a）应用神经网络从少量标注推文中学习面向情感的词表示，然后通过测量单词之间的向量空间距离来扩展一组种子情感词。Bravo-Marquez et al.（2015）通过使用手动特征对单词进行分类来扩展现有词典。这些方法也限于具备人工标注资源的领域和语言。

第三行方法通过在大数据上累积统计信息来从头构建词典。Turney（2002）提出通过计算种子词与搜索命中之间的PMI来估计词的情感极性。Mohammad et al. (2013)通过使用来自表情符号特征而不是种子词的远程监督数据计算情感分数来改进方法。这种方法可以用来自动提取多语言情感词典（Salameh等，2015; Mohammad等，2015），而不使用人工标注数据，这使得它比前两种方法更灵活。我们认为这是我们的基准。

我们使用与Mohammad等人（2013）相同的数据源来训练词典。然而，我们采用机器学习方法来优化表情符号的预测准确性，而不是依赖于PMI。为了利用大量数据，我们使用一个非常简单的神经网络来训练词典。

图1 我们的模型图

3基线

Mohammad et al. (2013)使用推特中包含的表情图标和相关的标签作为推特的情感标签。给定一组推文及其标签，分词w的情感分数（SS）计算如下：

其中pos代表正面的标签，neg代表负面的标签。PMI代表点间互信息，即

这里freq（w，pos）是正向推文中词w的出现次数，freq（w）是语料库中词w的总频率，freq（pos）是正向推文中的分词总数，N是语料库中分词的总数。PMI（w，neg）以类似的方式计算。因此，等式1等于：

4模型

我们遵循Esuli和Sebastiani（2006），使用正向和负向属性来定义词典。特别是，每个单词的形式是w =（n，p），其中n表示负向，p表示正向（n，p∈R）。如图1所示，给定一条推特tw = w1，w2，...，wn，一个简单的神经网络被用来预测它的二维情感标签y，其中[1,0]为负向，[0,1 ]为正向推文。推特的预测情感概率y被计算为：

其中W固定在对角矩阵（W∈R2X2）上。

我们遵循Go等人（2009）通过表情符号来定义推文的情感标签。每个标记首先由[-0.25,0.25]中随机的负面和正面属性评分初始化，然后通过监督学习进行训练。交叉熵误差被用作目标函数：

反向传播用于学习（n，p）每个分词。使用AdaDelta更新规则（Zeiler，2012），使用批随机梯度下降进行优化。所有模型训练超过5轮，批量大小为50。由于其简单，该方法非常快速，在Intelr核心i7-3770 CPU @ 3.40 GHz，每一轮35分钟内训练超过9百万推特的情感词典。

5 情感分类

由此产生的词典可以用于无监督情感分类器和有监督情感分类器。前者是通过总结给定文档中包含的所有分词的情感分数来实现的（Taboada等，2011; Kiritchenko等，2014）。如果总感情评分大于0，则文档被分类为正面。这里只需要一个正向属性来表示一个词典，我们使用正向和负向属性（p n）之间的差作为分数。

受监督的方法利用情感词典作为机器学习分类的特征。鉴于文件D，我们遵循Zhu et al.（2014）的方法并提取以下特征：

·D中的情感标签的数量，其中情感标签是在词典中情感分数不为零的单词标记;

·文档的总体情感评分：；

·最高分数：：

；

·D中正向负向词总分；

·D中最后一个分词的情感得分；

我们再次使用作为每个词wi的情感得分，因为这些方法都是基于每个词的单个情感得分值。

6 实验

6.1 实验设置

训练数据：为了自动获取训练数据，我们使用Twitter Developers API从2014年2月到2014年9月抓取英文和阿拉伯语的表情符号。我们根据Go et al. (2009)，删除所有用于从推文中收集训练数据的表情符号，和Tang等人（2014b），忽略小于7个分词的推文。Twitter标注器（Gimpel et al., 2011）被用来预处理所有的tweets。在词汇表中少于5次的罕见词汇将被删除。HTTP链接和用户名分别被和替换。训练数据统计如表1所示。

表1 基于表情符号的训练集

表2 Semeval13的统计结果

情感分类器：我们使用LibLinear（Fan et al., 2008）作为基准数据集上的监督分类器。参数c通过在英文数据集上进行网格搜索（Hsu等人，2003）对开发集的准确率进行调整，并对阿拉伯数据集进行五倍交叉验证。

评估：我们按照Kiritchenko等（2014）采用准确率（P），召回率（R）和F1值（F）来评估无监督分类。我们按照Hsu et al.（2003）和使用精确性（acc），调整标准，评估监督分类。

代码和词典：我们通过https://github.com/duytinvo/acl2016来实现我们模型的Python实现以及由此产生的情感词典。

表3 SemEval13数据集（英文）上的结果

表4 ASTD的标准分割

表5 ASTD（阿拉伯文）的结果

表6 情感得分示例，*表示不正确的极性

6.2 英文词典

SemEval13的Twitter基准（Nakov et al., 2013）被用作英文测试集。为了评估无监督和监督的方法，我们遵循Tang et al. (2014b)和Kiritchenko等人（2014）的方法，删除中立的推特。统计显示在表2中。我们比较我们的词典与NRC（Mohammad等人，2013），HIT（Tang等人，2014a）和WEKA（Bravo-Marquez等人，2015）的词典。如表3所示，使用第5节中的无监督情感分类方法（unsup），我们的词典与NRC的计数词典相比，显示出更好的结果。在这两种情况下，与其他方法相比，我们的词典产生最好的结果。

6.3 阿拉伯语词典

我们使用标准的阿拉伯Twitter数据集ASTD（Nabil等，2015），其中包含大约10000个有4个标签的tweets：客观（obj），负（neg），正（pos）和混合主观（mix）。表4显示了ASTD的标准分割。我们遵循Nabil等人（2015）通过合并训练和验证学习模型的数据。我们比较我们的词汇和只有NRC词汇（Salameh等人，2015），因为Tang et al. (2014a)和Bravo-Marquez等人（2015）取决于人力资源，这是不可用的。如表5所示，我们的词典在平衡和不平衡数据集上始终如一地表现出最佳性能，显示出“预测”与“计数”的优势。

6.4 分析

表6显示了我们基于预测的词典和Mohammad等人（2013）基于计数的词典的例子。首先，这两个词典都能正确反映情感词典的强度（如坏，差，最差），说明我们的方法可以像PMI一样有效地学习统计相关性。其次，我们发现很多情况下，我们的词典给出了正确的极性（例如适当的，懒惰的），但是Mohammad等人的词典（2013）没有。为了定量比较词汇，我们使用Hu和Liu（2004）手工标注的词汇作为黄金标准来计算它们的极性（即标注）的准确性。我们把自动词典与Hu和Liu词典（2004）的交集作为测试集，其中包含3270个单词。我们的词典的极性准确率是78.2％，而相反的Mohammad等人（2013）的词典是76.9％，展示了我们方法的相对优势。第三，通过具有两个属性（n，p）而不是一个属性，我们的词典在组合性方面更好（例如，

）。

7 结论

我们使用高效的神经网络自动构建了短文本的情感词典，表明基于预测的训练优于基于计数的训练，以便从带有表情符号的大型推文中学习。在标准评估中，与基于状态计数的方法相比，该方法在多种语言中提供了更好的准确率。

论文下载链接：

http://www.aclweb.org/anthology/P/P16/P16-2036.pdf

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

发表于: 2018-04-272018-04-27 18:20:46
原文链接：http://kuaibao.qq.com/s/20180427A1EWS200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

ACL：新加坡科技与设计大学：基于核学习传播结构的微博谣言发现

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐