原文标题:Neural Language Model Based Training Data Augmentation for Weakly Supervised Early Rumor Detection
摘要:训练数据的稀缺性和等级不平衡是当前谣言检测任务中存在的问题。我们提出了一种直接的、通用的数据增强技术,它有利于基于事件传播模式的早期谣言检测。关键的想法是利用社交媒体上大量的未标记事件数据集来增加有限的有标签的源推文。本工作是基于最近的谣言研究揭示的谣言传播模式和标记数据与未标记数据之间的语义相关性。使用最先进的神经语言模型(NLM)和以可信度为中心的大型twitter语料库来学习流言推文的上下文敏感表示。在我们的实验中,我们使用了六个不同的真实世界事件,基于三个可公开获取的谣言数据集,对该方法的有效性进行了比较评价。结果表明,该方法能够将现有的谣言数据集的规模扩大近200%,并能使相应的社交语境(即会话线程)扩展100%,并具有合理的质量。基于最先进的基于深度学习的谣言检测模型的初步实验表明,增强后的数据可以缓解由于有限的训练数据造成的过度拟合和类不平衡,并有助于训练复杂的神经网络(Nns)。通过增加数据,可以使谣言检测的F值提高12.1%。我们的实验还表明,增强训练数据可以帮助推广对未见谣言的谣言检测模型。
地址: https://arxiv.org/abs/1907.07033
作者: Sooji Han, Jie Gao, Fabio Ciravegna
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。