刘知远陈慧敏：流言止于“智”者——网络虚假信息的特征与检测

数据派THU

发布于 2019-12-05 17:10:32

1.1K0

发布于 2019-12-05 17:10:32

文章被收录于专栏：数据派THU数据派THU

来源：清华大学藤影荷声

本文约5000字，建议阅读10分钟

本文为你介绍网络虚假信息的一些特征和检测方法。

互联网的深度普及加速了“信息时代”的到来，网络中每个人都可以以极低甚至“零”成本的方式创造信息，同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷，给社会进步和人类发展带来了福祉。然而，凡事终有两面，互联网也为人类社会带来了巨大的挑战——网络中的信息鱼龙混杂，虚假信息无处不在。

网络虚假信息的影响有多大？

美国皮尤研究中心对美国人2018年接触的新闻来源情况进行调查，发现约三分之二的美国人从社交媒体平台上获取信息，但其中57%的人认为，他们获取到的新闻是不准确的[1]。这说明网络虚假信息已广泛渗入网民生活中，并被网民广泛认知。

皮尤研究中心对美国人2018年接触的新闻来源的调查分析[1]

据统计，2016年美国总统大选期间，热度排名前20的报道选举事件的虚假新闻在“脸书”上收获了共8,711,000个分享、点赞和评论，超过了热度排名前20的真实新闻收获的7,367,000个分享、点赞和评论[2]，严重误导了大众对选举的舆论走向。同年，“后真相”一词也被《牛津词典》评选为年度词汇，反映了如今“雄辩胜于事实”的网络环境[3]。2011年，日本大地震引发的核泄漏污染海盐，我国网络媒体中出现“我国食盐资源也受到污染”等大量虚假信息，引发民众疯狂抢盐，导致社会恐慌。

可以看到，网络虚假信息的大规模传播，对社会和个人发展带来了严重危害。因此，在当今互联网时代，认识和检测网络虚假信息尤为重要。

网络虚假信息都有哪些类型？

根据网络虚假信息的内容，可以分为基于观点（Opinion-based）的虚假信息和基于事实（Fact-based）的虚假信息两大类。

基于观点的虚假信息没有绝对的事实标准，一般指表达虚假的个人观点，如点评网站上的虚假评论。
基于事实的虚假信息存在绝对的事实标准，一般是为迷惑大众而篡改事实真相，如假新闻、维基骗局（Wiki Hoax）等。

这两类都是我们需要重点研究和检测的对象。以一个在当时广泛传播的维基骗局为例，2008年7月，一名17岁的学生恶作剧，在维基百科词条“coati（南美浣熊）”中添加了一个虚假名称，称“coatis也被叫做‘Brazilian Aardvark（巴西土豚）’”。之后，这一虚假信息在维基百科上保留了六年，并被数百家网站、报纸甚至是一些大学出版的书籍传播。

维基词条“coati”（南美浣熊）的骗局

网络虚假信息都有哪些特征？

关于这一点，目前国外已有一些开创性的工作，定量分析网络虚假信息的统计特征。研究发现，基于观点的虚假信息在文本、情感和时间三个方面都具有明显的特征：

文本特征 基于观点的虚假信息之间往往有很强的文本相似度，且伴有鲜明的语言特征。如多使用第一人称表示亲身经历，多使用较强的情感词和修饰副词，如“很”“非常”等。
情感特征 虚假评论中的情感存在强烈的“两极分化”现象，“满分评论”和“最低分评论”占主导[4]。
时间特征 虚假评论一般比真实评论更“突发”，虚假信息提供者发起连续评论的时间间隔更短[5]。

基于事实的虚假信息，则在语言、评论和传播方式上具有突出的特征：

语言特征。基于事实的虚假信息为了提升关注度、吸引流量，往往在标题中提供较大信息量，且表现出强烈的文不对题的特征，即所谓的“标题党”。

“标题党”新闻

评论特征。虚假信息因为其观点的新奇性，会在评论中引发更多的“惊讶”、“厌恶”等情绪[6]

虚假信息的评论中“惊讶”“厌恶”情绪激增（红色为虚假信息）[6]

传播特征。虚假信息呈现出“病毒式”传播模式，往往比真实信息传播的更远、更快、更深、更广[7]。

虚假信息比真实信息传播的更远、更快、更深、更广[7]

网络虚假信息为什么能欺骗大众？

一些研究定量分析了网络虚假信息为什么能够骗过大众，主要是从虚假信息本身、网民个人和网民群体三个角度进行探讨的。

猎奇心态。如前面提到的，网络虚假信息本身在语言上具有鲜明的特征，它们为了吸引眼球，往往会提供更新奇的观点，展示更独特的信息[8]，而社会大众因为“猎奇”心态，也会更倾向于传播此类信息。

虚假信息（红色）和真实信息（绿色）在信息独特性（IU）、差异性（KL）等指标上的对比[8]

辨别力差。很多互联网用户由于知识水平参差不齐，往往不具备足够分辨信息真实性的能力。斯坦福大学库玛（Kumar）团队曾做过一个实验，他们雇佣亚马逊劳务众包平台（Amazon Mechanical Turk）的标注人员，让他们判别320对真实和虚假文章，每一对展示给5名不同的标注人员。实验发现，人们成功识别出虚假文章的几率仅为66%（略高于随机猜测的50%）。进一步地，他们将“易识别”和“难识别”的虚假信息进行统计对比，发现虚假信息的长度越长、链接越多、标记越多，则越容易被判别为真实信息[9]。可以设想，如果虚假信息刻意在长度、链接、标记等方面模仿真实信息，那么将更难被辨别！

回声室效应。互联网形成了大大小小的网民在线社区，回声室效应（Echo Chamber Effect）会进一步诱使大众被虚假信息欺骗。回声室效应是指，在相对封闭的环境中，意见相近的声音不断重复，并以夸张或其他扭曲的形式不断重复，让处于这个相对封闭环境中的大多数人认为这些扭曲的故事就是事实全部。当今，在线社交媒体的个性化推荐算法不断精进，持续将相似兴趣的内容和人推荐给用户，进一步放大了互联网社区的回声室效应。回声室效应下的网民，往往会固守在与自己喜好和意见相符的社交圈中，隔绝其他社交圈的信息输入。下图反映了“推特”上关于#beefban（在印度禁止牛肉）话题的转发网络[9]，红色和蓝色的点代表持相反观点的网民群体。可以看到，相比于群体内部的频繁互动，两个群体之间则鲜有信息交流。

推特上关于#beefban话题的转发网络[9]

网络虚假信息如何自动检测？

基于以上分析，我们可以发现，只要稍加包装，虚假信息很容易“蒙混过关”，在互联网上大规模传播。而面对纷繁复杂互联网信息，人工专家检测耗时耗力，与指数增长的信息量相比已是不可能完成的任务。

好消息是，互联网技术与计算机和人工智能技术是相伴而行的。先进的人工智能技术为我们提供了自动检测虚假信息的可能。目前，国外有很多研究者正在探索如何自动检测虚假信息，并取得了一定进展。

特征工程思路。有些研究者采用特征提取的思路。他们根据总结的虚假信息特征，如前面提到的语言特征、传播特征等，采用支持向量机、随机森林等机器学习方法对信息进行真假分类[10,11,12]，如下图所示。这种基于特征提取的方法，可以充分地利用专家总结的经验和知识，但美中不足的是，需要人工手动提取特征，无法自动从大规模互联网数据中挖掘特征。而网络虚假信息与垃圾邮件或广告类似，其技术、手段和形式也在不断更新换代，这些专家总结的特征很难做到与时俱进，及时应对新出现的虚假信息形式。

传统基于特征提取的方法

深度学习思路。近年来，深度学习引发了全球人工智能发展的浪潮。深度学习的核心思想之一，是采用分布式表示（distributed representation）方案，自动从大规模文本中学习和提取语义特征。分布式表示学习是指通过大规模数据集合自动学习信息的低维特征向量表示，这些向量反映了我们关心的对象（如词、句子、文档、用户、物品等）在低维向量空间中的位置信息，它们之间的相对距离和位置反映了语义相关度。下图是从大规模文本语料中自动学习到的部分词语的二维向量表示[13]，可以看到，深度学习技术可以自动学习词语的语义相似度，即国家名称会聚在一起，而城市名称会聚在一起。同时，该技术还能发现词语之间大致存在“China”–“Beijing”≃“Japan”–“Tokyo”的语义关系，即能自动挖掘出“国家首都”这一隐含的语义关系。

分布式表示学习[13]

分布式表示学习可以很好地解决社会计算中对象间的语义计算问题，将文本、用户、物品映射到统一的低维向量语义空间。这样就不再需要专家总结它们的特征，而是从海量互联网数据中自动挖掘特征，进而对信息进行真假预测[14,15,16]。

基于分布式表示学习的方法[13]

这里举一个采用深度学习技术，自动从原始文本和评论文本中学习特征，在社交媒体平台中进行早期谣言自动检测的典型案例[17]。上文提到，社交媒体平台中的评论文本蕴藏着丰富的鉴别原始发布信息真伪的反馈信息，如果能够充分挖掘评论文本信息，将能够很大程度上提高信息检测的时效性和准确性，实现谣言的早期自动检测。

使用“可信检测点”进行谣言早期检测的一个实例[18]

如上图所示，我们绘出了一条谣言的转帖序列和随时间变化的预测概率曲线。因为转帖中对原文信息存在很多怀疑和反驳，所以我们不用看完所有评论即可做出可信的预测。基于这一观察，我们引入“可信检测点”的概念，并提出一种谣言早期检测模型，通过深度神经网络不断整合前序评论的表示，自动学习怎样确定每个转发序列的“可信检测点”，确保在该时间点预测结果的可信度，使得之后不会出现结果反转的情况。基于深度学习方法，在新浪微博真实数据集合上进行的实验结果表明，相比于传统模型，该谣言早期检测模型将预测时间缩短了85％，并取得了更高的检测准确率。

总结与展望

进入“后真相时代”，网络虚假信息的定量分析与自动检测是一个亟待解决的问题，基于深度学习的自动检测方法将是今后的主流趋势，但此方法仍存在准确率不高、解释性和鲁棒性差的问题。这是一个高度交叉的学科方向，需要计算机科学、语言学、社会学、心理学、法学、甚至脑科学的全角度综合研究，实现对网络虚假信息的“围剿”。

仅从技术上看，已有的如维基数据、知网等知识库蕴含着丰富的群体智慧和人类知识，如果能将这些结构化知识与深度学习技术相结合，引入到虚假信息检测模型中，有望显著提高信息检测的准确率。而如何将纷繁复杂的网络信息提取，并与知识库中的信息进行匹配，将是其中的挑战和难点，也是未来值得深入探索的问题。

此外，目前关于网络虚假信息的定量研究大都基于英文数据，而中文相关研究还很少，这与中文网络世界相关数据获取较难、有标注数据较少有一定关系。因此，构建一个相对大规模的中文网络虚假信息语料库，以及如何基于少量中文语料库即能建立有效的虚假信息自动挖掘和检测能力，也将是一个值得研究的问题。

本文结合前人研究工作，对网络虚假信息的影响、特征、成因以及检测做了非常简要的概括和梳理，没有涉及太多技术细节，旨在起到科普介绍的作用，希望对大家初步了解和探索该方向有所裨益。限于作者水平，难免有舛误之处，欢迎批评指正。

参考文献

[1] Elisa Shearer, Katerina Eva Matsa. News Use Across Social Media Platforms 2018.Pew Research Center.2018.

[2] Craig Silverman. This analysis shows how viral fake election news stories outperformed real news on facebook. Buzzfeed News. 2016.

[3] “Word of the Year 2016 is...” Oxford Dictionaries. 2016.

[4] Kumar, Srijan, and Neil Shah. "False information on web and social media: A survey." arXiv preprint arXiv:1804.08559 (2018).

[5] Shah, Neil, et al. “Edgecentric: Anomaly detection in edge-attributed networks.” 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016.

[6] Hooi, Bryan, et al. “Birdnest: Bayesian inference for ratings-fraud detection.” Proceedings of the 2016 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2016.

[7] Vosoughi, Soroush, Deb Roy, and Sinan Aral. “The spread of true and false news online.” Science 359.6380 (2018): 1146-1151.

[8] Kumar, Srijan, Robert West, and Jure Leskovec. “Disinformation on the web: Impact, characteristics, and detection of wikipedia hoaxes.” Proceedings of the 25th international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

[9] Garimella, Kiran, et al. "Balancing opposing views to reduce controversy." arXiv preprint arXiv:1611.00172 (2016): 4.

[10] Kumar, Srijan, Robert West, and Jure Leskovec. “Disinformation on the web: Impact, characteristics, and detection of wikipedia hoaxes.” Proceedings of the 25th international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

[11] Jindal, Nitin, and Bing Liu. “Opinion spam and analysis.” Proceedings of the 2008 international conference on web search and data mining. ACM, 2008.

[12] Kumar, Srijan, et al. “FairJudge: Trustworthy user prediction in rating platforms.” arXiv preprint arXiv:1703.10545 (2017).

[13] Mikolov, Tomas, et al. “Distributed representations of words and phrases and their compositionality.” Advances in neural information processing systems. 2013.

[14] Karimi, Hamid, and Jiliang Tang. “Learning Hierarchical Discourse-level Structure for Fake News Detection.” arXiv preprint arXiv:1903.07389 (2019).

[15] Song, Changhe, et al. “CED: Credible Early Detection of Social Media Rumors.” arXiv preprint arXiv:1811.04175 (2018).

[16] Shu, Kai, Suhang Wang, and Huan Liu. “Beyond news contents: The role of social context for fake news detection.” Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. ACM, 2019.

[17] Fake News: Fundamental Theories, Detection Strategies and Challenges, Xinyi Zhou, Reza Zafarani, Kai Shu and Huan Liu, WSDM, 2019.

[18] 刘知远, 宋长河, 杨成. 社交媒体平台谣言的早期自动检测. 全球传媒学刊 5.4 (2018): 65-80. 英文技术版：Changhe Song, Cunchao Tu, Cheng Yang, Zhiyuan Liu, Maosong Sun. CED: Credible Early Detection of Social Media Rumors. arXiv preprint arXiv:1811.04175.

作者简介

刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。

陈慧敏，清华大学计算机科学与技术系博士生，主要研究方向为情感分析、文本生成、谣言分析。

编辑：王菁

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-12-03，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

分布式

本文分享自数据派THU 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

深度学习

分布式

登录后参与评论

0 条评论

热度