专栏首页HyperAI超神经创造家庭大和谐,用 AI 给爹妈做个辟谣助手

创造家庭大和谐,用 AI 给爹妈做个辟谣助手

这些标题在具有一定科学素养的年轻人看来,根本不用点开,就知道是谣言或者过度夸张,但这些文章却在父母辈的微信群和朋友圈里每天疯传着。

虚拟世界的消息难以判定来源和真假,尤其对于父母,只要某篇文章中提到复杂的科学知识或者生僻的科学机构,甚至再加上一些爱国、感性情绪的煽动,他们就更容易被谣言迷惑,甚至成为传播中的一环。

很多平台都在用想方设法建立辟谣机制,这种机制在过去主要是投诉+人工审核,但是以人工的形式,依然是杯水车薪。

同一个世界,同一个谣言

这个问题在美国同样发生着, 国内常说的“谣言”,英文往往翻译为「Rumor」,实际上这个词是流言、传闻的意思,比较严谨的新闻机构可能会将其翻译为「False Rumor」,即虚假传闻。

有趣的是,当我们想要比较哪类谣言最容易被广泛传播,发现全球的谣言制造者都选择了名人死亡新闻。

金庸先生几乎每年都会被去世

类似的谣言在美国也不少见

用 AI 净化新闻

在美国,有一位工程师 Aaron Edell 通过 AI 完成了一个「FakeBox 假新闻探测器」,虽然正确率还相对高,但是这些内容首先是英文语境不适用于中文体系,其次是如果真付诸于商用,还有很大的提升空间。不过他的研究过程肯定对从事类似方面研究的专业人士有很大的参考价值。

「FakeBox 假新闻探测器」的设计过程也并非一帆风顺,成功的最重要的转折点在于,他把目标从判断假新闻变成判断真新闻 —— 真相总是一致,而假象则多种多样。

以下,是他在设计 FakeBox 时的心路历程:

第一个问题:如何定义假新闻 我遇到的第一个困难比较出乎意料。在研究一些假新闻之后,我发现假新闻也不全是假的,有些新闻是过度夸张,有些新闻是未经证实。多以其实假新闻也应该分为不同类型:明显错误、真假参半、完全伪科学、伪新闻评述等等。 所以,假新闻必须全面筛查逐个剔除。

第一次实验:用情绪分析模型解决问题 一开始,我自己先做一个小工具,使用爬虫来抓取文章标题,描述,作者和内容,并将结果发给情绪分析模型。我使用了Textbox,它可以快速反馈结果,非常方便。每一篇文章,Textbox 都会反馈一个分数,5 分以上就是正向反馈,5 分以下就是负面反馈。我还做了一个小算法来分别计算文本的标题、内容,作者等的分数,并将它们加在一起,来确保平分是全面和综合的。 起初它还运行得很好,但在我测试第7或第8篇文章后就不行了。不过这个设计雏形,距离我想象中的谣言探测系统很接近了。 不过结果是失败。

第二次实验:用 NLP 模型解决问题 我朋友 David Hernandez 推荐我对文本本身进行模型训练。我试图理解假新闻中的特征,比如网站来源、作者名字,看看能否快速建立一个数据集来训练模型。 我们搜集了几天大量的不同种类的数据集,看似对训练模型都很有用。我们自认为数据集足够大,但其实数据集的内容从最开始就没有被正确分类,因为有些被标记为“假”或“误导”的网站有时也会有真实的文章,或者只是转发别的网站的内容,所以结果也不太理想。 我开始亲自阅读每一篇文章,花费很长时间处理数据,虽然这个过程非常的辛苦,我在这些天中看到这些虚假、恶意甚至暴力的新闻时,会对网络催生出的文明产生怀疑,但也希望更多的人可以通过更好的工具避免自己被谣言荼毒。在我介入了人工审核之后的数据集,在测试中大约达到了 70%的准确度。 但这种方式有一个致命的短板,我们尝试用数据集之外的文章抽查之后,依然无法正确的判断信息真伪。 所以还是失败。

第三次实验:别找假新闻做数据集,找真的 这件事成功的转折点是 David 的一个建议点醒了我:建议提高准确度的关键可能是简化问题。也许我们要做的不是检测假新闻,而是检测真实新闻。因为真实新闻更容易分类——文章都是事实和重点,几乎没有多余的解释,并且有大量的资源去确认新闻的真实性。于是我开始重新收集数据。 我只将新闻分为两个标签:真实的和非真实的(real and notreal)。 不真实的包括讽刺、评论文章、假新闻以及其他没有以纯粹的事实方式写作的文章。 这次我们成功了,并且准确度高于95%。

这个模型被起名为 Fakebox ,它会给每篇文章打分,如果得分非常低,那可能意味着文章是假的、评论文章、讽刺文章或其他。而且 Fakebox 还拥有一套 REST API,你可以将它集成到任何环境中,也可以部署 Docker 上。

但是它依然有一个短板:如果文章太短,或者主要包含其他人的观点或引语,那么它可能很难判断出真假。

所以,Fakebox 并不是最终的解决方案,但 Aaron Edell 希望这个模型会对需要被辨别真假的文章有帮助。

本文分享自微信公众号 - HyperAI超神经(HyperAI),作者:小神经

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2020 美国大选在即,假新闻也在路上了

    场景描述:出于宣传、牟利等目的,互联网上充满了各种虚假、误导性消息,这类消息被称之为「假新闻」。如何鉴别假新闻,防止被骗,一直以来困扰着大众。为此,一家英国初创...

    HyperAI超神经
  • 优衣库用机器人打包服装,工厂近全自动化【智能快讯】

    AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考...

    HyperAI超神经
  • 还没期末考试,算法却说我的物理一定挂科

    场景描述:大学物理是理工科学生的基础必修课程,但也因为有一定的难度,令很多学生望而生畏。研究人员提出了用 AI 算法预测,哪些学生物理课有挂科风险,好让老师更好...

    HyperAI超神经
  • QUAST:评估基因组组装效果

    对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。

    生信修炼手册
  • MMD_5a_Clustering

    聚类概述 定义 距离的定义 算法的分类 启发式算法 概述 KEY POINTS 如何代表cluster 如何决定距离远近 没有欧氏距离怎么办 终止条件 总结 K...

    用户1147754
  • 对话百度IDL负责人林元庆:人脸识别获评十大突破性科技背后百度的布局和野心

    AI科技评论按:21日,《麻省理工科技评论》发布全球十大突破性技术榜单,百度以人脸识别技术获得提名。百度深度学习实验室主任林元庆会后举行了一场媒体沟通会,详细阐...

    AI科技评论
  • ThinkPHP5远程命令执行漏洞

    ThinkPHP是一个免费开源的,快速、简单的面向对象的轻量级PHP开发框架,是为了敏捷WEB应用开发和简化企 业应用开发而诞生的。由于其简单易用,国内用户众多...

    开心分享
  • 婚庆影楼小程序开发制作解决方案

    速成应用婚庆小程序满足客户不同需求,引导客户配套性购买,不但缩减推广成本,又能占领消费者市场。

    用户3382245
  • iPhone屏幕分辨率及适配技术

    一般情况下,我们说iPhone 8的屏幕是4.7寸屏,就是指iPhone 8的屏幕对角线为4.7英寸。 屏幕的单位是以英寸为单位,换算关系:1 inch = ...

    用户5521279
  • 快速入行数据科学,老司机带你避开这九个大坑!

    大数据文摘

扫码关注云+社区

领取腾讯云代金券