MIT开发AI系统,确定新闻来源是否有政治偏见以打击假新闻

编译:chux

出品:ATYUN订阅号

虚假消息仍然是令人头疼的问题。今年3月,有一半的美国人报告在新闻网站上故意误导文章。最近爱德曼调查的大多数受访者表示,他们无法判断媒体报道的真实性。鉴于假新闻的传播速度比真实新闻快,因此十分之七的人担心它可能会被用作“武器”,这并不奇怪。

麻省理工学院计算机科学与AI实验室(CSAIL)和卡塔尔计算研究所的研究人员相信他们已经设计了部分解决方案。在本月晚些时候将在比利时布鲁塞尔举行的2018年自然语言处理经验方法(EMNLP)会议上提交的一项研究中,他们描述了一种AI系统,可以确定来源是准确的还是具有政治偏见的。

研究人员用它来创建一个包含1000多个新闻来源的开源数据集,其中注释了“事实性”和“偏见”分数。他们声称这是同类中最大的。

研究人员写道:“一种有希望的打击假新闻的方法是关注他们的来源。虽然假新闻帖子主要在社交媒体上传播,但他们仍然需要一个可以发布的网站。因此,如果一个网站过去已经发布了非事实信息,那么将来很可能会这样做。”

AI系统的新颖之处在于对其评估的媒介的广泛背景理解。它不是孤立地从新闻文章中提取特征(机器学习模型所训练的变量),而是在确定可信度时考虑众包百科全书,社交媒体,甚至URL和网络流量数据的结构。

它建立在支持向量机(SVM)上经过训练,可以评估三点(低,混合,高)和七点(极端,低,混合,高)和七点(左翼极端,左派,中间偏左,中间派,中间偏右,右派,右翼极端)的事实性和偏差。

根据团队的说法,系统只需要150篇文章来确定是否可以可靠地信任新的来源。它在检测新闻来源是否具有高,低或中等水平的事实性时准确率为65%,并且在检测新闻来源是左倾,右倾还是中间派时准确率为70%。

在文章方面,它对副本和标题进行了六重测试,不仅分析了结构,情绪,参与度(在这种情况下,在Facebook上的股票,反应和评论的数量),还有主题,复杂性,偏见和道德(基于道德基础理论,一种旨在解释人类道德推理的起源和变异的社会心理学理论)。它计算每个要素的得分,然后在一组文章中平均得分。

维基百科和Twitter也加入了系统的预测模型。正如研究人员指出的那样,缺少维基百科页面可能表明网站不可信,或者页面可能会提到有问题的来源是讽刺性的或明确的左倾。此外,他们指出,没有经过验证的Twitter帐户的出版物,或者最近创建的帐户混淆了他们的位置的出版物,不太可能是公正的。

模型考虑的最后两个向量是URL结构和Web流量。它会检测试图模仿可靠新闻来源(例如“foxnews.co.cc”而不是“foxnews.com”)的网址,并考虑网站的Alexa排名,即根据收到的整体综合浏览量计算的指标。

该团队用来自Media Bias / Fact Check(MBFC)的1066个新闻来源进行了系统训练,这是一个人工事实检查员的网站,他们手动注释具有准确性和偏见数据的网站。为了生成上述数据库,他们在每个网站上发布了10-100篇文章(总共94814)。

正如研究人员在其报告中详细详述的那样,并非每个特征都是事实性或偏见的有用预测指标。例如,一些没有维基百科页面或已建立的Twitter个人资料的网站是公正的,而Alexa中排名很高的新闻来源并不总是比那些交易量较少的竞争对手更具偏见或更实际。

这里出现了有趣的模式。来自虚假新闻网站的文章更可能使用夸张的和情感性语言,而左倾网点更可能提到公平和互惠。同时,具有较长维基百科页面的出版物通常更可靠,具有包含最少数量的特殊字符和复杂子目录的URL的出版物也是如此。

在未来,该团队打算探索该系统是否可以适应其他语言(它是专门针对英语进行训练),以及是否可以训练它来检测特定区域的偏差。他们计划推出一款应用程序,该应用程序将自动回应包含“跨越政治光谱”的文章的新闻。

“如果一个网站之前发布了假新闻,他们很有可能会再次发布,”该报的第一作者,博士后助理Ramy Baly说,“通过自动搜索有关这些网站的数据,我们希望我们的系统可以帮助确定哪些网站可能首先做到这一点。”

当然,他们并不是唯一试图用AI来对抗假新闻传播的人。

总部位于德里的创业公司MetaFact利用自然语言处理算法来标记新闻报道和社交媒体帖子中的错误信息和偏见。AdVerify.ai是去年推出测试版的软件即服务平台,解析有关错误信息,裸露,恶意软件和其他有问题内容的文章,并交叉引用定期更新的数千个虚假和合法新闻项目数据库。

就其本身而言,Facebook已尝试部署“识别账户和虚假新闻”的AI工具,并最近收购了总部位于伦敦的创业公司Bloomsbury AI,以帮助其打击误导性新闻。

一些专家不相信AI能胜任这项任务。负责组织假冒新闻挑战赛的卡内基梅隆大学机器人研究所科学家Dean Pomerleau是一个众包偏见检测算法的竞赛,他在接受采访时告诉Verge,AI缺乏对不正当和虚假陈述所必需的语言的细致理解。

人类的事实检查者不一定更好。今年,谷歌暂停了事实检查,这是一个标签,出现在谷歌新闻的故事旁边,包括由新闻出版商和事实检查机构检查的信息,此前保守派出版商指责它对他们表现出偏见。

无论最终解决方案是什么,AI,人工管理,还是两者兼而有之,都无法提供足够快的速度。Gartner预测,到2022年,如果目前的趋势持续下去,发达国家中的大多数人会看到更多的错误的信息。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

[译] 天龙八步 第二弹:8步从Python白丁到专家,从基础到深度学习

30770
来自专栏WeTest质量开放平台团队的专栏

揭密微信跳一跳小游戏那些外挂

张小龙:这个游戏发布以后,其实它的效果有点超出我们的预期,我们自己开玩笑说,这个游戏突然变成了有史以来可能用户规模最大的一个游戏,因为它的DAU大概到了1点几亿...

15250
来自专栏量子位

高清不卡!MIT用机器学习让你更流畅的观看在线视频

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 摔!在线视频看到关键时刻,突然卡住了! 你遇到过这样的情况么?有时候是卡住了,有时候是画质猛降。出现...

465100
来自专栏量子位

干货警告!476个PyTorch资源大合集推荐,GitHub超过3600星

最近,GitHub的“趋势”版块出现了一份PyTorch资源,内容从库到教程再到论文实现,应用尽有,质量贼高。

9620
来自专栏机器人网

机器人的“大脑”:机器人控制技术有多重要?

机器人学代表了当今集成度高、具有代表性的高技术领域,它综合了多门学科。其中包括机械工程学、计算机技术、控制工程学、电子学、生物学等多学科的交叉与融合,体现了当今...

32850
来自专栏ATYUN订阅号

谷歌云重大更新:Text-to-Speech现已支持26种WaveNet语音

如果你是谷歌云客户,并且正在使用该公司的AI套件来进行文字转语音或语音转文本服务,这有个好消息:谷歌今天宣布了这些方面的重大更新,包括云文本到语音的普遍可用性,...

22840
来自专栏镁客网

黑科技 | 厉害了数字桌面技术,让你的桌面瞬变超大触摸屏

19160
来自专栏大数据文摘

LEVAN:首款全自动视觉概念的机器学习程序

15680
来自专栏CVer

重磅 | 《动手学深度学习》 0.7版发布

学过或正在学习MXNet框架的同学,一定很熟悉《动手学深度学习》这个课程。该课程算是第一个最硬国语版讲解深度学习的课程(从理论到实战)。Amusi记得该课程首次...

9500
来自专栏PPV课数据科学社区

用Python进行数据可视化的10种方法

编译|黄念 校对|丁一 引言 艺术之美根植于其所传达的信息。有时候,现实并非我们所看到或感知到的。达芬奇(Da Vinci)和毕加索(Picass...

50970

扫码关注云+社区

领取腾讯云代金券