用AI追热点,自动化编辑新闻,路透社已经这么做了 | 附论文

李杉 编译自 MIT技术评论 量子位 出品 | 公众号 QbitAI

“互联网的出现和随后的信息爆炸导致记者越来越难以准确、迅速地获取新闻。”路透社的研发团队本周在arXiv的一篇论文的开场白中如此写道。

对于路透社来说,假新闻的出现导致这个问题变得更加尖锐,因为这些假新闻扭曲了人们对事件的感知。

然而,美联社等新闻机构已经开始使用自动化的新闻写作服务。他们会采用标准的模式,例如,在报道财经新闻和体育比赛结果时,直接将数据粘贴到预先编写的模板中:“X公司第三季度实现利润Y万美元,超出华尔街预期……”

因此,其他新闻机构也面临压力,必须启用自动化新闻制作技术。今天,路透社阐述了它是如何在时间发生后第一时间完全通过自动化技术识别突发新闻的。

刘小沫(XIaomo Liu,音译)他的在路透社研发部门及阿里巴巴的同事表示,这套新系统运行良好。事实上,它有可能彻底改变新闻行业。但这也引发了人们的担忧,他们担心这样一套系统可能被心怀恶意的人控制。

这个新系统被称为路透社追踪器(Reuters Tracer)。它使用Twitter作为一种全球传感器,记录新闻事件的发生。系统之后使用各种类型的数据挖掘和机器学习来挑选出最相关的事件,确定它们的主题,排列它们的优先级,写出标题和摘要。之后,这些新闻就会发布在该公司的全球新闻专线上。

流程的第一步是吸收Twitter的数据流。追踪器每天查看大约1200万条推文,占总数的2%。其中一半是随机抽样,另外一半来自路透社记者的Twitter帐号列表,包括其他新闻机构的帐号、重要的公司、有影响力的个人等。

下一步是确定新闻事件发生的时间。追踪器这样做的前提假设是:如果几个人同时开始谈论这件事,这个事件就已经发生。因此它使用聚类算法来寻找这些对话。

当然,这些聚类包括垃圾信息、广告、普通聊天等。只有一部分涉及有新闻价值的事件。所以下一个步是对事件进行分类和排序。追踪器使用许多算法来完成这项工作。

第一个算法负责确定对话主题。之后将此与路透社团队从31个官方新闻帐号收集的推文进行对比,包括@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新闻聚合器。

在这个阶段,这套算法还会使用一个包含城市和地理位置的关键词数据库来判断事件发生的地点。

一旦一段谈话或谣言被认为可能是新闻,关键就是要确认它的真实性。为了确定这一点,追踪器需要找出对话中提到的最早的推文和它所指向的网站,以此来寻找来源。然后,它会查询了一个数据库,其中列出了已知的虚假新闻制作者,如《National Report》,或者讽刺新闻网站《The Onion》

最后,该系统会写出标题和摘要,并在整个路透社中分发新闻。

路透社的团队表示,在试验过程中,该系统运行良好。他们说:“追踪器能够在新闻探测和传播上实现有竞争力的准确度和时效性。”

他们有统计数据来支持这一点。该系统每天处理1200万条推文,大约80%的都是噪音。剩下的大约会归入6000个聚类,系统将其视作不同类型的新闻事件。这都是由13个运行10个不同算法的服务器完成的。

相比之下,路透社在世界各地雇佣了大约2500名新闻记者,他们每天都使用包括Twitter在内的各种来源制作大约3000条新闻提示。其中大约有250条是新闻故事。

路透社将追踪器识别的新闻与BBC和CNN等机构新闻的信息流中出现的新闻进行对比。刘小沫和他的同事说:“结果显示,追踪器可以用2%的Twitter数据覆盖70%的新闻报道。”

这套系统的运行速度很快。该团队举了一个例子:2017年10月,拉斯维加斯枪击案导致58人死亡。有目击者在凌晨1点22分报告了这一事件,触发了一个追踪器聚类。

然而,这个聚类不符合系统给事件制定的标准,因而直到凌晨1点39分才被包含到信息流中。“路透社在凌晨1点49分报道了此事。”刘小沫和他的同事说。

这是一项有趣的工作,但也引发了许多问题,特别是关于系统的易用性。不难想象,心怀不轨的人会设计专门的Twitter消息来欺骗追踪器。

不过,这套系统是否比现有的系统更容易欺骗,恐怕还很难判断。毕竟,人类记者也经常被各种假消息欺骗。

此外,人类在新闻行业仍要扮演自己的角色。未来的新闻肯定会越来越自动化,人类如何融入其中仍然无法确定。

论文地址

https://arxiv.org/abs/1711.04068

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-12-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

为何苹果、Google、Facebook力推3D AR,看完这个你就知道了

苹果大中华区董事总经理葛越在乌镇世界互联网大会上发表演讲,再次推介了苹果努力打造的 AR 体验,并以天天 P 图为例介绍了 AR 的好玩之处。“腾讯打造的这款天...

38015
来自专栏PPV课数据科学社区

KDnuggets Poll:过去一年数据分析与挖掘软件使用排名 R首次封王

R首次封王,几乎占据半壁江山;Python快速成长中;Excel小幅收缩,守住前五;SAS、SPSS、Matlab传统分析工具有固定用户群,守住自己的阵地;从调...

3135
来自专栏CDA数据分析师

8个技巧,提高你的数据分析工作效率

前言 我刚和一位老友恢复了联系。她一直对数据科学很感兴趣,但10个月前才涉足这一领域——作为一个数据科学家加入了一个组织。我明显感觉到她已经在新的岗位上学到了很...

2366
来自专栏华章科技

想提高数据分析工作效率?有技巧!

我刚和一位老友恢复了联系。她一直对数据科学很感兴趣,但10个月前才涉足这一领域——作为一个数据科学家加入了一个组织。我明显感觉到她已经在新的岗位上学到了很多东西...

1262
来自专栏钱塘大数据

【数说】爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像...

5103
来自专栏安全领域

物联网中的认知科学与网络监督

“物联网(IoT,Internet of Things)” 这个词已经流行了好一段时间,并且当前人们都在讨论如何将它应用于各种领域。但是,没有任何关于将其应用于...

44213
来自专栏京东技术

和我去京东的机房走一走 | 11·11 倒计时

“ IT资源服务”:京东商城、物流、金融、科技等京东所有业务的基层支持,有关基础IT资源的一切,包括设备采购的需求对接、部分IT设备的实际采购、机房服务器上架、...

4428
来自专栏PPV课数据科学社区

【通俗易懂】图解数据挖掘是“神马”

1、数据挖掘需要‘神马样’的流程? ? 2、哥,有没有详细点的,来个给力的! ? 3、数据挖掘在商业上的理解是? ? 4、数据在统计意义上有哪些类型? ? 5...

3355
来自专栏编舟记

系统之美

世界是普遍联系、永恒发展的,这是我很欣赏的一名大学马原老师奉为圭臬的话,也是给我很大触动的金玉良言。世界是一个大系统,其中有纷繁复杂的事物,用独特的行为方式互相...

672
来自专栏PPV课数据科学社区

【24页PPT】赛智时代总经理赵刚:中国数据加工清洗产业趋势分析

2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会5月26-29日在贵阳举行,数据观对该活动进行全程图文直播。5月27日,在“数据商品化发展”分论坛上,赛...

3249

扫码关注云+社区

领取腾讯云代金券