AI现在都可以刷好评?水军还怎么存活?

现在只要在网上购物,大多数消费者都会去浏览商品的评价,评价高低可能取决客户最后会不会下单。

比如,在网上购买一件衣服,除了会阅读商家的商品描述,还会浏览以往购买者留下的评论;再如,外出就餐或旅游,选择不熟悉的餐馆和酒店时,用户评论就是一个必不可少的参考项了。从某种程度来说,口碑已经成了很多商家的产品与服务的质量记录。但是,对于网上看到的商户评价,你完全相信吗?

事实上,网上的很多好评,有不少都是“水军”刷出来的虚假点评。现如今,虚假的点评在全球都是一个让人头疼的问题,整个点评口碑界正面临潜在的严重冲击——因为人工智能也可以创造虚假点评,如泛滥后,将导致现有的点评信息的可信度急剧下降。

技术进步打开了一扇门

技术进步有时带来的不全是正面影响。芝加哥大学的研究人员开发了一个系统,可以在亚马逊、Yelp 等网站自动生成假评论,而且跟用户的评论几乎没啥差别。其原理是:用网上已有的大量真实评论为训练素材,使用循环神经网络(RNN)进行学习,生成新的文本。因为生成的评论不是简单地从已有素材中复制,所以很难被识别出来。如下图中的几个例子:

这些假评论不但骗过了系统的检测,甚至还被很多用户认可为“有用”。而在人工打分对比后发现,AI 生成的评论和真实评论的分值接近,也就是说,虚假评论可以影响用户的消费行为。

由此可以预见的一个结果是,人工水军的存在已经极大地影响了网络信息的真实性,而AI机器会将制造假信息的成本和难度大幅降低。

这里的假评论涉及的是文本自动生成技术,实现文本自动生成是人工智能走向成熟的一个重要标志,目标是能够像人类一样撰写出高质量的自然语言文本。这种技术有着广泛的应用前景,例如:智能问答、智能聊天、机器翻译等场景,实现更加智能和自然的人机交互。此外,它还能够替代人工编辑,实现新闻的自动撰写,这将可能颠覆新闻出版行业。对科研工作者而言,该项技术甚至可以用来帮助进行学术论文撰写,改变科研创作模式。

文本自动生成技术详解

下面,我们对文本自动生成技术做一个详细介绍。

根据输入的差异,文本自动生成技术分为:文本到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等几类。该技术极具挑战性,但是最近几年在业界已逐渐出现了一些具有国际影响力的成果与应用。

比如,美联社自2014年开始采用新闻写作软件自动撰写公司业绩的报道,大大减少了记者的工作量。美国已有多家公司能够提供新闻写作的软件与服务,文本自动生成不再是纸上谈兵的技术,已经在不知不觉中对我们的工作生活产生了影响。

在本文中,我们着重了解一下从文本生成文本、从数据生成文本这两个技术。

(1)文本到文本的生成

文本到文本的生成,主要是对给定的文本进行变换和处理,在此基础上得到新的文本,具体的技术包括:文本摘要、文本复述等。

文本摘要通过自动分析给定的文档,摘取其中的要点信息,最终输出一篇摘要,其中的句子可直接出自原文,也可重新撰写。目前主要是基于句子抽取,将原文中的句子进行评估与抽取。好处是易于实现,保证摘要出的句子具有良好的可读性。文本摘要主要包括两个步骤:一是对文档中的句子进行重要性计算或排序,二是选择重要的句子组合成最终摘要。

第一个步骤可采用基于规则的方法,利用句子在原文章中的位置或所包含的关键词来判定句子的重要性;也可采用各种机器学习方法(包括CRF、HMM、SVM、RNN等),综合考虑句子的多种特征进行重要性的分类、回归或排序。第二个步骤中,需要考虑句子间的相似性,去除重复的句子,并对所选择的句子进行连贯性排列,从而提高摘要的质量。

文本复述通过对输入的文本进行改写,生成全新的复述文本,一般要求输出文本与输入文本在表达形式上有差异,但表达的意思基本一样。比如:在机器翻译系统中可利用文本复述技术对复杂输入文本进行简化从而方便翻译,在信息检索系统中可利用文本复述技术对用户查询进行改写等。

简单的文本复述生成可以通过同义词替换来实现,也可以通过人工或自动构建的复述规则来实现,例如:他今天在网上买了一本书。 -> 今天,他在网上买了一本书。当然,通过复杂的转换也可以使整段文本面目全非。

(2)数据到文本的生成

数据到文本,是指根据给定的数值数据生成相关文本,例如基于数值数据生成新闻、财经报道、医疗报告等。该技术具有极强的应用前景,已经取得了较大的研究进展,业界已经研制出多个面向不同领域和应用的系统。比如,英国阿伯丁大学提出了数据到文本的生成系统的一般框架,见下图:

在图中,信号分析模块的输入为数值数据,通过利用各种数据分析方法检测数据中的基本模式,例如:股票数据中的峰值、长期的增长趋势等。

数据阐释模块的输入除了上阶段的基本模式外还有事件,通过对基本模式和事件进行分析,推理出更加复杂和抽象的消息,同时推断出它们之间的关系,最后输出消息以及消息之间的关系。例如:针对股票数据,如果跌幅超过阈值则创建一条相应的消息。消息之间的关系包括因果关系、时序关系等。

文档规划模块的输入为消息及关系,分析决定哪些消息和关系需要在文本中提及,同时要确定文本的结构,最后输出需要提及的消息以及文档结构。

微规划与实现模块的输入为选中的消息及结构,通过自然语言生成技术输出最终的文本。该模块主要涉及对句子进行规划以及句子实现,要求最终实现的句子具有正确的语法、形态和拼写,同时采用准确的指代表达。

由于数据到文本的生成技术的巨大应用价值,多家公司参与了相关研发,能够为多个行业基于行业数据生成行业报告或新闻报道,从而节省了大量的人力。比较知名的公司有 ARRIA、AI等。其中ARRIA是一家总部位于欧洲的公司,其核心技术是ARRIA NLG引擎。AI(AutomatedInsights)是由思科的前工程师创办的人工智能公司,最早提供基于体育数据生成的文本摘要,目前则服务于包括金融、个人健身、商业智能、网站分析等在内的多个领域。目前,AI公司已经为美联社等多家单位生成数亿篇新闻报道。

我国工业界也有部分单位研制了文本生成系统。例如:新华社开发了从财报数据生成企业财报年报的系统,该系统基于人工模板,将需要的数据填入写好的模板中,从而生成财报年报。

AI水军刷屏如何根治?

相对于大段自然语言文本的生成,AI对用户评论的模仿容易实现。因为每条评论内容都很短,主题统一而简单,对表达方式也不要求非常严格。这些虚假评论隐藏在众多真实评论中,人们不会抱着质疑的态度去看。对于数量繁多的信息大多数人会一扫而过,而这些假的评论被重复无数次之后,就会对人产生潜移默化的影响。

当然,面对AI水军,人们也不是束手无策。比如,社交平台上的机器人账号是虚假信息的一个重要来源,打击虚假信息也是每个社交平台都在做的事情。美国印第安纳大学和东北大学研究人员推出了Botometer系统,可以区分Twitter机器人和真实人类。该系统用超过 1000 项指标来监测用户行为,从推文发布的设备、时间、地点,到内容的原创比例,还有粉丝的构成等,这些数据最终会计算出一个分数,根据用户行为可判断账号有多大概率是机器人。

随着人工智能的发展,AI水军可能会给互联网带来冲击,进而降低网络的可信度,这时就需要有正确的措施来防范。具体怎么做呢?两点建议供参考:一方面,制定相应的政策法规和规范;另一方面,大力发展技术力量进行抵御。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)

26511
来自专栏新智元

【机器学习面试终极通关指南】从打造性感履历到跨越面试三大关卡

来源:Reddit 编译:费欣欣,胡祥杰 【新智元导读】 机器学习工程师薪资水涨船高,在国内,毕业生的平均年薪也达到了30-50万,一些人拿到了上百万的薪...

3776
来自专栏数据科学与人工智能

机器学习实践指南:理解、差异化和应用

作者:Rob Thomas 和 Jean-François Puget 机器学习由Arthur Samuel在1959年首次定义,即“学习领域,使计算机能够在没...

2534
来自专栏CDA数据分析师

用数据说话,Python是不是越来越火了?

Python 是不是越来越火了?答案是肯定的。 在这个问题下(为什么 Python 现在越来越火了?),很多答主轻描淡写的说,题主感觉 Python 火了是因...

1718
来自专栏ATYUN订阅号

Nvidia推出搭载16颗GPU的HGX-2,加速人工智能训练

Nvidia今天推出了搭载16颗Tesla V100图形处理单元(GPU)芯片的云服务器平台HGX-2,提供了半个TB的GPU内存和两千万亿次的计算能力。GPU...

992
来自专栏PPV课数据科学社区

【深入浅出】推荐系统那点事

推荐系统的误区 回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我...

3455
来自专栏人工智能

学了这么久机器学习,你真的了解它的概念吗?

引言 我们曾在之前的快讯里提到,Dataversity 最近上线了一个 What is 系列,介绍了数据科学相关的多个概念,之前我们曾介绍了大数据与数据科学(可...

1946
来自专栏AI科技评论

谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享。加入这开源大潮的,不仅有学界师生,更有国...

42311
来自专栏机器之心

专访 | 追一科技首席科学家杨振宇:对话机器人里不能「耳闻目览」却又「无所不在」的 AI

机器之心原创 作者:邱陆陆 对话机器人是「怎样炼成的」。 相比于语音和图像,自然语言是一个有「更多需求」和「更少标准答案」的领域。扎根自然语言的公司通常也不是从...

3559
来自专栏云计算D1net

云计算与粒计算

云计算,不必细说谁都知道是什么,人们多多少少都有所耳闻。云计算是继20世纪80年代大型计算机到C/S转变之后,IT界的又一次巨变,它通过互联网将某计算任务分布到...

38810

扫码关注云+社区