维基百科背后,有场旷日持久的机器人编辑之战,开发者都不曾料到

王新民 | 编译自Gizmodo

维基百科上的人类编辑,经常由于修改意见的不同而产生冲突。一份英国的新研究表明,维基百科上的软件机器人之间,也有类似的在线冲突。

PLOS ONE上发表的一项新研究提到,维基百科的机器人经常修改和撤消对方的编辑。这些在线算法有着独特的指令和目标,多年来在内容修改上进行着毫无结果的 “战斗”。这项研究表明,即使在“愚蠢”的机器人之间,也能够产生复杂的交互行为,开发人员需要时刻关注着机器人的一举一动。这一发现不仅影响着维基百科页面的质量,也对人工智能的发展有深远影响,特别是在网络上一些简单的自动代理。

目前,英文版维基百科有41,517,866个页面。其内容更新的任务,远远超过了网站的人工编辑可以完成的工作量。为了帮助维护这个庞大的开源百科全书,数以千计的软件机器人浏览着网站的内容,执行如删除恶意修改、维护网站规则、纠正不良拼写、创建链接和自动导入内容等多种任务。

总的来说,机器人只占维基百科编辑的0.1%,但他们完成了相当一部分网站编辑任务。不幸的是,编写机器人的软件开发人员并不真正理解机器人之间是如何进行交互的。像维基百科本身内容的性质一样,各种机器人的创建也是一个分散的过程,个人贡献者开发自己的程序脚本。但是审批组的成员严格按照维基百科的机器人政策来审核机器人的功能,并没有考虑机器人之间的互动关系。

事实上,当一个机器人要更改一个页面的时候,很可能有另一个机器人会把它改回去,每个机器人都是为执行特定任务被设计的,但有时,这个任务可能与另一个机器人相冲突。

与人类编辑不同的是,机器人不能相互协商,他们只是自动执行内部的自动化程序。一旦这些机器人被释放到维基百科中共同运行,就出现了它们的开发者们难以预料的机器人交互危机。

为了了解机器人冲突对维基百科的破坏程度,来自牛津互联网研究所和艾伦图灵研究所的计算机科学家们研究了在十年内(2001年至2010年)这些机器人如何在13种不同语言版本的网站中进行交互。研究人员在确保没有人类编辑参与的情况下,通过跟踪机器人对每个页面的编辑操作,能够观察机器人是如何交互的,以及他们的行为是如何导致不可预测的后果的。

有趣的是,根据网站机器人所处的不同文化环境,其行为会有所不同。

该研究的主要作者Milena Tsvetkova在一份声明中提到:“这不仅对我们如何设计人工代理有着重要的意义,也影响了我们如何研究他们的方法:我们需要更多地研究机器人之间的社会属性。

总的来说,机器人撤销对方编辑这种事经常发生。维基百科的葡萄牙语版里的机器人对立性最强,最容易产生冲突,十年间,平均每个机器人将其他机器人的工作恢复了185次。同一时期内,在英语版维基百科上每个机器人对其他机器人的工作进行了105次修订,这是人类编辑类似行为的三倍。在德语版上,机器人之间是最和谐的,在过去十年里平均只有24次冲突。编辑协调中的这些差异,可能是不同的语言版本具有稍微不同的命名规则所导致的。

不同于人类编辑,机器人编辑对页面变化的反应时间很长,并且长期存在冲突。因为人类一旦接收到自动警报页面的变化,会在几分钟内做出修改,然后继续下一个事情。但是维基百科机器人通常在初始修订之后一个月再进行第一次修订。这些编辑冲突不是灾难性的,但考虑到其内容不断在变化,它可能会误导阅读网站的用户。

机器人比人类反应更慢,是因为它们通过“抓取”网络文章来进行修改,而不是接收系统警报。而且,在规定的时间内其允许修改的文章数量通常受到了限制。但是机器人之间能够一直有冲突产生的问题表明,人类程序员不能完全捕捉潜在的编辑问题。

重要的是,当2013年初,当维基百科对网站上语言间转化的工作方式进行一些优化时,机器人之间的冲突大大减少了。研究人员说,即便如此,过去发生的机器人冲突也表明了,一个由简单机器人组成的系统可以产生复杂的动态交互以及造成难以预测的后果。

在未来,随着越来越多的自动代理机器人的产生,会有着更多难以想象的故事发生。这是一个令人担忧的事情,表明在数据领域中,能够容易且快速地出现冲突。

特别是,同样的技术可以根据所处的文化环境产生不同结果,这个现象影响了对人工智能的研究。有研究人员提到,对于任何自主过程,了解影响机器人互动的因素,在管理社交媒体、跟踪网络安全和开发自动驾驶车辆的研究中,都至关重要。

研究的作者之一,Taha Yasseri指出:“一辆自动驾驶汽车在德国高速公路和意大利的托斯卡纳山脉上会以不同的模式进行驾驶。同样地,机器人所处的在线基础设施将对他们的行为有一定的影响。”

Yasseri说,维基百科上的机器人是由来自不同国家的人设计的,这可能是致网上冲突的部分原因。由于维基百科语言版本中使用的技术差异,不同维基百科社区文化的不同在机器人之间产生了复杂的互动。这种复杂性是一个基本特征,在与自动化和人工智能相关的任何应用中都需要考虑这个特征。

在上面已经提到,维基百科确实强制执行机器人规则。维基百科说:机器人

能够比人类编辑具有更快的编辑速度,但是与人类编辑相比具有较低的审查水平; 如果它们产生了故障或者被误用,可能导致严重的破坏性问题。

为了防止这些潜在的问题,开发人员必须确保维基百科的机器人遵守网站的政策和指南以及其他限制,只执行有共识的任务。

但是正如这项新研究所显示的,在编写机器人程序时,需要考虑到他们之间的交互关系。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云加头条

EB级别云存储是如何涨成的?

腾讯云存储服务,从开放至今,已支撑EB级存储规模。面对存储规模快速增长、应用数据多样化等挑战如何应对?

83920
来自专栏FreeBuf

GitHub 2017年支付漏洞赏金100多万元,超出去年一倍多

程序员最爱的 GitHub 在 2014 年开展了一项为期 4 年的漏洞奖励计划,到 2017 年已经是第四年。这四年间,累计发放的漏洞赏金约 35 万美元(按...

34370
来自专栏精讲JAVA

十个老大难的程序员问题

程序员最艰巨的任务跟编写代码没有多少关系。编码是逻辑思路的一种实践,这跟程序员日常工作中的其它任务比起来相对简单。如果你认为自己还是一个水平一般的程序员,在你真...

14720
来自专栏平凡文摘

十个老大难的程序员问题

11420
来自专栏Debian社区

Jono Bacon: GPL 没落了吗?

不久之前我看到了 RedMonk 的 Stephen O’Grady 发了一个关于开源协议的有趣的推特,那个推特里面有这张图,

9520
来自专栏知晓程序

深度体验了 50 个小程序之后,我的一些冷思考

10720
来自专栏奇点大数据

Python语言的七大优势

Python 是一门更注重可读性和效率的语言,尤其是相较于 Java,PHP 以及 C++ 这样的语言,它的这两个优势让其在开发者中大受欢迎。

18020
来自专栏大数据文摘

GitHub迎来史上最大产品变革:发布可直接运行代码的GitHub Actions

10月16日,全球最大开发者社区GitHub Universe开发者大会在旧金山召开,会议持续两天,在刚刚顺利闭幕。本次大会主题为“认可开发者集体的成果以及增强...

15440
来自专栏罗超频道

今天凌晨这个小动作,让微信完成复制中国互联网的最后一步

6月6日凌晨,苹果WWDC 2017年召开让许多人忽视了微信的一个重量级更新:微信公众账号图文消息正式允许插入第三方内容。微信内容运营者在编辑图文消息时,可以插...

33250
来自专栏云计算D1net

云数据库在企业应用中的优势

一、云计算概述 云计算是近几年来最热门的互联网词汇之一。自从1983年由Sun Microsystems公司提出“网络是电脑”的概念,到2006年亚马逊...

41140

扫码关注云+社区

领取腾讯云代金券