维基团队与Jigsaw合作审查社区中带有人身攻击的评论

AiTechYun

发布于 2018-09-26 10:39:25

5260

发布于 2018-09-26 10:39:25

文章被收录于专栏：ATYUN订阅号

编译：chux

出品：ATYUN订阅号

维基百科社区以人身攻击的评论臭名昭著。这个问题非常糟糕，以至于活跃的贡献者或编辑在八年期间下降了40％。尽管没有一个解决方案可以解决这个问题，但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题，并考虑如何解决这个问题。

为了阻止这一趋势，维基媒体基金会与Jigsaw（以前称为谷歌创意的技术孵化器）合作开展一项名为Detox的研究项目，使用机器学习来标记可能是人身攻击的评论。该项目是Jigsaw倡议的一部分，该计划旨在构建开源AI工具，以帮助打击社交媒体平台和网络论坛上的骚扰。

该项目的第一步是使用来自维基百科谈话页面的100000个攻击性评论来训练机器学习算法，这些评论由一个由4000人组成的团队确定，其中每个评论都有十个不同的人类评论者。这个带注释的数据集是有史以来最大的一个关注在线滥用的数据集。这些不仅包括直接的人身攻击，还包括第三方和间接的人身攻击，如“你太讨厌了”“Bob太讨厌了”“Sally说Bob很讨人厌”。经过训练，机器可以像三个人类版主一样确定评论是人身攻击。

然后，项目团队在2001年至2015年的14年期间，通过算法审查了6300万条英语维基百科评论，以查找滥用评论中的模式。他们发现的内容在Ex Machina: Personal Attacks Seen中进行了概述：

超过80%的评论被描述为辱骂，超过9 000人在一年内发表了少于5次的辱骂。
所有攻击中近10％仅由34名用户发出。
匿名用户占维基百科留下的所有评论的34％。
虽然匿名用户发起人身攻击的可能性是后者的六倍，但是注册用户进行了一半以上的人身攻击（注册用户数比匿名用户多20倍）。

现在，算法已经更清晰地了解了谁在为社区增添负面内容，维基百科可以找出消除负面情绪的最佳方法。虽然可能仍需要人工节制，但算法可以帮助对评论进行排序，并标记需要人为参与的评论。

AI编写维基百科文章

AI也可以“写”维基百科的文章，但必须从某个地方开始：谷歌大脑中的一个团队教软件来总结网页上的信息，并撰写一篇维基百科风格的文章。事实证明，文本摘要比我们大多数人想象的要困难得多。谷歌大脑让机器总结内容的努力比以前的尝试稍微好一些，但是在机器可以用人类的节奏和天赋写出之前还有很多工作要做。事实证明，人类还没有准备好让机器自动生成维基百科条目，但是我们正在努力。

虽然维基百科运营中AI的使用案例仍在进行优化，但机器无疑可以帮助组织分析他们每天产生的大量数据。更好的信息和分析可以帮助维基百科创建成功的策略，以解决其社区的消极性问题。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-20，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习