维基团队与Jigsaw合作审查社区中带有人身攻击的评论

编译:chux

出品:ATYUN订阅号

维基百科社区以人身攻击的评论臭名昭著。这个问题非常糟糕,以至于活跃的贡献者或编辑在八年期间下降了40%。尽管没有一个解决方案可以解决这个问题,但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题,并考虑如何解决这个问题。

为了阻止这一趋势,维基媒体基金会与Jigsaw(以前称为谷歌创意的技术孵化器)合作开展一项名为Detox的研究项目,使用机器学习来标记可能是人身攻击的评论。该项目是Jigsaw倡议的一部分,该计划旨在构建开源AI工具,以帮助打击社交媒体平台和网络论坛上的骚扰。

该项目的第一步是使用来自维基百科谈话页面的100000个攻击性评论来训练机器学习算法,这些评论由一个由4000人组成的团队确定,其中每个评论都有十个不同的人类评论者。这个带注释的数据集是有史以来最大的一个关注在线滥用的数据集。这些不仅包括直接的人身攻击,还包括第三方和间接的人身攻击,如“你太讨厌了”“Bob太讨厌了”“Sally说Bob很讨人厌”。经过训练,机器可以像三个人类版主一样确定评论是人身攻击。

然后,项目团队在2001年至2015年的14年期间,通过算法审查了6300万条英语维基百科评论,以查找滥用评论中的模式。他们发现的内容在Ex Machina: Personal Attacks Seen中进行了概述:

  • 超过80%的评论被描述为辱骂,超过9 000人在一年内发表了少于5次的辱骂。
  • 所有攻击中近10%仅由34名用户发出。
  • 匿名用户占维基百科留下的所有评论的34%。
  • 虽然匿名用户发起人身攻击的可能性是后者的六倍,但是注册用户进行了一半以上的人身攻击(注册用户数比匿名用户多20倍)。

现在,算法已经更清晰地了解了谁在为社区增添负面内容,维基百科可以找出消除负面情绪的最佳方法。虽然可能仍需要人工节制,但算法可以帮助对评论进行排序,并标记需要人为参与的评论。

AI编写维基百科文章

AI也可以“写”维基百科的文章,但必须从某个地方开始:谷歌大脑中的一个团队教软件来总结网页上的信息,并撰写一篇维基百科风格的文章。事实证明,文本摘要比我们大多数人想象的要困难得多。谷歌大脑让机器总结内容的努力比以前的尝试稍微好一些,但是在机器可以用人类的节奏和天赋写出之前还有很多工作要做。事实证明,人类还没有准备好让机器自动生成维基百科条目,但是我们正在努力。

虽然维基百科运营中AI的使用案例仍在进行优化,但机器无疑可以帮助组织分析他们每天产生的大量数据。更好的信息和分析可以帮助维基百科创建成功的策略,以解决其社区的消极性问题。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-08-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【职业】产品数据分析到底该怎么做?一则小故事为你启发

数据行业 网上有个故事很有趣,说3个人去投宿,一晚30元.三个人每人掏了10元凑够30元交给了老板. 後来老板说今天优惠只要25元就够了,拿出5元命令服务生退还...

3203
来自专栏Spark学习技巧

终于有人把云计算、大数据和人工智能讲明白了!

1623
来自专栏大数据文摘

【干货】吴甘沙清华讲:大数据的10个技术前沿(上)

1805
来自专栏华章科技

编程能力的四种境界

网址:http://www.vaikan.com/the-four-stages-of-programming-competence/

931
来自专栏大数据钻研

做一名程序员需要学哪些知识?

问这个问题的人都该打,先拖出去,赏一丈红~ 如果你是计算机学生或者意欲从事IT行业的人,那么再仗50大板!! 为什么?因为你肯定想都没有想过这个问题,一个典型的...

2956
来自专栏带你撸出一手好代码

编程语言之间的差别真有那么大吗?

软件开发是一种特殊的职业,特殊到有点匪夷所思,行业从业人员的工种分类非常的不稳定, 比如说古时候有C工程师、C++工程师、VB工程师,后来有了Java工程师、....

47110
来自专栏华章科技

终于有人把云计算、大数据和人工智能讲明白了!

导读:云计算、大数据和人工智能,这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会...

4722
来自专栏一个爱吃西瓜的程序员

成为一名数据分析师,应该掌握怎样的技术栈?

数据分析师是不易被人工智能取代的新兴职业,相比算法工程师、人工智能工程师而言比较好入门。学好数据分析,也可为进一步的数据科学、机器学习打下一定的基础。 最近我知...

5006
来自专栏IT派

云计算、大数据和人工智能这么火,究竟是什么关系?

今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能...

3260
来自专栏玉树芝兰

如何高效学Python?

如果你一直想学Python,但是不知道如何入手,那就别犹豫了。这篇文章就是为你写的。

2982

扫码关注云+社区

领取腾讯云代金券