美国女歌手发图,评论下面居然都是

听众朋友们大家好,我是来自美国硅谷的工程师屈直。今天我们是人工智能第一周课程的第三讲,昨天我为大家讲解了一下人工智能是怎么写新闻,怎么个性化推送,怎么影响记者和读者的。

今天我们就讨论一下人工智能在新闻评论方面的应用。

今日内容焦点

1. 那些乌烟瘴气的网络评论,是不是每次都想跟对面分分钟撕起来?

2. 你以为只有脏话才属于垃圾评论,你的善良限制了你的想象力。

3. 为什么好多媒体没有评论区,不是没能力开,而是不敢开。

假如说你是一个微博用户,或者说是一个新闻应用的爱好者,你肯定会有这样的感受,就是说一个新闻底下的评论,现在已经成为网民负面情绪发泄的重灾区了,这些不堪入目的言论里面有暴力的、有羞辱的、有骚扰有歧视的还有色情的,这些言论不仅给当事人造成了恶劣影响,甚至还降低了每一个看到这样评论的网民,对上网沟通交流这样的性质和信心。不知道听众朋友们会不会有类似的体验。

尽管每一个人都有表达自己的权利,但这样的权利应该是建立在不影响他人和社会和谐基础上的,那这些评论已经严重影响到用户在网络空间的正常表达和交流的时候,我们应该怎么办呢?是关闭评论吗?但这样的话就剥夺了表达的自由,扼杀了评论里面的真知灼见。但是我们要人工审核吗?那得需要多少人才能审核完网上海量的评论信息呢?

这两个方法都不够有效,所以人工智能就可以解决这个问题了。

我们这次的课程就是为大家讲一讲Instagram这家公司是怎么打造一个评论乌托邦的。

去年6月,Facebook开发了一个叫做DeepText的东西,这个东西叫深度文本,它实际上就是一个神经网络,它的特点就是碰到一个新词的时候,它设法通过词的前后文去揣测它的意思,这个就是人工智能里面的上下文感知技术。

什么叫上下文感知呢?就是说我们普通认知中这个桃心这样的表情它是爱。但是在微博评论里面如果你出现了一个“看片点我”一个桃心,这个时候桃心实际上是色情的意味。还有就是好朋友闺蜜之间有时候互相用小贱人这样的词来表示亲密,但是陌生人之间你说这个它就是羞辱的意义。

所以不同情境之下,不同的上下文词语意思是完全不同的,具有上下文感知能力的这样的分类引擎实际上是有这样的能力的。假如说一个心形符号,周围老是一些色情的东西,那分类引擎就会把这个心形符号解释为有色情的含义。

这个分类引擎通过学习目标词的前后文来对目标词进行定义,所以它分析的数据越多,它就会越聪明,它跟人类一样,实际上也是要花时间学习的。但不同于人类的是,它不会精疲力尽。

Instagram就有这样的困扰,这个平台允许用户发私人照片,但是比如说你发一个性感自拍,这评论区全都是一些猥亵的言论,就是因为这些猥亵言论,大量的用户他就不敢发自拍,就不用Instagram。

在有一个调查中,Instagram被评为第三恶心的应用。而Instagram的联合创始人,这个人叫做斯特罗姆Systrom,他对这个恶俗评论也是非常不满,有一次这个创始人作为公司的CEO,他出席了一个叫各路明星网红聚集起来的一个社交媒体交流会,在这个会上大家谈笑风生,举着手机互相拍,但是当斯特罗姆和一些网红把这些照片发到Instagram的时候,这个评论区全国都是负面留言。

(Instagram清理评论区之前泰勒·斯威夫特的账号下面全是“蛇“型符号)

这CEO一下子兴奋劲就没有了,说我自己的平台怎么就变成一个污水池一样的东西,所以痛定思痛,他回到公司就告诉同事,说咱们有一个新的使命,就是得把Instagram打造成最美好的网络平台。所以这个团队就建立起一个评论的过滤网,就通过算法设置自动删除用户帖子地下的一些恶俗词语和符号。

那这种基于敏感词和关键符号的筛选,我们暂且把它叫做傻瓜过滤网。有了这个傻瓜过滤网之后,平台确实可以过滤一些简单的脏话,但是复杂的隐讳的负面评论还是没办法。

这个时候斯特罗姆就意识到他可以参考Facebook刚才咱们说的做法,用人工智能去应战Instagram上面的负面评论。他召集了团队,然后筛选Instagram平台上面大量的脏话、哗众取宠这些词语,包括像威胁其他人的低级用语,把所有的言论分为垃圾和非垃圾信息两类,然后把这些分类的信息一股脑丢给深度文本去分析。

在它能够准确的辨别什么是垃圾信息的时候,这个时候工程师再进一步设置基于深度文本审核筛选出来的一个过滤网,这个就是升级版的叫智能过滤网,这个比刚才的傻瓜过滤网有效多了。

Instagram这种智能过滤网,相比于之前的傻瓜过滤网有什么优势呢?这就是我们之前第一讲讲的,机器学习其实就是我们搞一个模型,然后用大数据去训练它,如果你答对了就给一个小红花,答错就扇你一巴掌。所以在不断的试错过程中能达到我们那样的效果。

人工智能进行学习的特点,让智能过滤网可以跳出单个词语本身的意思,它可以结合上下文,然后充分考虑比如说发帖内容,发帖情景,以及发帖者和评论者之间的关系等等这样的因素。

其实同样有这种困扰的还有一个媒体就是《纽约时报》,他在业界被尊称为叫做“灰色女士”。

这个媒体的评论区往往都会有这种庸俗谩骂的评论。但是这个《纽约时报》评论区,现在来看他很干净,就是因为它是人工筛出来的,人工筛选就有庞大的工作量,他们审核部一共有14个审核员,每天要读1.2万条评论。

在今年6月以前,《纽约时报》只开放了大约10%的文章允许读者进行评论,这么做也是合情合理的,人工审核一共就14个人,根本忙不过来。如果所有文章都开放的话,那这个恶俗评论就太多了,这个“灰色女士”这么一个高贵头衔他就保不住了。

如果《纽约时报》报道关于诺基亚的新闻出现这么一条评论,苹果的手机,这个电池跟诺基亚比起来就是垃圾。那你如果是一个果粉的话,它就是一个负面评论,但你如果喜欢诺基亚呢这个不算什么。在这条评论中苹果和诺基亚这两个关键词就是这句话的焦点,所谓焦点就是评论倾向性判断的那两个烟雾弹,我们可以通过焦点来准确获取评论的意义,然后提高对垃圾评论判断的准确性,为评论筛选和过滤带来一个质的飞跃。

从6月开始,《纽约时报》开始用一个叫做Perspective的工具,这个就是Alphabet公司旗下,也就是过去的Google旗下的一个叫做Jigsaw开发的人工智能,它针对评论的毒性进行一个评分,将有害的评论和健康的评论剥离开来。比如说那些比较毒的评论,如果毒性得分超过了90分,那无论如何都不能搁到评论区里。

那么这个评分怎么来呢?其实这就是对评论的分类,机器学习模型里面,它把评论分成两大类,一类是垃圾评论,一类是非垃圾评论,经过对整句话的计算之后,求得分别属于垃圾和非垃圾的概率,通常情况下这个概率的百分比就是这儿的得分值。

我们之前说过数据生智能,任何人工智能都需要大数据的训练,都需要前期的数据采集,需要标注好了的数据。这个Perspective这是这样的,它的训练数据主要来源于有两个,一个是《纽约时报》自己人工审核员对各类评论审核的结果;第二个就是成千上万的经过其他人审核的维基百科的词条,得益于人工智能的帮助,这个《纽约时报》就可以开放更多的评论区,编辑团队也能工作减轻不少。

我们今天讲了Instagram和《纽约时报》利用AI应对网上负面评论的案例。

让我们总结一下,如果没有人工智能,媒体根本没有办法给评论排序,或者对评论进行审核。AI可以给我们很好的选择,将机器学习这个力量赋予出版商、平台、在线媒体,帮助他们把好评论坏评论给分开,让大家可以在网上更好的讨论。

知识清单

1. Facebook开发了一个深度文本,它是一个神经网络,它的特点就是碰到一个新词的时候,它设法通过词的前后文去揣测它的意思。

2. 人工智能让智能过滤网可以跳出单个词语本身的意思,结合上下文,充分考虑比如说发帖内容,发帖情景,以及发帖者和评论者之间的关系等等这样的因素,过滤垃圾信息。

3. 《纽约时报》有一个叫做Perspective的工具,它针对评论的毒性进行一个评分,将有害的评论和健康的评论剥离开来。

今日思考

在结束今天课程之前,我提出一个小问题,希望和听众朋友们一起探讨。在推出过滤评论的产品之后我们上面提到Instagram的创始人斯特罗姆他发表了一个用字母组成的一个心形的图片,是用它来代表自己向往干净美好的乌托邦平台,但他得到的回应大多数都是正面的,评论区是一片欢腾,大家纷纷高呼说真了不起,谢谢你,太棒了,还有各种微笑,鲜花的表情。我们这位仁兄现在是达到了愿望,但这样富强、民主、文明、和谐的世界真的是我们需要的评论区吗?

它真的可以反映网民的真实情绪吗?你是怎么看待AI清理评论区带来的网络乌托邦现象呢?欢迎你在评论区留言。

好的,今天的课程就到这里。明天我将为大家介绍人工智能在新闻视频领域的探索和应用。我是来自硅谷的屈直,我们明天再见。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217C0NHQ500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券