由Typos引起的谷歌AI仇恨语音检测

保持在线消极性是一项艰巨的任务,近五分之一的美国人经历过严重的在线骚扰。谷歌的观点AI旨在解决这些问题,但它似乎并不像它需要的那样聪明。

正如TNW报道的那样,阿尔托大学和帕多瓦大学的一组研究人员发现谷歌的人工智能很容易被欺骗,最先进的仇恨语音检测模型只有在使用相同类型的数据进行测试时才能表现良好。他们受过训练。解决谷歌人工智能的简单伎俩包括:插入错别字;在单词之间添加空格;或在原句中添加不相关的单词。

Google的仇恨言语检测方法是通过为一段文本分配毒性分数来实现的,将其定义为粗鲁,不尊重或不合理,以至于您倾向于离开对话。然而,人工智能系统不够智能,无法检测到咒骂的背景,“我爱你”和“我他妈的爱你”之间的简单变化看到分数从0.02变为0.77。

“明显的'毒性',正如Perspective目前对其进行分类,不能在任何实质(或法律)意义上憎恨言论,”该论文指出。类似地,拼写错误或“leetspeak”(用数字代替普通字母,所以“GEEK”变成“G33K”等等)也可以有效地欺骗AI,同时仍保留原始信息的可读性和情感影响。

“爱情”一词与仇恨言论无关,也“打破了所有的单词模型,并且显着阻碍了人物模型”,在某些情况下,毒性等级从0.79降至0.00。

随着许多社交平台 - 例如Facebook,Twitter和YouTube - 努力寻找攻击性和可接受的言论之间的界限,一个易于应用的人工智能显然会有其好处。

最近,由于其他平台完全删除了他的帐户和他的网站帐户,Twitter因为禁用保守派阴谋理论家亚历克斯琼斯的帐户而受到抨击。Twitter声称琼斯没有违反任何平台规则,但该公司在参议院委员会听证会后暂停了 @realalexjones和@infowars 。

不幸的是,有了这个消息,以及最近人工智能聊天机器人的例子,比如微软的Tay 推特种族主义内容,似乎人工智能需要改进才能在评论部分放松。

  • 发表于:
  • 原文链接https://www.pcmag.com/news/363660/googles-ai-hate-speech-detection-tricked-by-typos
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券