网络言论环境也该净化一下了,倡导言论自由的美国也意识到了这点。
昨天,图片社交平台Instagram推出两种文本过滤器:一种可以抵制冒犯性评论,一种能够过滤垃圾消息。Instagram官方公告上说,这是为了净化言论环境,将Instagram打造成更友善包容的社区。
文本分析并没有想象中那么容易,只分析单个词语的含义不足以判别整个句子的潜在意思。
由中性词语构成的句子可能饱含敌意,比如“只有白人拥有权力”;同样地,貌似粗鲁的句子可能会在语境中表示中性意,比如这句“Fuck what, fuck whatever y’all been wearing”其实是侃爷的一句歌词。
人类通常善于分析这些语法,但机器就觉得没那么轻松了。
去年六月,Facebook推出一款文本分类引擎DeepText,用机器学习的方法向机器解释语境下的词汇。Instagram的文本过滤功能就基于DeepText完成的。
DeepText采用了“词汇嵌入”的概念,模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考,并试图从上下文的其他单词推断含义,从而达到为评论分类并阻拦垃圾邮件的效果。
据《连线》杂志报道,有专门的承包商负责训练DeepText识别和分类恶意评论。
训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前,评估人员至少用了200多万条评论训练集它,而每一条评论至少训练两次,来保证系统的准确性。
目前系统仅能处理英语评论,但Instagram计划将垃圾消息过滤器扩展到9种语言,包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说,它将会被更广泛地应用。