前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为了消灭不友好评论,ins用200万条数据训练了FB的DeepText

为了消灭不友好评论,ins用200万条数据训练了FB的DeepText

作者头像
量子位
发布2018-03-29 10:28:45
5600
发布2018-03-29 10:28:45
举报
文章被收录于专栏:量子位量子位量子位
安妮 编译整理 量子位出品 | 公众号 QbitAI

网络言论环境也该净化一下了,倡导言论自由的美国也意识到了这点。

昨天,图片社交平台Instagram推出两种文本过滤器:一种可以抵制冒犯性评论,一种能够过滤垃圾消息。Instagram官方公告上说,这是为了净化言论环境,将Instagram打造成更友善包容的社区。

文本分析并没有想象中那么容易,只分析单个词语的含义不足以判别整个句子的潜在意思。

由中性词语构成的句子可能饱含敌意,比如“只有白人拥有权力”;同样地,貌似粗鲁的句子可能会在语境中表示中性意,比如这句“Fuck what, fuck whatever y’all been wearing”其实是侃爷的一句歌词。

人类通常善于分析这些语法,但机器就觉得没那么轻松了。

去年六月,Facebook推出一款文本分类引擎DeepText,用机器学习的方法向机器解释语境下的词汇。Instagram的文本过滤功能就基于DeepText完成的。

DeepText采用了“词汇嵌入”的概念,模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考,并试图从上下文的其他单词推断含义,从而达到为评论分类并阻拦垃圾邮件的效果。

据《连线》杂志报道,有专门的承包商负责训练DeepText识别和分类恶意评论。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前,评估人员至少用了200多万条评论训练集它,而每一条评论至少训练两次,来保证系统的准确性。

目前系统仅能处理英语评论,但Instagram计划将垃圾消息过滤器扩展到9种语言,包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说,它将会被更广泛地应用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安妮 编译整理 量子位出品 | 公众号 QbitAI
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档