色情主播的天敌:AI 大牛为你解密人工智能鉴黄的那些事

目前多家人工智能公司已开始布局鉴黄业务,阿里巴巴和腾讯分别拥有阿里绿网、万象优图两大鉴黄系统。而在创业公司方面,较为知名的有图普科技、飞搜科技、深图智服等公司。

近期在线直播火爆,因此有些公司开始切入直播鉴黄这个细分领域。为此,AI科技评论就以下问题请教了来自专攻色情识别的图普科技和在计算机视觉公司云从科技的技术专家进行解读。

● ● ●

一. 直播(如花椒、映客)、在线视频(如优酷、爱奇艺)、图片鉴黄的区别在哪儿?直播的鉴黄难度是否最大?要解决哪些技术问题?

  • 云从科技高级算法工程师周翔:

其实这三项(直播,在线视频,图片鉴黄)差异不大,三者可归类为实时视频处理和海量图片处理。 视频/直播是动态的,图片是静态的。鉴别视频和直播时,可以把动态内容解码变成图片帧来判断。这样就与静态图片鉴别没差了。 至于技术问题,其实鉴黄在算法层面难度不大,利用深度学习算法训练后,就能达到不错的鉴黄效果。

  • 图普科技工程师则在计算能力和算法要求上做了一些小补充:

目前主要是通过间隔截图、关键帧截图之类的对直播和在线视频进行识别处理,所以最终也是对单张图片的处理。 但是,由于直播的实时性,所以直播相对于另外在线视频和图片,对于机器的图片识别的处理速度要求较高,这主要是对于计算能力和算法的要求加大。 至于是屏蔽、删除或者禁播等方面的处理,主要是看业务方,可以选择由机器自动处理或者人工介入。

● ● ●

二. 既然算法门槛不是很高,为什么一些 CV 公司不加一项视频/直播鉴黄业务捞点油水?

  • 云从科技高级算法工程师周翔:

一方面是他们不太愿意做。 另一方面是虽然 CV 公司可能有现成的鉴黄算法训练系统平台,但是缺数据,鉴黄需要大量的数据来进行训练。黄色的图片和视频帧最好达到十万的量级深度学习才能跑起来。至于如何收集这些数据,一般情况下很多视频直播都已经有现成的,包括鉴黄中心等都有非常大量的此类图片。 而训练小批量数据一般采用传统的特征分析加分类器算法来做,但效果和精度没有目前的深度学习高。

● ● ●

三. 直播鉴黄是不是要识别里面的每一帧图像,这样计算量岂不是很大?

  • 图普科技工程师:

这与算法能力关系不大,在算法和工程能力都已经达到最优的情况下,这个是属于企业的成本预算问题。 直播是视频流,企业如果对直播的每一帧的图片都进行识别,这是非常巨大的数据量,企业的运营成本自然较高。所以我们一般建议企业按自己的需求,对于视频先进行抽帧处理,例如一分钟视频的视频可以按照时间段抽 6-15 帧左右的图片进行识别处理之类的来控制成本。

● ● ●

四. 鉴黄存在哪些难点?

  • 云从科技高级算法工程师周翔:

实时视频影像分析大致通过三大方面进行鉴定:

  • 是否有人物(有:色情概率增加)
  • 人形轮廓的肤色比例(大:色情概率增加)
  • 姿态分析(性行为姿势:色情概率增加)

人类对于色情的定义较为广泛,多种情况下对于色情的鉴定标准也会有不同。在这基础上其实对于黄色和非黄色图片的区分,有时候不是特别明显,很难判断。举个通俗的例子,赤裸上身的男子照片(属于肤色比例大),这种图片本质上属于非黄色图片,但很多时候,因为训练数据里有类似图片被判定为黄色图像,存在判错的问题。因此需要利用大量样本去不断地训练它,让机器不断纠正,学习更多特征避免这种“低级错误”。 这也正是上面提到部分 CV 公司不涉入鉴黄业务的原因,因为一直需要大量样本去不断训练、纠正,工程量挺大。

● ● ●

五. 鉴黄的数据训练过程是什么样的?

  • 图普科技工程师:

通俗讲,可以把深度学习理解为一个空白的大脑,海量数据就是灌输进来的经验。当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎, 让引擎不断学习,然后把他们做对的进行奖励,做错的就惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。

● ● ●

综合上述内容,AI 科技评论把人工智能鉴黄总结为以下几点:

  • 实时视频影像分析分三大方向鉴定:是否有人物、人形轮廓的肤色比例、姿态分析。
  • 直播/视频和图片鉴黄区别不大,把动态视频解码为图片帧就与图片没差了。视频鉴黄不会对每一帧进行识别,一般是从固定时间段里抽取几帧进行识别。
  • 黄色的图片和视频帧最好达到十万的量级深度学习才能跑起来。而训练小批量数据一般采用传统的特征分析加分类器算法来做,但效果和精度不如深度学习。
  • 屏蔽、删除或者禁播等方面的处理,主要是看业务方,可以选择由机器自动处理或者人工介入。
  • 最后,鉴黄的棘手之处是难以掌握色情和非色情的临界点,机器容易把正常图片(如男生上身半裸图片)误判为色情图片,因此需要大量的数据不断去训练和纠正,是个慢熬的苦差事,这也是部分 CV 公司不涉入鉴黄业务的一大原因。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专栏 | 腾讯音视频实验室Interspeech 2017论文:单通道语音分离中应用深度神经网络的训练优化

机器之心专栏 腾讯音频实验室 2017 年 8 月 20 日,语音通信领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩召开,腾讯音视...

2823
来自专栏量子位

AI学会了“闻”声看病,莫非要走老中医的“望闻问切”之路?

去年你看过120帧的电影《比利·林恩的中场战事》么?嗯,画面真是清晰。你有没有注意到里面提到的一个细节:姐姐发现林恩从战场回来后,患上了PTSD,也就是“创伤后...

1789
来自专栏AI研习社

看过 CVPR 2018 workshop 后,发现有一个我不认识的 Lady Gaga

当地时间 6.18-22 日,CVPR 2018 将在美国盐湖城举办。目前距离大会开幕还有四个月,随着春节期间大会主办方公布接收论文名单,引来大家对 CVPR ...

3497
来自专栏大数据文摘

智能房屋+大数据,将改变房地产经济学

1987
来自专栏量子位

腾讯AI Lab开源800万中文词的NLP数据集 | 资源

该数据包含800多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。

603
来自专栏专知

Google AI发起包容性图像比赛(The Inclusive Images Competition)

【导读】大型公开可用的图像数据集(如ImageNet,Open Images和Conceptual Captions)是开发有价值的机器学习(ML)模型的必要和...

1013
来自专栏大数据挖掘DT机器学习

什么是文本挖掘?大数据该挖掘什么?

什么是文本挖掘 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是...

3565
来自专栏BestSDK

IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学

医生在诊断癌变细胞时,主要通过用活组织切片检查法分析病人组织样本的方式。然而即使这些组织有时如针头般微小,病理学家需要从中检测出肿瘤细胞消失的种种迹象,也要观测...

2925
来自专栏AI科技大本营的专栏

应对AI失控,研究人员提出用“人格障碍治疗”解决问题

【AI 科技大本营导读】随着人工智能 (AI) 技术和应用的普及,人们对于 AI 的认识不再只是一种智能机器。近日,麻省理工的研究团队构建了一个有精神病倾向的...

943
来自专栏BestSDK

你觉得人工智能鉴黄这事,靠谱不?

目前多家人工智能公司已开始布局鉴黄业务,阿里巴巴和腾讯分别拥有阿里绿网、万象优图两大鉴黄系统。而在创业公司方面,较为知名的有图普科技、飞搜科技、深图智服等公司。...

3335

扫码关注云+社区