最近,雅虎利用分类神经网络搭建了一套可以辨别Not Suitable for Work(上班不宜,以下简称NSFW)色情图片的Caffe模型,并将源码搬上了github。点击原文进入Yahoo的git页面。
pic by Emilio Jimenez
下面的内容是Yahoo对这一套模型的解析。
NSFW分类器
色情内容检测在数十年来都是研究人员想要解决的问题。要知道,在机器的眼里,无论是花草树木,还是泳装美女都只是一个个像素点。随着计算机视觉以及深度学习算法的发展与成熟,我们现在能够通过让机器向人类学习,更精准的将图片归类于色情内容。
定义哪些属于NSFW往往具有主观性而且意义非凡。更重要的是,在某些情况下“不宜”的内容在另一些情况下又变成无伤大雅的了。在这里,我们介绍的模型仅限于一种NSFW:色情图片。对于素描、卡通、文本,或者其他类型的内容都不适用这个模型。
Cindy Crawford by Sante D’Orazio, 1993
使用方法
pic by 筱山纪信
模型简介
我们通过数据来训练模型,其中NSFW图片为阳性,SFW图片是阴形。这些图片已事先通过编辑做了标记。由于数据本身属性的原因,我们不会公布这些数据或其它细节。
我们所用的CaffOnSpark是一个非常完美的分布式学习框架,它为我们实验提供了Hadoop和clusters族群深度学习的训练模型。非常感谢CaffOnSpark团队。
深度模型先在ImageNet 1000类数据集上做的预先训练。然后我们微调了 NSFW数据集的权重。我们使用了thinresnet50 1by2架构作为训练网络。模型使用pynetbuilder工具生成,复制剩余网络文件的50层网络(以及每层半数的过滤器)。你可以在这找到关于模型生成和训练的更多细节。
pic by Francis Giacobetti
请注意,更深度的网络,或拥有更多过滤器的网络可以提高准确性,我们用薄残余网络架构来构造模型,因为它在准确性方面提供了较好的权衡,并且该模型减轻了运行的负荷和占用内存的空间。
更多详情请点击阅读原文。
PS:小编收集整理了1024G技术资料,限时免费领取,在公众号“顶级程序员”左下角菜单点击【进群领取】