开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >人工智能“鉴黄师”

人工智能“鉴黄师”

顶级程序员

发布于 2018-04-26 11:32:51

1.6K0

发布于 2018-04-26 11:32:51

举报

文章被收录于专栏：顶级程序员顶级程序员

最近，雅虎利用分类神经网络搭建了一套可以辨别Not Suitable for Work（上班不宜，以下简称NSFW）色情图片的Caffe模型，并将源码搬上了github。点击原文进入Yahoo的git页面。

pic by Emilio Jimenez

下面的内容是Yahoo对这一套模型的解析。

NSFW分类器

色情内容检测在数十年来都是研究人员想要解决的问题。要知道，在机器的眼里，无论是花草树木，还是泳装美女都只是一个个像素点。随着计算机视觉以及深度学习算法的发展与成熟，我们现在能够通过让机器向人类学习，更精准的将图片归类于色情内容。

定义哪些属于NSFW往往具有主观性而且意义非凡。更重要的是，在某些情况下“不宜”的内容在另一些情况下又变成无伤大雅的了。在这里，我们介绍的模型仅限于一种NSFW：色情图片。对于素描、卡通、文本，或者其他类型的内容都不适用这个模型。

Cindy Crawford by Sante D’Orazio, 1993

使用方法

这个网络算法分析图片后会产生一个概率值（在0到1之间），通过这个概率值我们可以过滤一些色情图片。当概率值小于0.2说明图片安全的可能性很高。当概率值大于0.8时，此图片很可能是不NSFW的。介于之间的概率值可以分为不同等级的NSFW。
我们建议开发人员根据数据、用户案例、图片类型选择合适的阈值。由于这个问题本身复杂性，（筛选）将会产生误差，该误差随由基于NSFW的用例、定义、容忍度决定。优秀的开发人员应该在他们的应用上根据安全定义设置一个评估体系值，当应用此模型的时候，利用ROC曲线来选择合适的阈值。
（筛选）结果可以通过对模型里的用例、数据、定义的微调来改善。我们对结果的精确性提供任何保证。NSFW的定义是主观且随情境而变的。模型是一种通用的参考模型，可以用于初步过滤色情图片。我们不保证输出信息的精确性，但我们可以把它作为一个开源项目让开发者去探索和提升。通过对模型的数据集进行微调可以改善输出结果。
通过人工调整边界以及机器学习方案可以改善结果输出。

pic by 筱山纪信

模型简介

我们通过数据来训练模型，其中NSFW图片为阳性，SFW图片是阴形。这些图片已事先通过编辑做了标记。由于数据本身属性的原因，我们不会公布这些数据或其它细节。

我们所用的CaffOnSpark是一个非常完美的分布式学习框架，它为我们实验提供了Hadoop和clusters族群深度学习的训练模型。非常感谢CaffOnSpark团队。

深度模型先在ImageNet 1000类数据集上做的预先训练。然后我们微调了 NSFW数据集的权重。我们使用了thinresnet50 1by2架构作为训练网络。模型使用pynetbuilder工具生成，复制剩余网络文件的50层网络(以及每层半数的过滤器)。你可以在这找到关于模型生成和训练的更多细节。

pic by Francis Giacobetti

请注意，更深度的网络，或拥有更多过滤器的网络可以提高准确性，我们用薄残余网络架构来构造模型，因为它在准确性方面提供了较好的权衡，并且该模型减轻了运行的负荷和占用内存的空间。

更多详情请点击阅读原文。

PS：小编收集整理了1024G技术资料，限时免费领取，在公众号“顶级程序员”左下角菜单点击【进群领取】

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2016-10-25，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自顶级程序员微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.