人工智能“鉴黄师”

最近,雅虎利用分类神经网络搭建了一套可以辨别Not Suitable for Work(上班不宜,以下简称NSFW)色情图片的Caffe模型,并将源码搬上了github。点击原文进入Yahoo的git页面。

pic by Emilio Jimenez

下面的内容是Yahoo对这一套模型的解析。

NSFW分类器

色情内容检测在数十年来都是研究人员想要解决的问题。要知道,在机器的眼里,无论是花草树木,还是泳装美女都只是一个个像素点。随着计算机视觉以及深度学习算法的发展与成熟,我们现在能够通过让机器向人类学习,更精准的将图片归类于色情内容。

定义哪些属于NSFW往往具有主观性而且意义非凡。更重要的是,在某些情况下“不宜”的内容在另一些情况下又变成无伤大雅的了。在这里,我们介绍的模型仅限于一种NSFW:色情图片。对于素描、卡通、文本,或者其他类型的内容都不适用这个模型。

Cindy Crawford by Sante D’Orazio, 1993

使用方法

  • 这个网络算法分析图片后会产生一个概率值(在0到1之间),通过这个概率值我们可以过滤一些色情图片。当概率值小于0.2说明图片安全的可能性很高。当概率值大于0.8时,此图片很可能是不NSFW的。介于之间的概率值可以分为不同等级的NSFW。
  • 我们建议开发人员根据数据、用户案例、图片类型选择合适的阈值。由于这个问题本身复杂性,(筛选)将会产生误差,该误差随由基于NSFW的用例、定义、容忍度决定。优秀的开发人员应该在他们的应用上根据安全定义设置一个评估体系值,当应用此模型的时候,利用ROC曲线来选择合适的阈值。
  • (筛选)结果可以通过对模型里的用例、数据、定义的微调来改善。我们对结果的精确性提供任何保证。NSFW的定义是主观且随情境而变的。模型是一种通用的参考模型,可以用于初步过滤色情图片。我们不保证输出信息的精确性,但我们可以把它作为一个开源项目让开发者去探索和提升。通过对模型的数据集进行微调可以改善输出结果。
  • 通过人工调整边界以及机器学习方案可以改善结果输出。

pic by 筱山纪信

模型简介

我们通过数据来训练模型,其中NSFW图片为阳性,SFW图片是阴形。这些图片已事先通过编辑做了标记。由于数据本身属性的原因,我们不会公布这些数据或其它细节。

我们所用的CaffOnSpark是一个非常完美的分布式学习框架,它为我们实验提供了Hadoop和clusters族群深度学习的训练模型。非常感谢CaffOnSpark团队。

深度模型先在ImageNet 1000类数据集上做的预先训练。然后我们微调了 NSFW数据集的权重。我们使用了thinresnet50 1by2架构作为训练网络。模型使用pynetbuilder工具生成,复制剩余网络文件的50层网络(以及每层半数的过滤器)。你可以在这找到关于模型生成和训练的更多细节。

pic by Francis Giacobetti

请注意,更深度的网络,或拥有更多过滤器的网络可以提高准确性,我们用薄残余网络架构来构造模型,因为它在准确性方面提供了较好的权衡,并且该模型减轻了运行的负荷和占用内存的空间。

更多详情请点击阅读原文。

PS:小编收集整理了1024G技术资料,限时免费领取,在公众号“顶级程序员”左下角菜单点击【进群领取】

原文发布于微信公众号 - 顶级程序员(TopCoding)

原文发表时间:2016-10-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

教程 | AI玩微信跳一跳的正确姿势:跳一跳Auto-Jump算法详解

402110
来自专栏机器学习算法与Python学习

10月机器学习开源项目Top10

过去一个月里,我们对近 250 个机器学习开源项目进行了排名,并挑选出热度前 10 的项目。这份清单的平均 github star 数量高达 1345,涵盖了包...

10730
来自专栏量子位

自动机器学习工具全景图:精选22种框架,解放炼丹师

收集原始数据、合并数据源、清洗数据、特征工程、模型构建、超参数调优、模型验证和设备部署。

16240
来自专栏月色的自留地

从锅炉工到AI专家(2)

20240
来自专栏腾讯大数据的专栏

深度神经网络DNN的多GPU数据并行框架 及其在语音识别的应用

深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点,产生了广泛的应用。DNN具有深层结构、数千万参数需要学...

28670
来自专栏奇点大数据

你的“跳一跳”榜上有名了吗?聊聊“跳一跳”开挂方法

最近“跳一跳”在朋友圈风靡一时,吃饭的时候,人家跟你聊跳了多少步,你要没上200都不好意思跟人家打招呼。作为AI研发的机构,我们更关心怎么样才能自动让AI走的更...

36960
来自专栏新智元

DeepMind 提出分层强化学习新模型 FuN,超越 LSTM

【新智元导读】在用强化学习玩游戏的路上越走越远的 DeepMind,今天发表在 arxiv上的最新论文《分层强化学习的 FeUdal 网络》引起热议。简称 Fu...

534120
来自专栏AI科技大本营的专栏

10月机器学习开源项目Top10

【导读】过去一个月里,我们对近 250 个机器学习开源项目进行了排名,并挑选出热度前 10 的项目。这份清单的平均 github star 数量高达 1345,...

10530
来自专栏量子位

OpenAI发布新强化学习算法:近端策略优化

允中 编译自 blog.openai.com 量子位 出品 | 公众号 QbitAI OpenAI今天发布一类新的强化学习算法:近端策略优化(Proximal ...

34850
来自专栏AI研习社

问答 | 迁移学习有哪些入门建议?

13230

扫码关注云+社区

领取腾讯云代金券