Google最新开源Inception-ResNet-v2,进一步提升图像分类水准

2016年8月31日,Google团队宣布针对TensorFlow开源了最新发布的TF-slim资料库,它是一个可以定义、训练和评估模型的轻量级的软件包,也能对图像分类领域中几个主要有竞争力的网络进行检验和定义模型。

为了进一步推进这个领域的进步,今天Google团队宣布发布Inception-ResNet-v2(一种卷积神经网络——CNN),它在ILSVRC图像分类基准测试中实现了当下最好的成绩。Inception-ResNet-v2是早期Inception V3模型变化而来,从微软的残差网络(ResNet)论文中得到了一些灵感。相关论文信息可以参看我们的论文Inception-v4, Inception-ResNet and the Impact of Residual Connections on LearningInception-v4, Inception-ResNet以及残差连接在学习上的影响):

残差连接(Residual connections )允许模型中存在shortcuts,可以让研究学者成功地训练更深的神经网络(能够获得更好的表现),这样也能明显地简化Inception块。将两种模型架构对比,见下图:

在第二幅Inception-ResNet-v2图中最上部分,你能看到整个网络扩展了。注意该网络被认为比先前的Inception V3还要深一些。在图中主要部分重复的残差区块已经被压缩了,所以整个网络看起来更加直观。另外注意到图中inception区块被简化了,比先前的Inception V3种要包含更少的并行塔 (parallel towers)。

如下方图表所示,Inception-ResNet-v2架构的精确度比之前的最优模型更高,图表中所示为基于单个图像的ILSVRC 2012图像分类标准得出的排行第一与排行第五的有效精确度。此外,该新模型仅仅要求两倍于Inception v3的容量与计算能力。

例如,尽管Inception v3与Inception-ResNet-v2都很擅长识别每一条狗所属的类别,这种新模型的性能更为显著。例如,旧模型可能会错误地将右边的图片识别为阿拉斯加雪橇犬,新模型Inception-ResNet-v2能够准确地识别两个图片中狗的类别。

阿拉斯加雪橇犬(左)和西伯利亚雪橇犬(右)。图片来源:维基百科。

为了使人们理解开始试验,我们也将要发布新型Inception-ResNet-v2预训练实例,作为TF-Slim 图像模型库的组成部分。

看到本研究领域关于这一经过改进的模型所取得的进展,而且人们开始采用这种新模型,并将其性能在多种任务作对比,我们为此感到非常兴奋。你也想要开始使用这种新模型吗?让我们一起来看看附带的操作指示,学会如何训练,评估或微调一个网络。

Inception-ResNet-v2具体代码实现过程参见:

https://github.com/tensorflow/models/blob/master/slim/nets/inception_resnet_v2.py

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

收藏 | 知识图谱论文大合集,干货满满的笔记解读(附资源)

远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据,但是其中噪声太多,影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响,...

1003
来自专栏AI科技评论

学界|北京大学王立威教授:机器学习理论的回顾与展望(一)

本文由奕欣,夏睿联合编辑。 AI科技评论按:本文根据王立威教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《机器学习理论:回顾与展望...

30511
来自专栏PPV课数据科学社区

人工智能:机器学习 温和指南

? 机器学习是如今人工智能领域中进展最大的方面,更多的初学者开始进入了这个领域。 在这篇文章中,机器学习与NLP专家、Monkey Learn联合创始人&CE...

3396
来自专栏算法+

图像去模糊算法 循序渐进 附完整代码

这样看,虽然知道是在做一个点面计算的操作,但是要具体描述卷积的用途或者原理,是有点困难的。

2023
来自专栏机器之心

业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

选自Baidu.Research 作者:Chao Li、Ajay Kannan 和 Zhenyao Zhu 机器之心编译 参与:吴攀 对话常常涉及到多个说话人,...

3438
来自专栏新智元

【ICML2016】谷歌 DeepMind 论文下辑

【新智元导读】深度学习重要会议 ICML2016 接收谷歌 DeepMind 9篇论文,新智元系统整理,继上篇之后,本次邀请国家千人计划专家、平安科技数据平台部...

3385
来自专栏企鹅号快讯

What-人脸识别?

说到指纹识别,用过它的都知道,只要在指定区域用手指一轻轻碰,就能解开锁屏。但是说到不常见的人脸识别,相信大家对此就很陌生了。不过没关系,现在就由小编帮你了解一下...

2126
来自专栏BestSDK

Google开源的“Show and Tell”,是如何让机器“看图说话”的?

| 机器的Image Captioning(自动图像描述)能力 电影《HER》中的“萨曼莎”是一款基于AI的OS系统,基于对西奥多的手机信息和图像内容的理解,“...

2737
来自专栏大数据文摘

LeCun、Bengio、Hinton三巨头曾合体,Nature发文综述深度学习(论文精华)

1804
来自专栏大数据挖掘DT机器学习

欺诈预测机器学习模型设计:准确率和召回率

Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。irbnb信任和安全小组通过构建机器学习模型...

2744

扫码关注云+社区