前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AI-1000问】为什么深度学习图像分类的输入多是224*224

【AI-1000问】为什么深度学习图像分类的输入多是224*224

作者头像
用户1508658
发布2019-07-26 16:51:30
7520
发布2019-07-26 16:51:30
举报
文章被收录于专栏:有三AI有三AI

写在前边的通知

大家好,今天这又是一个新专栏了,名叫《有三AI 1000问》,顾名思义,就是以问题为主了!

那我们这个新专栏会有什么特色呢?主要从内容选择,目标受众,创作风格三个方面来讲述。

1、内容选择

因为我们有综述专栏,有各种垂直领域的非常详细的文章,所以从内容选择上,我们这一个专栏不会选择那些“大”问题,不会选择需要长篇分析的问题,也不会选择需要很强的实践操作的问题。

内容选择的标准是:

  • 技术相关
  • 足够聚焦
  • 容易被忽视
  • 普通但是不简单
  • 可以引申很多思考

不会入选的内容比如:“目标检测的最新进展”,“tensorflow的最新API”,“Mask RCNN文章阅读”等等之类的文章。

会入选的内容比如:“为什么图像分类输入大小多是224*224”,“为什么卷积神经网络要使用池化”。

2、目标受众

我认为未来机器学习技术/AI技术是每一个人都可以掌握,使用的技术,因此,我们这一个专栏不再只是面向从事相关工作的朋友,不会像其他专栏的文章那样对基础要求高。

目标受众包括:

  • AI领域从业技术人员
  • 其他计算机领域从业人员
  • AI技术业余爱好者

3、创作风格

这一个专栏以引导思考,普及知识为主,希望减轻阅读负担,因此不会像其他系列文章那样清晰地划分段落,也会适当地降低内容的深度。

创作风格是:

  • 不严格划分小节
  • 平衡内容深度和可阅读性

好了,具体内容就参考我们的第一期吧,希望你喜欢。

为什么深度学习图像分类里的图片的输入大小都是224*224呢?

做过图像分类项目或者看过文章的小伙伴们应该都知道,在论文中进行各类方法的比较时,要求使用同样的数据集。而为了公平的比较,网络的输入大小通常都是224*224的大小,那为什么呢?有同学思考过这个问题吗?

作者/编辑 言有三

我们都知道,一个图像分类模型,在图像中经历了下面的流程。

从输入image->卷积和池化->最后一层的feature map->全连接层->损失函数层softmax loss。

从输入到最后一个卷积特征feature map,就是进行信息抽象的过程,然后就经过全连接层/全局池化层的变换进行分类了,这个feature map的大小,可以是3*3,5*5,7*7等等。

解答1:在这些尺寸中,如果尺寸太小,那么信息就丢失太严重,如果尺寸太大,信息的抽象层次不够高,计算量也更大,所以7*7的大小是一个最好的平衡。

另一方面,图像从大分辨率降低到小分辨率,降低倍数通常是2的指数次方,所以图像的输入一定是7*2的指数次方。以ImageNet为代表的大多数分类数据集,图像的长宽在300分辨率左右。

解答2:所以要找一个7*2的指数次方,并且在300左右的,其中7*2的4次方=7*16=112,7*2的5次方等于7*32=224,7*2的6次方=448,与300最接近的就是224了。

这就是最重要的原因了,当然了对于实际的项目来说,有的不需要这么大的分辨率,比如手写数字识别MNIST就用32*32,有的要更大,比如细粒度分类。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档