前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3DCNN参数解析:2013-PAMI-3DCNN for Human Action Recognition「建议收藏」

3DCNN参数解析:2013-PAMI-3DCNN for Human Action Recognition「建议收藏」

作者头像
全栈程序员站长
发布2022-06-29 11:09:04
1790
发布2022-06-29 11:09:04
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

3DCNN参数解析:2013-PAMI-3DCNN for Human Action Recognition

3DCNN框架图
3DCNN框架图

参数分析 Input:7 @ 60 × \times × 40, 7帧,图片大小60 × \times × 40

hardwired: H1 产生5通道信息,分别是gray, gradient-x, gradient-y, optflow-x, optflow-y。前三个对于每一张图片都计算得到一张图,后两个是相邻两张图片得到一张图。 因此,经过hardwired可以得到:7 × \times × 3 + 6 × \times × 2 = 33 经过hardwired可以得到33 @ 60 × \times × 40

3DCNN layer:C2 对于前面的5个通道,每个通道都用2个kernel size: 7 × \times × 7 × \times × 3 (7 × \times × 7是spatial dimension, 3是temporal dimension)的3D卷积(padding=0, stride=1) ((7-3+1) × \times × 3 + (6-3+1) × \times × 2) × \times × 2 = 23 × \times × 2 (5个通道分别有[5,5,5,4,4]个) 输出大小是:(60-7+1)/1 = 54; (40-7+1)/1 = 34 因此,经过C2可以得到 23 × \times × 2 @ 54 × \times × 34 C2的参数量:5 × \times × 2 × \times × (7 × \times × 7 × \times × 3+1)= 1480

Subsampling layer: S3 用2 × \times × 2的subsampling 输出:23 × \times × 2@27 × \times × 17 参数量:23 × \times × 2 × \times × 2=92

3DCNN layer:C4 对于前面的5个通道(5个通道分别有[5,5,5,4,4]个feature maps),每个通道都用2个kernel size: 7 × \times × 6 × \times × 3 (7 × \times × 6是spatial dimension, 3是temporal dimension)的3D卷积(padding=0, stride=1),每个位置用了3个conv ((5-3+1) × \times × 3 + (4-3+1) × \times × 2 ) × \times × 2 × \times × 3 = 13 × \times × 6 (5个通道分别有[3,3,3,2,2]个) 输出大小是:(27-7+1)/1=21;(17-6+1)/1=12 因此,经过C4可以得到 13 × \times × 6 @ 21 × \times × 12 C2的参数量:5 × \times × 6 × \times × (7 × \times × 6 × \times × 3+1)=3810

Subsampling layer: S5 用3 × \times × 3的subsampling 输出:13 × \times × 6 @7 × \times × 4 参数量:13 × \times × 6 × \times × 2=156

CNN layer:C6 kernel size: 7 × \times × 4,num output = 128 (每个都和前面S5的78个feature map连接) 因此,经过C6可以得到 128 @ 1 × \times × 1 C6的参数量:128 × \times × 78 × \times × (7 × \times × 4+1)= 289536

最后一层: 输出3 classes, 全连接 参数量:3 × \times × 128 = 384

综上,整个网络的参数量是1480 + 92 + 3810 + 156 + 289536 + 384 = 295458

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/132268.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3DCNN参数解析:2013-PAMI-3DCNN for Human Action Recognition
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档