首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何输入三维卷积神经网络?

如何输入三维卷积神经网络?
EN

Stack Overflow用户
提问于 2021-08-02 17:15:43
回答 1查看 709关注 0票数 0

3d CNN可以处理视频、核磁共振和扫描数据集。你能告诉我,如果我必须把输入(视频)输入到拟议的三维CNN网络,并训练它的重量,我如何能够做到这一点?如3d CNN期待的5维输入;

代码语言:javascript
运行
复制
[batch size, channels, depth, height, weight]

如何从视频中提取深度?

如果我有10个不同班级的10个视频。每个视频的持续时间为6秒。我每秒钟提取2帧,每段视频大约有12帧。

大小的RGB视频是112x112 ->高度= 112,Width=112和Channels=3

如果我保持批处理大小等于2

1视频->6秒-> 12帧(1秒== 2帧)每帧(3,112,112帧)

10段视频(10档)->60秒-> 120帧

因此,这5个维度将是这样的;[2, 3, 12, 112, 112]

2->两个视频将被处理的每批大小.

3-> RGB信道

12 ->每个视频包含12帧

每段视频的高度112 -->

每个视频的112 ->宽度

我说的对吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-02 19:16:27

是的,如果你想使用3D CNN的话,这似乎是有意义的。您实际上是在输入中添加一个维度,这是时间维度,使用depth维度是合乎逻辑的。通过这种方式,您可以将通道轴保持为特征通道(即不是时空维度)。

请记住,3D CNN确实是内存密集型的。还有其他方法可以处理时间依赖的输入。在这里,您并不是真正地处理第三维度(“空间”维度,也就是),所以您不需要使用3D CNN。

编辑:

如果我将上述维度的输入输入到三维CNN,它会学习这两个特征(空间和时间)吗?你能让我理解时空特征吗?

如果您使用3D CNN,那么您的过滤器将有一个3D内核,卷积将是三维的:沿两个空间维度(宽度和高度)以及深度维度(这里对应于时间维度),因为视频帧序列使用深度维度。3D CNN将允许您捕获本地(“本地”,因为感知字段是受限于内核的大小和CNN的总层数)的时空信息。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68625606

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档