3d CNN可以处理视频、核磁共振和扫描数据集。你能告诉我,如果我必须把输入(视频)输入到拟议的三维CNN网络,并训练它的重量,我如何能够做到这一点?如3d CNN期待的5维输入;
[batch size, channels, depth, height, weight]
如何从视频中提取深度?
如果我有10个不同班级的10个视频。每个视频的持续时间为6秒。我每秒钟提取2帧,每段视频大约有12帧。
大小的RGB视频是112x112 ->高度= 112,Width=112和Channels=3。
如果我保持批处理大小等于2
1视频->6秒-> 12帧(1秒== 2帧)每帧(3,112,112帧)
10段视频(10档)->60秒-> 120帧
因此,这5个维度将是这样的;[2, 3, 12, 112, 112]
2->两个视频将被处理的每批大小.
3-> RGB信道
12 ->每个视频包含12帧
每段视频的高度112 -->
每个视频的112 ->宽度
我说的对吗?
发布于 2021-08-02 19:16:27
是的,如果你想使用3D CNN的话,这似乎是有意义的。您实际上是在输入中添加一个维度,这是时间维度,使用depth
维度是合乎逻辑的。通过这种方式,您可以将通道轴保持为特征通道(即不是时空维度)。
请记住,3D CNN确实是内存密集型的。还有其他方法可以处理时间依赖的输入。在这里,您并不是真正地处理第三维度(“空间”维度,也就是),所以您不需要使用3D CNN。
编辑:
如果我将上述维度的输入输入到三维CNN,它会学习这两个特征(空间和时间)吗?你能让我理解时空特征吗?
如果您使用3D CNN,那么您的过滤器将有一个3D内核,卷积将是三维的:沿两个空间维度(宽度和高度)以及深度维度(这里对应于时间维度),因为视频帧序列使用深度维度。3D CNN将允许您捕获本地(“本地”,因为感知字段是受限于内核的大小和CNN的总层数)的时空信息。
https://stackoverflow.com/questions/68625606
复制相似问题