【星球知识卡片】视频分类与行为识别有哪些核心技术，对其进行长期深入学习

用户1508658

发布于 2020-06-10 16:46:31

3660

发布于 2020-06-10 16:46:31

文章被收录于专栏：有三AI

作者&编辑 | 言有三

1 3D卷积

视频相对于图像多出了一个维度，而3D卷积正好可以用于处理这个维度，因此也非常适合视频分类任务，不过缺点是计算量比较大，下图展示了一个简单的3D模型。

2 RNN与LSTM

视频和语音信号都是时序信号，而RNN和LSTM正是处理时序信号的模型，也是早期用于视频分类的重要模型。

3 双流法

视频中的目标往往是运动的，因此光流也是非常重要的信息。双流法包含两个通道，一个是RGB图像通道，用于建模空间信息。一个是光流通道，用于建模时序信息。两者联合训练，并进行信息融合。

4 光流预测模型

由于双流模型是当前视频分类的主流模型，而其中光流信息对结果影响很大，因此光流预测模型至关重要，尤其是轻量级的光流预测模型非常值得研究。

5 多框架融合

Two-Stream网络和3D网络各有优点，都可以很好的建模时序关系，但是计算量巨大，因此有的框架致力于融合两类框架，并降低计算量。

6 其他

总的来说，视频分类和行为识别有非常多的研究方向，包括：

(1) 三维卷积的改进。

(2) 光流提取模型的改进。

(3) RGB和光流特征的融合改进。

(4) 多模态信息融合。

(5) 多标签视频分类。

(6) 更加细粒度的动作分类。

(7) 更长程信息的捕获。

(8) 行为定位。

(9) 视频标注。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-06-05，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理

本文分享自有三AI 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

【星球知识卡片】视频分类与行为识别有哪些核心技术，对其进行长期深入学习

【星球知识卡片】视频分类与行为识别有哪些核心技术，对其进行长期深入学习

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐