开源 | CVPR2020 端到端的ZSL训练模型，用于视频分类任务

CNNer

发布于 2020-06-19 15:46:19

6170

文章被收录于专栏：CNNerCNNer

论文地址：http://arxiv.org/pdf/2003.01455v3.pdf 代码：https://github.com/bbrattoli/zeroshotvideoclassification. 来源：海德堡大学 论文名称：Rethinking Zero-shot Video Classification: End-to-end Training for RealisticApplications 原文作者：Biagio Brattoli

经过大型数据集的训练，深度学习(DL)可以准确地将视频分类为数百个不同的类。但是，对视频数据进行标注的代价非常高。为此Zero-shot learning (ZSL)训练一个模型，提出了一种解决方案。ZSL算法只需要训练一次就可以在新的任务中有很好的的表现，这大大增加了模型的泛化能力。为此，本文第一次提出了基于端到端分类算法的ZSL模型应用于视频分类中。本文模型在最近的视频分类文献的基础上，建立训练程序，使用3DCNN来训练学习视觉特征。本文方案还扩展了当前的基准测试范例，使得测试任务在训练时未知，这是以往技术达不到的。该模型支持通过训练和测试数据实现域的转变，而不允许将ZSL模型分割为特定的测试数据集。本文提出的模型易于理解和扩展，而且训练和评估方案很容易与其他方法结合使用，同时性能远远超过现有方法。

下面是论文具体框架结构以及实验结果：