对比学习实现了最大相同图像不同增强视角的一致性以及能够和数据集中不同图像的表示进行区分。...如图1所示,作者提出的框架由以下五个部分组成,随机的数据增强模块将一张图像随机的变换为两种增强的图像,基本的编码器f提取一对增强图像的序列表示,可选的投影头使用一个小的辅助网络对表示进行进一步的变换,实例映射函数从投影帧产生实例...,对比损失函数将正样本表示尽可能接近以及确保与负样本的差异。...实例映射函数,作者提出了3种,全部到实例函数取所有序列帧的平均,窗口到实例是每几个连续帧平均池化创建一个实例,帧到实例每一帧产生一个单独的实例。
?
图2....对不同的实例映射函数的比较表明,从窗口到实例的映射可以获得最佳的结果。可以看到,帧到实例的映射在场景文本图像上表现不佳。