以经典工作Deep InfoMax[1]为例。一张图片经过卷积网络会得到一个M x M大小的特征图,再经过一个全局池化层会得到一个一维的特征。互信息最大化的目标是使得同一张图片的任意局部特征(特征图上任意一个位置的特征)与全局特征之间的距离尽可能近,从而达到一叶知秋的效果(只看到狗的鼻子就知道某张图片是狗的照片,而不是负样本猫的照片)。
多模态数据上的Contrastive Language-Image Pre-training (CLIP) [4]:最大化图像和相应文本之间的互信息。在使用来自 Internet 的大规模图像-文本对数据集进行预训练后,CLIP在下游任务上具有了非常不错的零样本学习能力
相对位置预测 Relative Position Prediction
相对位置预测使用数据不同的局部作为不同的视图。
BERT[5]除了引入了Masked Language Modeling任务,还引入了句子级别的对比任务Next Sentence Prediction (NSP),来提高句子级别的任务的迁移性。具体地,NSP 使用二元分类器判断从语料库中采样的两个句子是否相邻(每句话是整个文档的一个局部)。
然而,NSP 任务的有效性遭到了不少的质疑。通过NSP任务,预训练模型最终学到的可能只是主题预测的能力,而不是更困难的连贯性预测,而主题预测并不能很好地提高下游任务上的迁移性。因此,ALBERT[6]引入了句子顺序预测任务Sentence Order Prediction,其中,来自同一文档的两个连续片段是正例,而相同的片段交换顺序后则是负例。
本文主要参考Transferability in Deep Learning: A Survey[12] 中的章节2.3.2 Contrastive Learning。感兴趣的读者可以阅读原文(https://arxiv.org/pdf/2201.05867.pdf)。
参考
^R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio. Learning deep representations by mutual informa- tion estimation and maximization. In ICLR, 2019.
^Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. NeurIPS, 2019.
^Petar Veliˇckovi ́c, William Fedus, William L Hamilton, Pietro Li`o, Yoshua Bengio, and R Devon Hjelm. Deep graph infomax. In ICLR, 2019.
^Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
^Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.
^Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. In ICLR, 2020.
^Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised visual representation learning by context prediction. In ICCV, 2015.
^Zhirong Wu, Yuanjun Xiong, X Yu Stella, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In CVPR, 2018.
^Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, 2020.
^Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple frame- work for contrastive learning of visual representations. In ICML, 2020.
^ Xinlei Chen and Kaiming He. Exploring simple siamese representation learning. In CVPR, 2021.
^Junguang Jiang, Yang Shu, Jianmin Wang, Mingsheng Long, Transferability in Deep Learning: A Survey https://arxiv.org/abs/2201.05867