表征学习 Contrastive Loss

为为为什么

发布于 2022-08-09 17:53:17

4890

发布于 2022-08-09 17:53:17

文章被收录于专栏：又见苍岚

对比学习中一般使用 Contrastive Loss 作为损失函数，这种损失函数可以有效的处理孪生神经网络中的 paired data 的关系。

这种损失函数最初来源于 Yann LeCun 的 《Dimensionality Reduction by Learning an Invariant Mapping》，主要是用在降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。

这种损失函数可以有效的处理孪生神经网络中的paired data的关系（形式上并不一定是两个Net，也可以是一个Net两个Out，可以认为上面示意图的 Network1 和 2 是同一个，或者不是同一个）。
表达式如下：

L=\frac{1}{2 N} \sum_{n=1}^{N} y d^{2}+(1-y) \max (\operatorname{margin}-d, 0)^{2}

其中 d=\left|a_{n}-b_{n}\right|_{2} 代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0则代表不匹配，margin为设定的阈值。
观察上述的 contrastive loss 的表达式可以发现，这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当 y=1（即样本相似）时，损失函数只剩下 ∑yd^2，即原本相似的样本，如果在特征空间的欧式距离较大，则说明当前的模型不好，因此加大损失。而当 y=0 时（即样本不相似）时，损失函数为 (1-y) \max (\operatorname{margin}-d, 0)^{2}，即当样本不相似时，其特征空间的欧式距离反而小的话，损失值会变大，这也正好符号我们的要求。

F=-KX

F表示两点间弹簧的作用力，K是弹簧的劲度系数，X为弹簧拉伸或收缩的长度，弹簧静止状态时X=0.

论文中将该contrastive loss损失函数类比于弹簧模型：将成对的样本特征，使用该损失函数来表达成对样本特征的匹配程度。成对的样本特征之间（类比于图中的一个个点），我们假设这些点之间都有一个弹簧，弹簧静止时长度为０，点对之间无作用力。
1. 对于样本相似的特征，相当于其间的弹簧产生了正位移Ｘ(X < m)，即弹簧被拉伸了X的长度，此时两个相似特征（点）之间存在吸引力。
2. 对于样本不相似的特征，相当于其间的弹簧产生的了负位移，即弹簧被压缩了，此时两个不相似特征之间存在排斥力。注意弹簧的特性：当两点之间弹簧位移超Ｘ>m时，此时，弹簧发生形变，此时两点之间视为没有吸引力了。