前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

作者头像
zenRRan
发布2022-09-02 12:44:13
6630
发布2022-09-02 12:44:13
举报

知乎:李加贝 方向:跨模态检索 来自:深度学习自然语言处理公众号

虽然不同的数据增强(随机裁剪、颜色抖动、旋转等)被发现对预训练视觉模型至关重要,但这种增强在应用于句子嵌入的对比学习时通常不成功

之前的工作发现,通过简单的基于dropout的增强来构建正对,比基于同义词或掩码语言模型的单词删除或替换等更复杂的增强效果要好得多。虽然对比学习的训练目标鼓励特征对增强变换是不变的,但对输入的直接增强(如删除、替换)经常会改变句子的意义。也就是说,理想的句子嵌入不应该对这种转换保持不变。

以前的工作只是简单地将有害的转换从预训练中忽略掉,但作者认为,仍然应该利用这些转换通过学习对这些转换敏感(但不一定不变)的特征。

受cv中Equivariant Contrastive Learning(ICLR'22)的启发,作者通过使用基于dropout的增强作为不敏感转换(如SimCSE)和基于掩码建模的单词替换作为敏感转换,对句子进行了Equivariant Contrastive Learning

Method

DiffCSE

方法非常的简单,就是将SimCSEELECTRA进行结合

SimCSE:

基于dropout的对比学习

对于ELECTRA,作者这里进行了改善,提出了一个conditional version给定一个长度为T的句子 x=[],对其进行随机掩码得到 ,然后通过生成器G进行恢复得到一个句子 ,然后使用判别器执行替换token检测任务,就是预测句子中的哪个token是原始的,哪个token是替换的

替换token检测任务

将所有token的损失相加

作者解释和ELECTRA的区别是,判别器D是有条件的,应该是说图1中是有将编码器的输出特征h输入到了判别器中,因此该损失也会通过h进行反向传播对编码器的参数进行优化,其中ELECTRA的优化损失为:

最终的损失为:

Experiments

Semantic Textual Similarity (STS)

Transfer Tasks

Ablation Studies

Next Sentence vs. Same Sentence

由于无监督学习中,一些工作使用预测下一句话作为训练目标,然后作者提出了一个DiffCSE变体,将ELECTRA loss中的替换为下一句话,STS-B的分数降低了,而迁移任务的分数并没有太大改变,当同一句话和下一句话一起使用时,性能并没有得到显著提升。

如果增强是加入或者删除的话,任务将变成预测token是否是增加的或者删除的,在STS-B中,性能均下降,但对于迁移任务,并没有太大影响,此外作者,还尝试了使用三种增强策略,性能并没有提升

由表7可知,不同掩码率之间的差异很小(在15%-40%之间),30%左右的掩码率可以获得最好的性能。

因为对比学习目标是一个相对容易的任务,所以对比损失的规模比ELECTRA loss小100到1000。当λ趋于零时,模型就变成了SimCSE模型。使用λ = 0.005可以得到最好的性能。


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing

阿里+中科院提出:将角度margin引入到对比学习目标函数中并建模句子间不同相似程度

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法


代码语言:javascript
复制
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Method
  • Experiments
  • Ablation Studies
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档