前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ACL2023 | Multi-CLS BERT:传统集成的有效替代方案

ACL2023 | Multi-CLS BERT:传统集成的有效替代方案

作者头像
zenRRan
发布2023-08-22 14:25:02
3630
发布2023-08-22 14:25:02
举报
文章被收录于专栏:深度学习自然语言处理

在本文中,介绍了 Multi-CLS BERT,这是传统集成方法的有效替代方案。

这种基于 CLS 的预测任务的新颖方法旨在提高准确性,同时最大限度地减少计算和内存需求

通过利用具有不同参数化和目标的多个 CLS token,提出的方法无需微调集成中的每个 BERT 模型,从而实现更加简化和高效的流程。

在 GLUE 和 SuperGLUE 数据集上进行了实验,证明了 Multi-CLS BERT 在提高整体准确性和置信度估计方面的可靠性。它甚至能够在训练样本有限的情况下超越更大的 BERT 模型。最后还提供了 Multi-CLS BERT 的行为和特征的分析。

Multi-CLS BERT和传统集成方法不同点是?

Multi-CLS BERT与传统的集成方法不同之处在于它使用多个CLS token,并通过参数化和目标函数来鼓励它们的多样性。这样一来,就不需要对集成中的每个BERT模型进行微调,从而使整个过程更加简化和高效。相比之下,传统的集成方法需要对集成中的每个模型进行微调,并在测试时同时运行它们。Multi-CLS BERT在行为和特性上与典型的BERT 5-way集成模型非常相似,但计算和内存消耗几乎减少了4倍。

在所提出的方法中使用多个 CLS tokens有哪些优点?

在所提出的方法中,使用多个CLS token的优点在于可以鼓励它们的多样性,从而提高模型的准确性和置信度估计。相比于传统的单个CLS token,使用多个CLS token可以更好地捕捉输入文本的不同方面和特征

此外,Multi-CLS BERT的使用还可以减少计算和内存消耗,因为它不需要对集成中的每个BERT模型进行微调,而是只需要微调单个Multi-CLS BERT模型并在测试时运行它。

GLUE 和 SuperGLUE 数据集上的实验结果

GLUE和SuperGLUE是两个广泛使用的自然语言理解基准测试数据集。

在所提出的方法中,作者使用GLUE和SuperGLUE数据集来评估Multi-CLS BERT的性能。在GLUE数据集上,作者使用100个、1,000个和完整数据集进行了实验,并在SuperGLUE数据集上使用了相同的设置。

实验结果表明,Multi-CLS BERT在GLUE和SuperGLUE数据集上都能够可靠地提高整体准确性和置信度估计。在GLUE数据集中,当只有100个训练样本时,Multi-CLS BERT Base模型甚至可以胜过相应的BERT Large模型。在SuperGLUE数据集上,Multi-CLS BERT也取得了很好的表现。

总结

在这项工作中,作者建议使用 K 个 CLS 嵌入来表示输入文本,而不是在 BERT 中使用单个 CLS 嵌入。与 BERT 相比,Multi-CLS BERT 显着提高了 GLUE 和 SuperGLUE 分数,并减少了 GLUE 中的预期校准误差,而其唯一增加的成本是将最大文本长度减少了 K 并增加了一些额外的时间来计算插入的线性变换。因此,建议广泛使用多个 CLS 嵌入,以获得几乎免费的性能增益。

为了解决 CLS 嵌入的崩溃问题,作者修改了预训练损失、BERT 架构和微调损失。消融研究表明,所有这些修改都有助于 Multi-CLS BERT 性能的提高。在调查改进来源的分析中,发现 a) 集成原始 BERT 比集成 Multi-CLS BERT 带来更大的改进,b) 不同 CLS 嵌入的不一致与 BERT 模型的不一致高度相关不同的微调种子。这两项发现都支持作者的观点,即 Multi-CLS BERT 是一种有效的集成方法。

论文: Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling 地址: https://arxiv.org/abs/2210.05043

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Multi-CLS BERT和传统集成方法不同点是?
  • 在所提出的方法中使用多个 CLS tokens有哪些优点?
  • GLUE 和 SuperGLUE 数据集上的实验结果
  • 总结
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档