首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | 陈丹琦新作:启发式核心-理解PLM子网络

摘要:之前的研究发现,使用不同随机种子进行微调的预训练语言模型(LMs)可以获得相似的域内性能,但在句法泛化测试中的泛化效果却大相径庭。在这项研究中,我们发现即使在一个模型中,我们也能找到多个子网络,它们在域内in-domain的表现相似,但泛化效果out-of-domain却大相径庭。为了更好地理解这些现象,我们研究了是否可以从 "competing subnetworks "的角度来理解它们:模型最初代表了各种不同的算法,对应于不同的子网络,当最终趋同于一个子网络时,泛化就发生了。这种解释被用来解释简单算法任务中的泛化。我们没有发现相互竞争的子网络,而是发现所有的子网络--无论它们是否泛化--都共享一组注意头,我们称之为启发式核心。进一步的分析表明,这些注意头在训练的早期就出现了,并计算浅层的、非泛化的特征。模型通过加入额外的注意头来学习泛化,这些注意头依赖于 "启发式 "注意头的输出来计算更高层次的特征。总之,我们的研究结果为预训练 LM 的句法泛化机制提供了更详细的描述。

01

读书笔记 之《Thinking in Java》(对象、集合、异常)

一、前言:     本来想看完书再整理下自己的笔记的,可是书才看了一半发现笔记有点多,有点乱,就先整理一份吧,顺便复习下前面的知识,之后的再补上。     真的感觉,看书是个好习惯啊,难怪人家说“书籍是人类进步的阶梯”。之前学知识,喜欢网上找份教程,看点视频,照着做呗,秉着”我做过的东西反正别人肯定玩过“的观念,一通乱学,学的又多又杂,现在细细想来,很多东西我只是学到了它的形,却没有学到它的神,只是在抄别人的代码。为什么这么做?这么写是出于什么考虑?我都一脸懵懂!而现在我喜欢看书,花时间来沉淀自己的知识,与

08

机器学习的跨学科应用——训练测试篇

在机器学习问题中,要求模型执行两个相互矛盾的任务:1. 最小化训练数据集上的预测误差 2. 最大化其对看不见的数据进行泛化的能力。根据模型,损失函数和评估方法的测试方式不同,模型可能最终会记住训练数据集(不良结果),而不是学数据的充分表示(预期结果)。这称为过拟合,通常会导致模型的泛化性能下降。过拟合可能会在各种模型上发生,尽管通常会在较复杂的模型上,例如随机森林,支持向量机和神经网络。 在模型训练期间,请在训练和验证集上观察训练指标,例如您的损失输出和r得分。比如,在训练神经网络时,您可以使用学习曲线在训练过程中跟踪每个周期的验证错误。理想情况下,随着模型的训练,验证和训练误差将会减少,您的训练误差将接近零,但这并不是我们关心的指标!您应该更密切注意验证集的错误。当您的验证错误再次增加而训练错误继续减少时,您可能会记住训练数据,从而过度拟合了数据。 过拟合可能会对模型的泛化能力产生不利的影响。也就是说,为新的和看不见的数据返回不合理的输出预测,从而使测试数据集的效果较差。如果您发现模型非常容易拟合训练数据,请考虑降低模型的复杂度或者使用正则化。

01
领券