BERT和ALBERT的训练数据损失大，准确率低 - 腾讯云开发者社区

文章/答案/技术大牛

发布

大模型的基础——Bert和ALBERT是什么？

2.2.3 迁移学习方法在有监督的数据集中训练一个模型，然后把训练好的模型迁移到另一个数据集中进行训练学习。这种方法也不需要模型从新训练，但是需要大量的有监督数据集。...同时使用了self-supervised loss（自监督损失函数）关注构建句子中的内在连贯性（coherence ）。实验在GLUE、RACE、SQuAD数据集上取得了最好的效果。...E$的矩阵非常大，从而造成模型参数过大，训练速度减慢。...同时也使用了MLM预测任务和SOP任务。3.4.1 BERT和ALBERT的对比ALBERT-xxlarge的参数量比BERT-large参数量要少，同时它的效果也比BERT的好。...BERT-large和ALBERT-large使用了相同的层数，和相同的embedding大小。参数量确实是ALBERT的少，并且运行速度要更快。

2692 1

谷歌全新轻量级新模型ALBERT刷新三大NLP基准！

其中，来自谷歌的一篇论文引起格外瞩目，该论文提出ALBERT模型，比BERT-large 参数更少，却在GLUE、RACE和SQuAD三大NLP基准测试中取得第一。...ALBERT 又叫 A LITE BERT，顾名思义就是一个轻量级的 BERT 模型。模型大固然效果好，但也超吃资源。训练一次不仅耗时、更费钱。...接下来，我们就来看一下这篇 ICLR 2020 投稿论文，来一探这个神仙模型的究竟。制霸三大基准测试，ALBERT用了两招在训练自然语言表示时，增加模型大小通常会提高下游任务的性能。...SOP 主要聚焦于句子间的连贯，旨在解决原始BERT模型中下一句预测(NSP)损失低效的问题。基于这些设计，ALBERT能够扩展到更大的版本，参数量仍然比BERT-large少，但是性能明显更好。...我们在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果：在 RACE 上的准确率提高到 89.4%，在 GLUE 上的得分提高到 89.4，在 SQuAD 2.0

7211 0

AI绘画场景方案

AI绘画基于高质量的中文图文数据训练，在图片多模表征、多模搜索与生成上达到先进水平

您找到你想要的搜索结果了吗？

是的

没有找到

【NLP】ALBERT：更轻更快的NLP预训练模型

BERT的情况是，E=H；ALBERT的方案是，将E降低，在词嵌入和隐藏层之间加入一个project层，连接两个层。我们来分析一下，两种情况嵌入层的参数量。...如上图所示，展示了ALBERT与BERT不同大小模型的参数量及其在各个数据集的效果。从上面的结果，可以得到一个基本的结论，相比于BERT，ALBERT能够在不损失模型性能的情况下，显著的减少参数量。...ALBERT_xxlarge模型有233M的参数量，其在各个数据集上的表现却能够全面优于有1270M参数的BERT_xlarge模型。...相对于BERT，其训练和推理预测速度提升约10倍，但精度基本保留，语义相似度数据集LCQMC测试集上达到85.4%，相比bert_base仅下降1.5个点。...总结总的来说，ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段，在显著减少了模型的参数量的同时，基本没有损失模型的性能；隐藏层间参数共享能够极大的减少模型参数，对模型训练速度的提升也有一定的帮助

1.3K1 0

谷歌丰田联合成果ALBERT了解一下：新轻量版BERT，参数小18倍，性能依旧SOTA

两个关键架构的更改和一个训练更改的组合使ALBERT的表现都更好，并极大地减少了模型的大小。...在原始的BERT论文中，他们发现更大的隐藏尺寸、更多的隐藏层和更多的注意力头导致了渐进的改进，并测试了多达1024大小的隐藏层。...因此，考虑到这一点，ALBERT的创造者开始改进架构和训练方法，以得到更好的结果，而不是仅仅构建一个“更大的BERT”。什么是ALBERT?...如果你将H和E结合起来，并且NLP需要大V (vocab)，那么你的嵌入矩阵E，实际上是V*E，必须与H(隐藏层)一起扩展，因此你最终得到的模型可以有数十亿个参数，但其中大多数在训练中很少更新。...ALBERT发现删除dropout，增加数据可以提高性能：这个非常符合计算机视觉已经发现的结论，ALBERT的作者报告说，不使用dropout得到了性能提升，当然，使用了更多的数据进行了训练。 ?

5822 0

Bert不完全手册5. 推理提速？训练提速!内存压缩！Albert

在我读Albert论文之前，因为Albert和蒸馏，剪枝一起被归在模型压缩方案，导致我一直以为Albert也是为了优化Bert的推理速度，但其实Albert更多用在模型参数（内存）压缩，以及训练速度优化...在之前BERT等预训练模型中，词向量的维度E和之后隐藏层的维度H是相同的，因为在Self-Attention的过程中Embedding维度是一直保持不变的，所以要增加隐藏层维度，词向量维度也需要变大。...SpanBert的MASK策略，用了LAMB optimizer来加速训练等等，Albert总共放出了以下几种参数的模型，和BERT之间的效果对比如下~ [e28150b7990f5691963fa463a3872f60...直接base和base比，large和large比：参数可以压缩到1/10，适合大家自己跑来玩玩，整体模型大小甚至比一些词表大的词向量模型还要小，训练速度上也有提升但是模型效果都有2个点以上的损失，以及因为层数没变...虽然albert xlarge参数压缩到1/5，但是训练更慢，推理也更慢超越Bert：Albert xxlarge虽然只有12层，但是4倍的隐藏层还是让它的表现全面超越了Bert large，参数压缩到

1.2K6 1

刚刚，Google发布24个小型BERT模型，直接通过MLM损失进行预训练

BERT一出世就带着「狂破11项记录」的光环，用压倒性的参数量暴力突围。可以说，BERT的成功，成就成在模型大。但大，一方面成就了BERT，另一方面也成了它无法被更广泛应用的障碍，这体现在三个方面。...障碍二：太耗时 BERT作者Jacob曾提到「BERT-Large模型有24层、2014个隐藏单元，在33亿词量的数据集上需要训练40个Epoch，在8块P100上可能需要1年」。...ALBERT：通过改变模型架构，极大的降低了体积。最小的ALBERT只有12M，最大ALBERT-XXLarge有233M，而BERT-Base就有110M。...该24个模型使用WordPiece masking进行训练，直接通过MLM损失进行预训练，可以通过标准训练或最终任务提炼针对下游任务进行微调，在MLM蒸馏的更精细的预训练策略方面极具优势。...需要注意的是，本发行版中的BERT-Base模型仅是出于完整性考虑，在和原始模型相同的条件下进行了重新训练。 GLUE分数： ?

1.5K0 0

NLP预训练模型：从transformer到albert

rnn，lstm建模的一次尝试，后续的bert则是大力出奇迹的代表，用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。...来新智元 AI 朋友圈与AI大咖一起讨论吧～语言模型是机器理解人类语言的途径，17年的transformer是语言模型摆脱rnn，lstm建模的一次尝试，后续的bert则是大力出奇迹的代表，用更大的模型和更多的数据将...bert在nlp领域的地位可以类比cv领域的inception或者resnet，cv领域的算法效果在几年前就已经超过了人类的标注准确率，而nlp领域直到bert的出现才做到这一点。...但是xlnet是否真的比bert优秀，这还是一个疑问，xlnet使用了126G的数据进行预训练，相比于bert的13G数据大了一个数量级，在xlnet发布之后不久，bert的改进版roberta使用了160G...albert将token embedding进行了分解，首先降低embedding size的大小，然后用一个Dense操作将低维的token embedding映射回hidden size的大小。

1.3K2 0

模型也可以上网课？手把手教你在query-doc匹配模型上实现蒸馏优化！

Loss计算模型蒸馏的损失函数通常由soft loss和 hard loss两部分组成，soft loss使用MSE计算student logits和teacher logits的距离，使得student...模型可以学到大模型teacher的知识；hard loss为ground truth和student模型输出的hinge loss，从而对teacher的错误知识做一定的纠偏。...此外，为了提升蒸馏模型精度，我们利用加入多维度匹配得分特征训练的更好的下游相关性模型（GBDT）作为额外的teacher指导模型蒸馏（详见第三章第2小节），它的损失我们记为relevance loss(...我们尝试了2L和1L的ALBERT，其latency和精度相比普通BERT结构都有所提升。...考虑到模型训练数据量较大，我们首先对训练数据集进行了采样，只用6%的数据量进行搜索，搜索时长设置为24h(模型全量训练耗时平均23h)，最终获取在采样数据集上搜索得到的最佳配置，再用全量数据进行finetune

3832 0

预训练小模型也能拿下13项NLP任务，谷歌ALBERT三大改造登顶GLUE基准

曾经，预训练是大模型的天下预训练已经促使语言表征学习领域取得了一系列突破。诸多不凡的 NLP 任务，包括那些训练数据有限的任务，都大大受益于这些预训练模型。...如下表 1 和图 1 所示，研究者将 BERT-large 的隐藏层大小增加一倍，该模型（BERT-xlarge）在 RACE 基准测试上的准确率显著降低。 ?...图 1：BERT-large 和 BERT-xlarge 的训练损失（左）和 dev mask 的 LM 准确率（右）。模型增大之后，其 mask LM 准确率降低了，同时没有出现明显的过拟合迹象。...如上所示，ALBERT 相比 BERT 有更高的数据吞吐量，其中最慢的就是 BERT-xLarge，它也作为了基线结果。随着模型越来越大，BERT 和 ALBERT 之间的差别也越来越大。...上述实验都是在 Wikipedia 和 BOOKCORPUS 数据集上进行的，那么，如果增加额外的数据会对结果产生怎样的影响？ ? 图 3a：在训练期间添加额外数据的影响。

7043 0

帮BERT瘦身！我们替你总结了BERT模型压缩的所有方法

大数据文摘出品来源：mitchgordon 编译：大萌、楚阳、钱天培 2018年10月，Google AI团队推出了Bert，可以说Bert一出生就自带光环。...需要16个Cloud TPU），如此高的训练成本让许多想尝试的同学望而却步，并且很难和现在的智能手机兼容。...低秩分解：即将原来大的权重矩阵分解多个低秩的小矩阵从而减少了运算量。这种方法既可以用于标记嵌入以节省磁盘内存，也可以用到前馈层或自注意力层的参数矩阵中以加快模型训练速度。...参数共享：ALBERT是谷歌提出的BERT改进版，其改进之一就是参数共享。全连接层与自注意力层都实现参数共享，即共享了编码器中的所有参数，这样一来，不仅减少了参数量还提升了训练速度。...后期压缩使得训练更快，通常不需要训练数据，而训练期间压缩可以保持更高的准确性并导致更高的压缩率。论文列表和结果对比还有针对论文的贴心分类，下图拿好不谢? ?

1.2K3 0

【NLP实战】基于ALBERT的文本相似度计算

作者&编辑 | 小Dream哥 1 ALBERT介绍 ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段，显著减少了模型的参数量的同时，基本没有损失模型的性能。...和ROBERTA，基于BERT4KERAS可以快速的使用这些模型，也能够快速的实现对BERT改进的想法。...1）构建模型，加载ALBERT预训练模型 # 加载预训练模型 bert = build_bert_model( config_path=config_path, checkpoint_path=checkpoint_path...总结 ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段，显著减少了模型的参数量的同时，基本没有损失模型的性能，是一个不错的工作。...(3) NLP预训练模型。基于海量数据，进行超大规模网络的无监督预训练。具体的任务再通过少量的样本进行Fine-Tune。这样模式是目前NLP领域最火热的模式，很有可能引领NLP进入一个全新发展高度。

4.5K2 0

广告行业中那些趣事系列6：BERT线上化ALBERT优化原理及项目实践(附github)

摘要：BERT因为效果好和适用范围广两大优点，所以在NLP领域具有里程碑意义。实际项目中主要使用BERT来做文本分类任务，其实就是给文本打标签。...因为原生态BERT预训练模型动辄几百兆甚至上千兆的大小，模型训练速度非常慢，对于BERT模型线上化非常不友好。本篇研究目前比较火的BERT最新派生产品ALBERT来完成BERT线上化服务。...具体的效果如下图所示：图7 使用共享参数对模型参数量和效果的影响当映射到低维空间E=768时，对比不共享参数和共享FFN层的参数可以看出，参数减少了近50%，这也是导致模型效果下降的主要原因。...具体脚本和代码修改就是上面说的两个文件，有需要的小伙伴自取。这里需要注意的是原来的数据文件是tsv格式，我这边是csv格式，数据输入有点点不同，模型其他的都没动。...，有效提升模型训练过程中内存的利用率，提升了模型的效率，减少了训练数据的规模。

3432 0

深度学习进阶篇-预训练模型4：RoBERTa、SpanBERT、KBERT、ALBERT、ELECTRA算法原理模型结构应用场景区别等详解

其改进了BERT很多的预训练策略，其结果显示，原始BERT可能训练不足，并没有充分地学习到训练数据中的语言知识。...图片图4 RoBERTa预训练数据集图5展示了RoBERTa随着训练数据增加和训练步数增加的实验效果，显然随着两者的增加，模型在down-stream的表现也不断提升。...但是 BERT 的高内存消耗边际收益并不高，如果继续增大 BERT-large 这种大模型的隐含层大小，模型效果不升反降。...ALBERT 的配置类似于 BERT-large，但参数量仅为后者的 1/18，训练速度却是后者的 1.7 倍。...4.1.ALBERT模型结构ALBERT 架构的主干和 BERT 类似，都使用了基于 GELU 的非线性激活函数的 Transformer。但是其分别在两个地方减少了参数量。

1.4K0 0

那些BERT模型压缩方法（一）

1.1.1 损失函数设计预训练的损失函数由三部分构成：蒸馏损失：对Student和Teacher的logits都在高温下做softmax，求二者的KL散度有监督任务损失：在这个预训练问题中就是...在训练过程中使用了动态掩码、大batchsize，然后没有使用next sentence objective（和Roberta一样）。...训练数据和原始的Bert训练使用的一样，但是因为模型变小所以节省了训练资源。...[1] 2.1 矩阵低秩分解**(对Embedding Table进行分解) ALBERT中使用和BERT大小相近的30K词汇表。...由于进行矩阵低秩分解、共享参数并不会对模型效果产生太大影响，那么就可以增加ALBERT的参数量，使其使用小于BERT-large的参数量、但达到更好的效果。

1K1 0

别再蒸馏3层BERT了！变矮又能变瘦的DynaBERT了解一下

对于BERT这类大模型来说，也有部署在终端的需求，但考虑到设备的运算速度和内存大小，是没法部署完整版的，必须对模型进行瘦身压缩。...低轶近似／权重共享：低轶近似是用两个更小的矩阵相乘代替一个大矩阵，权重共享是12层transformer共享相同参数。这两种方法都在ALBERT中应用了，对速度基本没有提升，主要是减少了内存占用。...这两种方法都是同时对速度和内存进行优化。蒸馏：训练时让小模型学习大模型的泛化能力，预测时只是用小模型。比较有名的工作是DistillBERT[2]和TinyBERT[3]。...在消融实验中，作者发现在加了rewiring机制后准确率平均提升了2个点之多： 3 结论本篇论文的创新点主要在于Adaptive width的训练方式，考虑到后续的裁剪，作者对head和neuron进行了排序...另外，ALBERT相比原始BERT其实更适合浅层Transformer，也可以作为之后的尝试方向。

1.3K2 0

最简单的模型轻量化方法：20行代码为BERT剪枝

目前业界上主要的轻量化方法如下：蒸馏：将大模型蒸馏至小模型，思路是先训练好一个大模型，输入原始数据得到logits作为小模型的soft label，而原始数据的标签则为hard label，使用soft...label和hard label训练小模型，旨在将大模型的能力教给小模型。...我们团队对这些轻量化方法都进行了尝试，简单总结如下：蒸馏：可以很好地将大模型的能力教给小模型，将12层BERT蒸馏至2层BERT，可以达到非常接近的效果。但这种方法需要先训练出一个大模型。...海量的参数加上海量的无监督训练数据，BERT模型取得奇效，但我们在训练我们的下游任务时，是否真的需要这么大的模型呢？ ...99%的准确率~ AL-BERT训练速度起飞，在同等训练数据、模型层数、维度基本等同的前提下，1层AL-BERT 1.5小时即可收敛，而1层BERT模型需要4个小时！

7.3K1 0

【论文阅读】ALBERT:A lite BERT for self-supervised learning of language representations

模型进行简化之后的ALBERT ---- 前言在 BERT 提出之后，各种大体量的预训练模型层出不穷，在他们效果不断优化的同时，带来的是巨大的参数量和漫长的训练时间。...当然对于这个问题，也有大量的研究。ALBERT是谷歌在 BERT 基础上设计的一个精简模型，主要为了解决 BERT 参数过大、训练过慢的问题。...图片从实验数据来看，与同等级的 BERT 模型相比，ALBERT 确实更为轻量，在保证一定准确度的同时，训练速度大大提高。...原本 NSP 是来预测一个句子是不是另一个句子的下一个句子。这个任务的问题出在训练数据上面，正例就是用的一个文档里面连续的两句话，但是负例使用的是不同文档里面的两句话。...确实在很大程度上减少到了模型参数，加快了训练，虽然对于推理时间并没有改进，虽然 xxlarge 版本的参数还是非常大。

5712 0

广告行业中那些趣事系列50：一文看懂BERT知识蒸馏发展进程

BERT，优点在于模型效果很好，但是缺点是模型非常大(基础版本的BERT参数量上亿)，部署到线上推理速度较慢很难满足时延要求。...因为BERT将词向量和encode输出的维度都设置为768维，而encode中包含丰富的语义信息，所以明显存储的信息量比词向量多，所以ALBERT的策略就是采用因式分解的方法把词向量映射到低维空间，这样就能大大降低参数量...量化操作主要是以精度换速度，业界也有尝试在BERT微调阶段进行量化感知训练，使用最小的精度损失将BERT模型参数压缩了4倍。这些量化操作方案很多也是为了将模型移植到移动端进行的优化；知识蒸馏。...DistilBERT的损失函数包括MLM loss、最后一层交叉熵和隐层之间的cosine loss三部分，其中cosine loss主要用于调整老师和学生隐层向量的方向。...，将BERT-base预训练模型作为老师蒸馏得到六层Transformer的学生General TinyBERT模型；第二阶段是微调阶段蒸馏，先将任务相关数据进行样本增强，然后用样本增强之后的数据微调BERT-base

2551 0

原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势

自然语言处理的研究，最早可以说开始于图灵测试，经历了以规则为基础的研究方法，流行于现在基于统计学的模型和方法，从早期的传统机器学习方法，基于高维稀疏特征的训练方式，到现在主流的深度学习方法，使用基于神经网络的低维稠密向量特征训练模型...Albert效果从结果看，相比于BERT，ALBERT能够在不损失模型性能的情况下，显著的减少参数量。...相对于BERT，其训练和推理预测速度提升约10倍，但精度基本保留，语义相似度数据集LCQMC测试集上达到85.4%，相比bert_base仅下降1.5个点。...如何在尽可能少的参数量下，取得和大模型接近的效果，同时训练/预测速度翻倍，是很实际很有价值的课题。...；第二，以BERT为代表的一系列预训练模型得到了广泛应用，体现了大规模语言数据所蕴含的普遍语言规律和知识与具体应用场景巧妙结合的潜力；第三，低资源的NLP任务获得了广泛重视并得到了很好的发展。

1K3 0

按照时间线帮你梳理10种预训练模型

ERNIE的基础上，用大量数据和先验知识，进行多任务的持续学习，诞生了ERNIE2.0 BERT-wwm增加了训练数据集、训练步数，诞生了BERT-wwm-ext BERT的其他改进模型基本考增加参数和训练数据...encoder（GPT用的是decoder，ELMO用的是Bi-LSTM）多任务学习方式训练：预测目标词和预测下一句优点：效果好、普适性强、效果提升大缺点：硬件资源的消耗巨大、训练时间长；预训练用了...「 10.ALBERT 」 ALBERT也是采用和BERT一样的Transformer的encoder结果，激活函数使用的也是GELU。...跨层参数共享（性能轻微降低，参数大量减少) 句间连贯性损失（SOP） 1.对Embedding进行因式分解 BERT中及XLNet和RoBERTa中，词嵌入大小 E 和隐藏层大小 H 相等的，...减少总运算量，是一个复杂艰巨的任务，ALBERT在训练时速度确实提升了，但在预测时仍然和BERT一样。

2.1K5 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云