bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。
本质上来说,Transformer就是一个只由attention机制形成的encoder-decoder结构。
对于文本分类任务,一个句子中的N个字符对应了E_1,…,E_N,这N个embedding。文本分类实际上是将BERT得到的T_1这一层连接上一个全连接层进行多分类。
Bert作为强有力的预训练模型,用作下游任务的常见手段包括: (1)作为特征提取器; (2)fine-tune; (3)直接pre-train
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
http://www.chinadatavalley.com/system/2020/04/22/030455155.shtml
笔者准备尝试下百度的https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE,其考虑了中文的词语信息,更适合中文场景,BERT只能进行纯字的embedding在中文场景效果提升有限。
苏剑林大神的预训练简介系列:
pytorch bert:
使用Bert预训练模型文本分类(内附源码)机器之心
如何用 Python 和 BERT 做中文文本二元分类?(王树义老师 google colab)
文本分类大比拼: