大语言模型-01-语言模型发展历程-03-预训练语言模型到大语言模型

IT从业者张某某

发布于 2025-03-15 22:01:20

5370

文章被收录于专栏：IT从业者张某某IT从业者张某某

简介

1.1语言模型发展历程

语言模型发展历程

语言模型通常是指能够建模自然语言文本生成概率的模型。从语言建模到任务求解，这是科学思维的一次重要跃升。语言模型的发展历程如下：

神经语言模型（Neural Language Models,NLM）

预训练语言模型（Pre-trained Language Model，PLM）

预训练语言模型是一种在大规模文本数据上进行无监督学习得到的语言模型。它通过学习语言的统计规律、语法结构和语义表示，为各种自然语言处理任务提供强大的基础。

PLM 的重要性

提高效率 传统的自然语言处理方法通常需要针对特定任务进行大量的标注数据和复杂的特征工程。而 PLM 可以通过预训练在大规模数据上学习通用的语言表示，然后在特定任务上进行微调，大大减少了对标注数据的需求和任务特定的工程工作量，提高了开发效率。 提升性能 由于在大规模数据上进行了充分的学习，PLM 能够捕捉到丰富的语言知识和语义信息，从而在各种自然语言处理任务上取得更好的性能表现。例如，在文本分类、命名实体识别、机器翻译等任务中，PLM 已经成为了主流的方法，并不断刷新着性能记录。

PLM 的实现方法

基于 Transformer 架构目前大多数先进的 PLM 都采用了 Transformer 架构，这是一种基于自注意力机制的神经网络架构。Transformer 能够有效地捕捉长距离依赖关系，并且具有并行计算的优势，非常适合处理自然语言这种序列数据。

预训练任务

常见的预训练任务包括语言模型（Language Modeling）、掩码语言模型（Masked Language Modeling）、下一句预测（Next Sentence Prediction）等。语言模型任务是根据给定的上文预测下一个单词，通过这种方式，模型可以学习到语言的统计规律和语义表示。掩码语言模型任务是随机掩盖输入文本中的一些单词，然后让模型预测被掩盖的单词，这可以帮助模型更好地理解上下文信息。下一句预测任务是判断两个句子是否在原文中是连续的，这可以帮助模型学习到句子之间的关系。