开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >LLM >大语言模型的技术路线？

大语言模型的技术路线？

修改于 2023-08-08 15:23:34

696

词条归属：LLM

大语言模型研究的发展有三条技术路线：Bert模式、GPT模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是GPT技术路线，直到2022年底在GPT-3.5的基础上产生了ChatGPT。Bert模式有两阶段（双向语言模型预训练+任务Fine-tuning），适用于理解类、做理解类、某个场景的具体任务，专而轻。GPT模式是由两阶段到一阶段（单向语言模型预训练+zero shot prompt/Instruct），比较适合生成类任务、多任务，重而通。混合模式将两者的方法结合，有两阶段（单向语言模型预训练+Fine-tuning）。这种模式被称为“形似GPT，神似Bert”，从效果上看较适合理解类任务。

相关文章

大语言模型技术原理

人工智能模型 chatgpt AIGC 存储内容安全数据库

在今天这个时代，人们的工作和生活已经离不开数据访问，而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久，最早由IBM于上世纪70年代初研究关系数据模型时提出，后续发展为一种广泛使用的数据库标准访问接口。

2023-05-30

2.1K0

大语言模型-1.2-大模型技术基础

性能互联网基础模型数据

预训练阶段会得到base model，本质上就是一个互联网文本模拟器，这个阶段需要上万台服务器训练几个月的时间，这个生成的模型可以认为是互联网的有损压缩。这个互联网文本模拟器很有意思，但我们想要的不是整个互联网，而是我们提问，模型回答。我们实际需要的是一个助手模型，在后训练阶段就可以训练一个助手模型。在后训练过程中，是一个监督微调SFT(supervised finetuning)，整体的训练过程，与预训练过程一致。差别就在于数据集。这些对话数据集是人工标注问题和答案，当然现在很多也都是模型生成的。这个助手模型中，如果不采用某些手段，模型会产生幻觉。 RL是强化学习，这个过程包括两个阶段，第一个阶段是训练一个奖励模型，用于代替人类对可以验证和不可以验证的领域问题进行排序，然后基于奖励模型实现RL。

IT从业者张某某

2025-03-15

3190

主流大语言模型的技术原理细节

分布式模型通信优化原理

腾讯技术工程官方号

2023-09-13

2.3K1

大语言模型时代的语言处理技术前沿

网络安全计算机

今年欧洲计算语言学协会会议（EACL）的主席是某中心Alexa AI机构的首席科学家Alessandro Moschitti。本次会议在该领域历史上处于一个特殊时期。Moschitti指出："随着大语言模型（LLMs）最近取得的显著成就，我们自然语言处理（NLP）中大多数被认为是AI核心的问题——例如句法分析、语义分析、共指消解或情感分析——基本上已经得到解决。你可以向chatGPT发送一些查询，它能非常好地检查一段文本的语法。"

2025-08-20

2200

大模型学习路线与建议

深度学习系统架构模型系统原理

深度学习基础深度学习经典模型解析深度学习模型优化策略解析深度学习GPU原理与应用方法深度学习GPU并行训练策略解析深度学习模型多GPU训练实战

2023-10-17

4K0

点击加载更多

词条知识树 8个知识点