首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
技术百科首页 >LLM >大语言模型的技术路线?

大语言模型的技术路线?

词条归属:LLM

大语言模型研究的发展有三条技术路线:Bert模式GPT模式混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPTBert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类、做理解类、某个场景的具体任务,专而轻。GPT模式是由两阶段到一阶段(单向语言模型预训练+zero shot prompt/Instruct),比较适合生成类任务、多任务,重而通。混合模式将两者的方法结合,有两阶段(单向语言模型预训练+Fine-tuning)。这种模式被称为“形似GPT,神似Bert”,从效果上看较适合理解类任务。

相关文章
大语言模型技术原理
在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。
NineData
2023-05-30
1.9K0
大语言模型-1.2-大模型技术基础
预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。这个互联网文本模拟器很有意思,但我们想要的不是整个互联网,而是我们提问,模型回答。 我们实际需要的是一个助手模型,在后训练阶段就可以训练一个助手模型。在后训练过程中,是一个监督微调SFT(supervised finetuning),整体的训练过程,与预训练过程一致。差别就在于数据集。这些对话数据集是人工标注问题和答案,当然现在很多也都是模型生成的。 这个助手模型中,如果不采用某些手段,模型会产生幻觉。 RL是强化学习,这个过程包括两个阶段,第一个阶段是训练一个奖励模型,用于代替人类对可以验证和不可以验证的领域问题进行排序,然后基于奖励模型实现RL。
IT从业者张某某
2025-03-15
2340
主流大语言模型的技术原理细节
腾讯技术工程官方号
2023-09-13
2.2K1
大语言模型时代的语言处理技术前沿
今年欧洲计算语言学协会会议(EACL)的主席是某中心Alexa AI机构的首席科学家Alessandro Moschitti。本次会议在该领域历史上处于一个特殊时期。Moschitti指出:"随着大语言模型(LLMs)最近取得的显著成就,我们自然语言处理(NLP)中大多数被认为是AI核心的问题——例如句法分析、语义分析、共指消解或情感分析——基本上已经得到解决。你可以向chatGPT发送一些查询,它能非常好地检查一段文本的语法。"
用户11764306
2025-08-20
880
空间数据智能大模型之遥感AI大模型技术路线快览
随着国产卫星的不断发射升空,国内各类型卫星遥感数据资源,包括光学卫星、雷达卫星、多光谱卫星等数据资源的不断丰富,同时伴随着GPT、deepseek等AI技术的快速发展,空间数据智能大模型也迎来了一波建设浪潮,其中遥感AI大模型建设也进入到了新的阶段,以下内容参考《空间数据智能大模型研究--2024 年中国空间数据智能战略发展白皮书》内容,分享关于遥感AI大模型建设的一些技术。
Towserliu
2025-03-21
9180
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券