首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
技术百科首页 >LLM >常见的大语言模型?

常见的大语言模型?

词条归属:LLM

目前比较常见的大语言模型有以下几种:

GPT系列

GPT(Generative Pre-trained Transformer)是由OpenAI推出的一系列大型预训练语言模型。其中最新的版本是GPT-3,拥有1750亿个参数,可以生成高质量的自然语言文本。

BERT系列

BERT(Bidirectional Encoder Representations from Transformers)是由Google推出的一系列预训练语言模型。BERT的特点是采用双向编码器,可以同时考虑文本的前后内容,从而提高模型的性能。

XLNet

XLNet是由CMU、Google Brain等单位共同推出的一种预训练语言模型。它采用自回归和自编码两种方式进行训练,可以处理更长的文本序列,并在多项自然语言处理任务中取得了优异的性能。

RoBERTa

RoBERTa是Facebook推出的一种预训练语言模型。它在BERT的基础上做了一些改进,如更长的训练时间、更大的训练数据等,从而取得了更好的性能。

相关文章
常见大语言模型解析:技术细节、应用与挑战
文章链接:https://cloud.tencent.com/developer/article/2467252
小说男主
2024-11-21
3230
常见的大模型评测数据集
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
码之有理
2024-01-16
9.3K0
大语言模型-01-语言模型发展历程-03-预训练语言模型到大语言模型
语言模型通常是指能够建模自然语言文本生成概率的模型。 从语言建模到任务求解,这是科学思维的一次重要跃升。 语言模型的发展历程如下:
IT从业者张某某
2025-03-15
4490
Mistral 大语言模型
Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元
霍格沃兹测试开发Muller老师
2024-09-03
1860
大语言模型(LLM)
研究者们发现通过扩大预训练语言模型的参数量和数据量,大语言模型(Large Language Model)能够在效果显著提升的同时,展示出许多小模型不具备的特殊能力(如上下文学习能力、逐步推理能力等)。最近,作为代表性的大语言模型应用ChatGPT展现出了超强的人机对话能力和任务求解能力,对于整个AI研究社区带来了重大影响。01
产品言语
2023-09-09
1.5K0
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券