前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文心、讯飞、ChatGPT大模型横向比较

文心、讯飞、ChatGPT大模型横向比较

作者头像
Dlimeng
发布2024-01-12 08:55:36
2460
发布2024-01-12 08:55:36
举报
文章被收录于专栏:开源心路开源心路

三种大模型的横向比较分析发现,大模型最终的优异表现依赖于模型规模的突破。

通过比较不同规模的大模型,分析发现大模型的强大生成能力主要源自模型的参数量级的飞跃。尽管方法论上大同小异,但参数量的指数级增长是实现质的飞跃的关键所在。“大力出奇迹”可以说是大模型取得辉煌成就的最本质原因。模型越大,所包含的知识量和拟合复杂分布的能力就越强,也就能产生越逼真的生成结果。

文心一言

https://yiyan.baidu.com/
https://yiyan.baidu.com/

文字理解回答能力

3月17日
3月17日
6月6日
6月6日

海报设计 假如你是一名海报设计师,需要给浦发银行设计一个宣传海报。 浦发银行要举办 2023上海半程马拉松,活动时间:2023年3月9日到2023年3月31日;活动内容: 活动期间在上马APP或官网,通过支付宝绑定浦发银行借记卡支付报名费,可享受立减60元优惠

在这里插入图片描述
在这里插入图片描述

社会关系推理

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?

在这里插入图片描述
在这里插入图片描述

讯飞星火

 https://xinghuo.xfyun.cn/
https://xinghuo.xfyun.cn/
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

海报设计

假如你是一名海报设计师,需要给浦发银行设计一个宣传海报。 浦发银行要举办 2023上海半程马拉松,活动时间:2023年3月9日到2023年3月31日;活动内容: 活动期间在上马APP或官网,通过支付宝绑定浦发银行借记卡支付报名费,可享受立减60元优惠

在这里插入图片描述
在这里插入图片描述

社会关系推理

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?

在这里插入图片描述
在这里插入图片描述

ChatGPT

在这里插入图片描述
在这里插入图片描述

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?

在这里插入图片描述
在这里插入图片描述

BERT大模型原理

• 2018年,Google推出了Bert 模型,碾压了以往的所有模型,在各种NLP的建模任务中取得了最佳的成绩 => NLP 领域步入 LLM 时代。

在这里插入图片描述
在这里插入图片描述

BERT采用完形填空作为预训练:

在这里插入图片描述
在这里插入图片描述

空格处填什么字,受到上下文影响Bert的预训练 就是从大规模的上亿文本预料中,随机Mask一部分字,形成上面的完形填空题。通过训练,让模型具备从大量的数据中学习复杂的上下文联系的能力。

ERNIE大模型原理

ERNIE 1.0的改进:

基于phrase (比如短语a series of等)的mask策略基于entity (比如人名,位置,组织,产品等名词比如Tsinghua University, J. K. Rowling)的mask 策略相比于BERT 基于字的mask,在ERNIE 当中,由多个字组成的phrase 或者entity 当成统一单元,统一被mask。这样可以潜在的学习到知识的依赖。

ERNIE 2.0

在ERNIE 2.0 中,提出了一个预训练框架,可以在大型数据集合中进行增量训练,即连续学习(Continual Learning)连续学习的目的是在一个模型中顺序训练多个不同的任务,这样可以在学习下个任务中,记住前一个学习任务学习到的结果。 使用连续学习 => 不断积累新的知识

在这里插入图片描述
在这里插入图片描述

ERNIE 3.0

知识增强的大规模预训练模型结合了自回归网络和自编码网络,这样训练出来的模型就可以通过zero-shot学习、few-shot学习或微调来处理自然语言理解和生成任务用100亿个参数对大规模知识增强模型进行预训练,并在自然语言理解和自然语言生成任务上进行了一系列的实验评估ERNIE 3.0在54项基准测试中以较大的优势胜过最先进的模型,并在SuperGLUE基准测试中取得了第一名。

ERNIE预训练模型:https://github.com/PaddlePaddle/ERNIE

在这里插入图片描述
在这里插入图片描述

GPT大模型原理

GPT 与 BERT的区别: • Bert 使用 Encoder 编码器进行训练,适合文本理解 • GPT 使用 Decoder 解码器,更适合文本生成领域

GPT-1 略逊色于 Bert,当时Bert影响力更大

在这里插入图片描述
在这里插入图片描述

GPT-2 模型: • Bert霸榜NLP之后,又有很多新模型推出,比如:ERNIE, ALBert, BART, XLNET, T5等。 • Bert预训练主要是完形填空,和预测下一个句子。后来很多模型增加了 多个预训练任务句子打乱顺序再排序、选择题、判断题、改错题、甚至把机器翻译、文本摘要、领域问答都放到了预训练任务中=> 模型类似人脑,多种任务:看新闻,听音乐,读古诗,写文章,做数学题等

GPT-3 模型:

  • GPT-3模型参数量是1750亿,计算量是 bert-base的1000倍,在NLP多个任务中表现优秀,比如写SQL语句,JavaScript代码。
  • GPT-3的训练覆盖了STEM、人文科学、社会科学、数学、历史、法律等57门学科。难度从初级到高级专业水平不等。在这个基础上1750亿参数的GPT-3模型达到了43.9%准确率,而130亿参数的模型只有25%的准确率
大力出奇迹,参数量越大,效果越好
大力出奇迹,参数量越大,效果越好
  • Prompt引导学习的方式,在超大模型上有很好的效果:只需要给出one-shot 或者few-shot,模型就能照猫画虎地给出正确答案。

这里10多亿参数的大模型是不行的,1000亿以上参数的模型效果好。

在这里插入图片描述
在这里插入图片描述

我是独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2024-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文心一言
  • 讯飞星火
  • ChatGPT
  • BERT大模型原理
  • ERNIE大模型原理
  • GPT大模型原理
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档