前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Llama 3发布,开源社区迎来自己的GPT4模型了吗?

Llama 3发布,开源社区迎来自己的GPT4模型了吗?

原创
作者头像
算法一只狗
发布2024-08-20 19:49:27
1220
发布2024-08-20 19:49:27
举报
文章被收录于专栏:算法一只狗

Meta终于发布Llama 3开源模型,开源社区终于要迎来自己的GPT-4模型了吗?

那到底Llama 3优化了什么地方?真的会有这么强的能力,可以追上GPT4吗?因此,本文初体验了一下Llama 3的能力,带大家深入了解一下新的Llama模型

在线使用

目前想要体验Llama 3模型,有两个网址,一个是Meta自己官方的网址,另一个是huggingchat搭载。

Meta网址

https://www.meta.ai/ 而且像ChatGPT一样,它也可以不需要任何账号就可以与之对话

然而,目前Llama 3不太支持中文回复。幸运的是,它已经在github上公布了开源代码,为开发者提供了训练的基础。可以基于开源代码,打造出中文社区的“GPT4”大模型,让沟通变得更加流畅、生动。

Huggingchat网址

另一个是huggingchat网址:

https://huggingface.co/chat/ 这个网址不需要科学上网,在国内也可以访问

在huggingchat中,模型上可以选择Llama 3进行对话

LLama 3的初体验

数学计算

Q:一个三角形,如果一条边长为4cm,另一条边长为7cm,则第三条边最长可能是多少厘米?(答案为正整数)

Llama 3给出的答案范围是在“3< c < 11”,然后又由于是最长正整数,所以是“10cm”,推理是正确的。

逻辑推理

Q:赵三的父母结婚的时候,为什么没有邀请自己参加

在伦理逻辑上,模型知道了“赵三”是他们的孩子,所以不可能参加他们的婚礼

赵三的父母结婚就意味着他们要结婚了,也就是说赵三是他们的孩子。但如果赵三是他们的孩子,那么他就不能参加自己父母的婚礼了,因为……好吧,他还不存在!

代码能力

Q:利用huggingface调用LLAMA大模型代码。

首先Llama 3会让你安装相关的依赖库:

然后还贴心的给出每个步骤需要干什么,从实现角度看,给出了具体的调用Llama模型主干,但是数据并没有给我们准备,还是不够完整。

网络热梗

但是对于中文的网络热梗是无能为力了,问他关于“花西子币”是什么,直接开始胡说八道了

Llama 3升级了什么能力?

这里总结了Llama 3到底改进了哪些地方:

  • Meta的新版本Llama 3模型在各项指标上均表现出显著提升,特别是在人工评估上,效果优于其他模型
  • Llama 3模型采用decoder-only架构,词汇表扩大至128k,提升了推理效率,并支持输入8k token
  • Llama 3模型的改进在于预训练方法的优化,降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。
  • 在同等参数量大小的情况下,Llama 3的效果远超其他模型,如Gemma和Mistral。
  • Llama 3模型的预训练数据集扩大至15T,覆盖30多中非英语语言,有助于提高模型的多语言应用能力。
  • 目前,Llama 3的400B模型正在训练中,预计将取得更好的效果。

各种数据集上效果提升明显

Meta的新版本Llama的8B和70B模型,对比于旧版本有一个重大的提升。改进了预训练的方法后,新的模型大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。

在上图中,同样规模下经过指令微调的模型,Llama 3比Gemma和Mistral模型在不同数据集上的效果都要好。

同时Meta还开发了一套自己的人类评估集,该评估集包含 1,800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。在这个集合上,对比了Claude Sonnet、GPT-3.5、Mistral等模型,其取得的效果都比其他模型要好。

从上图可以得知,在人工评估上更偏好于Llama3模型的回答。

同时Llama 3在没有经过指令微调,只用其预训练模型就比其他模型的效果要好:

一句话就是,在目前同等参数量大小的情况下,Llama3的效果远超其他模型。并且Meta还说目前正在训练400B的模型,如果到时候也开源了,效果有多炸裂是值得期待的。

模型结构

Llama 3模型还是采用decoder-only架构的transformer进行训练。与Llama 2相比,有以下几个变化:,

  • 词汇表扩大到了128k:更高效地编码语言,从而大大提高了模型性能。
  • 提升推理效率:在8B和70B大小的数据上都采用了分组查询注意力(GQA),来提升推理速度
  • 支持输入8k token

训练数据

  • 预训练数据继续扩大:训练数据上,用了超过15T的token进行预训练,比之前的Llama 2模型的数据集大了7倍
  • 覆盖30多中非英语语言:为了应对未来多语言应用场景的需求,Llama 3预训练数据集的5%以上由高质量的非英语数据组成
  • 利用了Llama 2生成一些高质量的文本数据,来提供给新模型的预训练

Llama 3超大杯正在训练

Meta目前只发布了8B和70B的模型,超大杯400B模型正在训练中。Meta团队把4月15日训练的检查点模型拿出来进行评估,发现已经有较大的提升效果:

这里总结了目前主流模型和这个Llama 3的400B模型的效果对比,可以发现还没有训练好的Llama 3已经与主流的一些大模型在得分上不相上下了,可以期待一波完整版的Llama 3-400B模型。

数据集

Llama3-400B

Claude 3-Opus

GPT4-turbo

Gemini Ultra

MMLU

86.1

86.8

86.5

83.7

GPQA

48.0

50.4

49.1

-

HumanEval

84.1

84.9

87.6

74.4

MATH

57.8

60.1

72.2

53.2

总结

目前Llama 3在很多场景上都有应用,包括也集成了图像生成等多模态技术,生成的图片可以随时分享给你的好友

如果未来,Llama 3真的能够把400B的模型开源出来,那到时候Meta可能才是真正的“OpenAI”

以上就是本期的所有内容了,我是leo,我们下期再见~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在线使用
    • Meta网址
      • Huggingchat网址
      • LLama 3的初体验
        • 数学计算
          • 逻辑推理
            • 代码能力
              • 网络热梗
              • Llama 3升级了什么能力?
                • 各种数据集上效果提升明显
                  • 模型结构
                    • 训练数据
                      • Llama 3超大杯正在训练
                      • 总结
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档