前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Llama3.1技术报告解读

Llama3.1技术报告解读

原创
作者头像
aaronwjzhao
修改2024-07-25 18:18:05
1.4K1
修改2024-07-25 18:18:05
举报
文章被收录于专栏:AI工程落地

模型架构

Llama3.1共开源了8B、70B、405B三种参数量的模型,三个模型具体信息如下图,其中405B除了BF16精度,还有FP8量化版模型,针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。

主要看点总结如下:

1. Llama3.1 405B依然使用decoder-only结构的transformer,没有使用混合专家。

2. 词表大小是128256,和Llama3一样。rope_theta是500000,和Llama3也一样。

3.最大生成上下文长度从Llama3的8192,增加到131072

4. 在语言模型后训练阶段(本文最后面有最新版的Llama训练思路),405B通过监督微调和直接偏好优化等,进一步提升了模型的性能和适应性。监督微调使用大量的人工标注数据来微调模型,使其能够更好地遵循人类的指令和偏好;直接偏好优化则通过学习人类的偏好来优化模型的输出,使其更加符合人类的期望。

5. 对于小参数量模型,Meta使用405B模型去提升小参数量模型的效果。

Llama3.1 模型具体参数(纠正一下图里405B模型的Key/Value Heads数量是16)
Llama3.1 模型具体参数(纠正一下图里405B模型的Key/Value Heads数量是16)

重要:纠正一下图里405B模型的Key/Value Heads数量是16

模型效果

llama3.1模型效果再150多个数据集中进行了测试,同时也进行了人工测试。

实验表明,最大的405B模型与业界最好的闭源模型GPT-4, GPT-4o, and Claude 3.5 Sonnet性能不相上下。

小参数量8B和70B模型与参数量相当的闭源模型也有竞争力。

Llama3.1 405B数据集评测结果
Llama3.1 405B数据集评测结果
Llama3.1 8B/70B数据集评测结果
Llama3.1 8B/70B数据集评测结果
Llama3.1 405B人工评估
Llama3.1 405B人工评估

Llama System

开源了推理系统(meta-llama/llama-agentic-system: Agentic components of the Llama Stack APIs (github.com)

),可以方便的再本地运行Llama,该系统由社区共建。

Llama3训练思路(更新至2024/07/23):

链接: https://pan.baidu.com/s/1XyWmeC4HIP-aY0vDjqbCUg?pwd=h792 提取码: h792

模型下载链接:meta-llama/Meta-Llama-3.1-405B · Hugging Face(名字、公司等信息填写国外的,审核大概需要1-2天)

此外也可以关注,https://github.com/LlamaFamily/Llama-Chinese,Llama3.1的百度云盘地址应该很快就有了。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型架构
  • 模型效果
  • Llama System
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档