Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >阿里Qwen2正式开源,性能全方位包围Llama-3

阿里Qwen2正式开源,性能全方位包围Llama-3

作者头像
机器之心
发布于 2024-06-17 06:19:48
发布于 2024-06-17 06:19:48
4670
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:大盘鸡

Qwen 系列会是众多大学实验室新的默认基础模型吗?

斯坦福团队套壳清华大模型的事件不断发酵后,中国模型在世界上开始得到了更多关注。不少人发现,原来中国已经有不少成熟的大模型正在赶超国外。

HuggingFace 平台和社区负责人 Omar Sanseviero 曾表示,AI 社区一直在「忽视」中国机器学习生态系统的工作,他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情,如 Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyuanDiT 等。

今日,阿里云通义千问团队 Qwen2 大模型开源的消息吸引了众多 AI 开发者的目光。Qwen2-72B 性能超过了业界著名的开源模型 Llama3-70B,也超过文心 4.0、豆包 pro、混元 pro 等众多国内闭源大模型。所有人均可在魔搭社区和 Hugging Face 免费下载通义千问最新开源模型。

相比今年 2 月推出的通义千问 Qwen1.5,Qwen2 整体性能实现代际飞跃。而在上海人工智能实验室推出的权威模型测评榜单 OpenCompass 中,此前开源的 Qwen1.5-110B 已领先于文心 4.0 等一众国内闭源模型。可见 Qwen2 的能力更加非凡。

OpenCompass 大模型测评榜单上,此前开源的 Qwen1.5-110B 已领先于文心 4.0 等一众国内闭源模型。

本次 Qwen2 系列包括五种尺寸的基础和指令调优模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

魔搭社区模型下载地址:

  • Qwen2-72B https://modelscope.cn/models/qwen/Qwen2-72B
  • Qwen2-72B-Instruct https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

在先前的 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA(Grouped-Query Attention)。而这一次,Qwen2 系列所有尺寸的模型都使用了 GQA。这让大家能够更加方便地体验到 GQA 带来的推理加速和显存占用降低的优势。针对小尺寸模型,由于 embedding 参数量较大,使用了 Tie Embedding 的方法让输入和输出层共享参数,增加非 embedding 参数的占比。

此外,所有的预训练模型均在 32K tokens 的数据上进行训练,并且研究团队发现其在 128K tokens 时依然能在 PPL 评测中取得不错的表现。然而,对指令微调模型而言,除 PPL 评测之外还需要进行大海捞针等长序列理解实验。在该表中,作者根据大海捞针实测结果,列出了各个指令微调模型所支持的最大上下文长度。而在使用 YARN 这类方法时,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 均实现了长达 128K tokens 上下文长度的支持。

研究团队投入了大量精力研究如何扩展多语言预训练和指令微调数据的规模并提升其质量,从而提升模型的多语言能力。尽管大语言模型本身具有一定的泛化性,他们还是针对性地对除中英文以外的 27 种语言进行了增强,并针对性地优化了多语言场景中常见的语言转换(code switch)问题,使模型当前发生语言转换的概率大幅度降低。使用容易触发语言转换现象的提示词进行测试,观察到 Qwen2 系列模型在此方面能力的显著提升。

性能一览

Qwen2-72B 在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。

大规模预训练后,研究团队对模型进行精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。

研究团队探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的 scalable oversight 等。在训练方面,开发团队结合了有监督微调、反馈模型训练以及在线 DPO 等方法,还采用了在线模型合并的方法减少对齐税。

Qwen2-72B-Instruct 在 16 个基准测试中的表现优异,在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。相比 Qwen1.5 的 72B 模型,Qwen2-72B-Instruct 在所有评测中均大幅超越,并且取得了匹敌 Llama-3-70B-Instruct 的表现。而在小模型方面,Qwen2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的业界最优模型,Qwen2-7B-Instruct 依然能在多个评测上取得显著的优势,尤其是代码及中文理解上。

在代码方面,Qwen2 的研发中融入了 CodeQwen1.5 的成功经验,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助 Qwen2-72B-Instruct 实现了数学解题能力的飞升。

Qwen2 系列中的所有 Instruct 模型,均在 32k 上下文长度上进行训练,并通过 YARN 或 Dual Chunk Attention 等技术扩展至更长的上下文长度。下图展示了其在 Needle in a Haystack 测试集上的结果。值得注意的是,Qwen2-72B-Instruct 能够完美处理 128k 上下文长度内的信息抽取任务

此外,Qwen2 系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct 几乎完美地处理长达 128k 的上下文;Qwen2-57B-A14B-Instruct 则能处理 64k 的上下文长度;而该系列中的两个较小模型则支持 32k 的上下文长度。

自 2023 年 8 月开源以来,通义千问不仅在国内开源社区中影响巨大,更是在全球开源社区中占据重要的位置。今日,Qwen2 系列模型的 API 第一时间登陆阿里云百炼平台。在 Llama 开源生态之外,全球开发者现在拥有了更多的选择。

参考链接:

https://qwenlm.github.io/blog/qwen2/

https://x.com/JustinLin610/status/1798747072319074347

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
坐等许久,Qwen2-72B终于发布了!这个模型一出世,直接杀进开源LLM排行榜第一,完全碾压美国最强的Llama3-70B。
新智元
2024/06/17
5730
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
【机器学习】Qwen2大模型原理、训练及推理部署实战
刚刚写完【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战 ,阿里Qwen就推出了Qwen2,相较于Qwen1.5中0.5B、1.8B、4B、7B、14B、32B、72B、110B等8个Dense模型以及1个14B(A2.7B)MoE模型共计9个模型,Qwen2包含了0.5B、1.5B、7B、57B-A14B和72B共计5个尺寸模型。从尺寸上来讲,最关键的就是推出了57B-A14B这个更大尺寸的MoE模型,有人问为什么删除了14B这个针对32G显存的常用尺寸,其实对于57B-A14B剪枝一下就可以得到。
LDG_AGI
2024/08/13
2.4K0
【机器学习】Qwen2大模型原理、训练及推理部署实战
2024年开源大模型有哪些?这篇文章告诉你
最近,国内外开源大模型一直受到研究者的关注,但是种类比较繁多,就单单今年开源的大模型就有10+以上。
算法一只狗
2024/07/18
2.1K0
2024年开源大模型有哪些?这篇文章告诉你
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位
早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2,阿里的Qwen2-72b-Instruct版本成为这个新排行榜上的第一名。此前,在 OpenLLM Leaderboard1 上阿里的 Qwen2-72b-Instruct 开源之后就一直是第一。可以说,Qwen2目前算是真正的开源大模型国产之光了。
BBuf
2024/07/01
4720
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位
闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香
国内的开发者们或许没有想到,有朝一日,他们开发的 AI 大模型会像出海的网文、短剧一样,让世界各地的网友坐等更新。甚至,来自韩国的网友已经开始反思:为什么我们就没有这样的模型?
机器之心
2024/05/14
2670
闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香
开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型
Llama 3中杯大杯刚惊艳亮相,国内通义千问就直接开源千亿级参数模型Qwen1.5-110B,一把火上Hacker News榜首。
量子位
2024/04/30
2380
开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型
在腾讯云云服务器上推理及微调Qwen2-7B大语言模型
随着人工智能技术的迅速发展,大型预训练模型(LLMs)在各种语言、代码及数学问题解决方面展现出了巨大潜力。Qwen2系列模型的推出无疑为自然语言处理(NLP)和多语言理解带来了新的飞跃。今天,我们将深入探讨如何在腾讯云云服务器上部署和微调2024年6月推出的大型语言模型Qwen2中的Qwen2-7B,探索其强大的代码和数学能力、出色的多语言处理能力,加速您的AI项目进程。
buzzfrog
2024/07/02
1.6K1
在腾讯云云服务器上推理及微调Qwen2-7B大语言模型
如何免费用 Qwen2 辅助你翻译与数据分析?
从前人们有一种刻板印象——大语言模型里好用的,基本上都是闭源模型。而前些日子,Meta推出了Llama3后,你可能已经从中感受到现在开源模型日益增长的威力。当时我也写了几篇文章来介绍这个系列模型,例如这一篇《如何免费用 Llama3 70B 帮你做数据分析与可视化》,很受欢迎。
王树义
2024/06/13
3130
如何免费用 Qwen2 辅助你翻译与数据分析?
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。
机器之心
2024/05/14
3840
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
Qwen 2.5 技术报告发布!其中有什么秘密?
Qwen2.5代表了大型语言模型 (LLM) 开发的重大飞跃。最新版本在前几版的基础上全面改进了预训练和后训练方法。通过利用 18 万亿个 token 的庞大数据集,Qwen2.5 在常识推理、领域专业知识和整体语言理解方面取得了显著进步。
致Great
2024/12/22
5050
Qwen 2.5 技术报告发布!其中有什么秘密?
Qwen为什么没有像 DeepSeek 一样出圈?
其实之前我曾经介绍过Qwen系列模型,它的效果也是堪比GPT-4o模型。在DeepSeek还没有这么火爆之前,我一直认为Qwen模型其实算是开源之光。
算法一只狗
2025/01/30
3420
Qwen为什么没有像 DeepSeek 一样出圈?
AI日报|我国人工智能核心产业规模已达5784亿元!阿里通义Qwen2成斯坦福大模型榜单最强开源模型!
⭐️搜索“可信AI进展“关注公众号,动手做AI Agent书籍,限量免费赠送!快来参与吧~
可信AI进展
2024/06/21
1380
30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总
近两年来,大模型的热度持续高涨,并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展,越来越多的开源大模型涌入市场,进一步推动了上层应用的拓展。
大数据文摘
2024/04/15
1K0
30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总
初识langchain[1]:Langchain实战教学,利用qwen2.1与GLM-4大模型构建智能解决方案[含Agent、tavily面向AI搜索]
大模型三大重点:算力、数据、算法,ReAct (reason推理+act行动)–思维链
汀丶人工智能
2024/07/25
1.5K0
初识langchain[1]:Langchain实战教学,利用qwen2.1与GLM-4大模型构建智能解决方案[含Agent、tavily面向AI搜索]
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
2.9K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama-1、Llama-2和Code-Llama之后的第三代模型,Llama-3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型。
Datawhale
2024/04/24
15.4K0
【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
1.8K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
zenRRan
2024/07/04
5020
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
Qwen2-VL多模态大模型开源了~性能实现代际飞越
前段时间,又被Qwen2-VL开源给刷屏了 。不管是在国内还是国外,阿里的Qwen系列模型都属于开源模型的第一梯队。
算法一只狗
2024/09/14
8770
Qwen2-VL多模态大模型开源了~性能实现代际飞越
Qwen2大模型微调入门实战(完整代码)
Qwen2是一个开源大语言模型。以Qwen2作为基座大模型,通过指令微调的方式实现高准确率的文本分类,是学习大语言模型微调的入门任务。
用户9029617
2024/06/09
3K1
Qwen2大模型微调入门实战(完整代码)
推荐阅读
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
5730
【机器学习】Qwen2大模型原理、训练及推理部署实战
2.4K0
2024年开源大模型有哪些?这篇文章告诉你
2.1K0
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位
4720
闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香
2670
开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型
2380
在腾讯云云服务器上推理及微调Qwen2-7B大语言模型
1.6K1
如何免费用 Qwen2 辅助你翻译与数据分析?
3130
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
3840
Qwen 2.5 技术报告发布!其中有什么秘密?
5050
Qwen为什么没有像 DeepSeek 一样出圈?
3420
AI日报|我国人工智能核心产业规模已达5784亿元!阿里通义Qwen2成斯坦福大模型榜单最强开源模型!
1380
30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总
1K0
初识langchain[1]:Langchain实战教学,利用qwen2.1与GLM-4大模型构建智能解决方案[含Agent、tavily面向AI搜索]
1.5K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
2.9K0
【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
15.4K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
1.8K0
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
5020
Qwen2-VL多模态大模型开源了~性能实现代际飞越
8770
Qwen2大模型微调入门实战(完整代码)
3K1
相关推荐
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文