前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Qwen2.5-Math推理效果 VS OpenAI o1模型

Qwen2.5-Math推理效果 VS OpenAI o1模型

原创
作者头像
算法一只狗
发布2024-09-29 21:01:02
1000
发布2024-09-29 21:01:02
举报
文章被收录于专栏:算法一只狗

9月19日,阿里发布了最新的开源模型Qwen2.5系列。

最新发布Qwen2.5系列中,还有编程专用Qwen2.5-Coder和数学专用Qwen2.5-Math。所有开源模型为稠密、decoder-only,提供多种规模版本。

  • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及72B。

除了3B和72B的版本外,所有的开源模型都采用了 Apache 2.0 许可证。此外,还开源了 多模态大模型Qwen2-VL-72B,这个版本相比上个月,其性能有所增强。

Qwen2.5模型整体优点如下:

  • 模型训练数据集使用了18万亿个token:这使得Qwen2.5在多个数据集上获得效果更好,在MMLU数据集上达85+,同时在编码(HumanEval 85+)和数学(MATH 80+)方面的能力有了很大的提高。
  • 最长支持128K上下文输入,最长输出8K token文本
  • 支持超过29种语言:包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
  • 新推出两个专业化模型,用于编码的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math

最近,各家厂商开始在小语言模型(SLM)发力。在我们的一般认知中,SLM模型对比LLM模型,其效果会差距很大,但是这个差距再慢慢缩小。即使是只有 30 亿个参数的模型现在也能提供极具竞争力的结果。

从上图可以看出来:在 MMLU 中得分高于 65 的新模型越来越小,突显了语言模型知识密度的加速增长。 Qwen2.5-3B 模型更是以最低的参数量,达到了这个分数值。

Qwen2.5-Math模型 VS o1大模型

Qwen2.5系列最让人关注的其实是Qwen2.5-Math,它具有较为强大的数学推理能力。目前实测了一下Qwen2.5-Math模型的效果,在效果上和o1大模型差不多。

这个模型是特定针对数学能力进行推理。但是Qwen2.5-Math模型看起来并不打算蹭o1大模型的热度,林俊旸表示,它像猕猴桃而非草莓,意味着有显著不同,且无基于过程的深度推理能力。

到底Qwen2.5-Math效果怎么样,可以直接拿数学题目给他进行测试。从我测试的效果来看,这个模型的做题思路来看是对的,但是在数字比较大小的时候还是会出错

这里那了2024年高考数学题目给它解答:

先来看看正确的答案是:7/15

由于它支持图片输入,因此直接用图片进行问答:

一开始整个解答过程没有什么错误:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以得到 |𝑎+𝑏−2𝑐|<=3 ,这时候只需要穷举法,讨论每个c的取值,就可以得到每一种情况的概率。

Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。

它在穷举法的时候,在c=1的时候,明明已经得到 −1<=𝑎+𝑏<=5 的等式了,但是在举例(a,b)的值时候,把(2,4),(2,5)这些明明就不满足等式要求的也计算上,导致最后在c=1的时候,得出来有10个满足的值。在c=2、3、4、5、6的时候同样有这些错误。当然最后得到的答案也是错误的

这里有合理怀疑,Qwen2.5-Math模型在遇到长文本生成的时候,由于失去了过多的步骤推理,导致莫名其妙的就会失去模型比较大小的能力。我为什么会得出这个结论呢?是因为在单独问它c=1时候的步骤有没有错误的时候,它是能够纠正出来的

那我们再来看看o1大模型对这个题目的解答:o1模型和千问模型一样,在前面两个步骤上都答对了,且能得出 |||𝑎+𝑏−2𝑐|<=3 这个答案了,但是和千问一样,在穷举法的时候也计算错误了,在计算三个值满足条件的时候,得到的答案是54,与正确答案差了2个值。

但是由于o1大模型得出的步骤和答案离正确答案更加接近,因此从评分上看效果要比Qwen2.5-Math要好一点。但是从这个题目也能看出,两个模型效果都差不多,都在前置步骤上解答对了,但是在穷举的时候比较数字大小出错。

总结

本人还是很看好Qwen模型系列的,而且它还没有加入COT这种推理逻辑大杀器,推理能力上就能够和o1大模型差不多了,期望Qwen3的出现能够超越国外的大模型。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Qwen2.5-Math模型 VS o1大模型
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档