首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

能解决通用数学问题的开源大语言模型拥有CoT和PoT两种思维方式

MAmmoTH模型结合了CoT和PoT两种思维方式,使其能够更全面地解决各种数学问题(从基础算术到高等数学)。

在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。

MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练,MathInstruct从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。

01 工作原理

MAmmoTH基于LLaMa 2和Code Llama训练的数学领域的开源LLM,有7B、13B、34B、70B四个版本。

MAmmoTH的工作原理是通过混合指导调优方法,结合两种不同的思维方式,训练模型来解决各种数学问题。

这种方法确保了模型在各种数学领域都有很好的表现,并且在实际应用中也取得了显著的性能提升。

02 混合指导调优

MAmmoTH模型是基于一个名为MathInstruct的指导调优数据集进行训练的。这个数据集结合了两种不同的思维方式:思维链(CoT)和思维程序(PoT)。

1、补充性:CoT和PoT分别代表了两种不同的思维和解决问题的方法。CoT关注于逻辑步骤和思考过程,而PoT更侧重于具体的计算方法和技巧。当这两种方法结合在一起时,它们可以相互补充,提供更全面的解决方案。

2、广泛的问题覆盖:有些数学问题可能更适合使用CoT方法来解决,而其他问题可能更适合使用PoT方法。通过结合这两种方法,模型可以更好地处理各种不同类型的数学问题。

3、深入的理解:在某些情况下,仅仅使用CoT或PoT可能不足以完全理解或解决一个问题。但是,当这两种方法结合在一起时,它们可以提供更深入的洞察和理解,从而更准确地解决问题。

4、增强的泛化能力:结合两种不同的思维方式可以帮助模型更好地泛化到未见过的问题。这是因为模型不仅学习了两种方法的特定技巧和策略,而且还学习了如何在不同的情境下选择和应用这些方法。

5、更强的鲁棒性:在某些复杂的数学问题中,可能需要同时使用CoT和PoT的策略来得到正确的答案。结合这两种方法可以提高模型的鲁棒性,使其在面对这种复杂问题时仍然能够给出正确的答案。

03 广泛的数学领域覆盖

MathInstruct数据集从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。这确保了模型在各种数学领域都有广泛的覆盖,从基础算术到高级数学概念都有涉及。

04 显著的性能提升

由于这种混合的指导调优方法,MAmmoTH系列在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。

特别是,MAmmoTH-7B模型在MATH(一个竞赛级数据集)上达到了35%的准确率,超过了最佳的开源7B模型(WizardMath)25%。而MAmmoTH-34B模型在MATH上达到了46%的准确率,甚至超过了GPT-4的CoT结果。

05 评估数据集

为了评估模型的能力,选择了多种评估数据集,包括GSM8K、MATH、AQuA-RAT、NumGLUE等。这些数据集包括从小学、高中到大学的数学问题。其中一些数据集甚至包括正式逻辑和常识推理。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvgBOw9pHft_43IVvIXLJTeA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券