首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MIT再出王炸!全新自学习AI框架PRefLexOR:让AI像人一样深度思考,自主进化!

MIT教授Markus J. Buehler团队提出了全新自学习AI框架PRefLexOR,一个能够像人类一样进行深度思考和自主进化的AI框架!

具体来说Markus教授团队训练了一个图原生人工智能,然后让它进行了数天的推理,自行形成了一个动态关系世界模型--无需预先编程。新出现的枢纽、小世界特性、模块化和无标度结构自然而然地产生了。然后,该模型利用了组合推理,并从深度合成中发现了未编码的特性: 具有记忆的材料、微生物修复、自进化系统。以下是一个视频演示,视频展示了它的展开过程

paper:

https://arxiv.org/pdf/2502.13025

下面我给大家划个重点:

PRefLexOR:基于偏好的递归语言建模,用于探索性推理优化和自主思考

PRefLexOR(基于偏好的递归语言建模,用于探索性优化推理),这是一种将偏好优化与强化学习(RL)概念相结合的框架,使模型能够通过迭代的推理改进自我学习。PRefLexOR 的核心是思考令牌,它们明确地标记模型输出中的反思推理阶段,使模型能够递归地进行多步推理、回顾和改进中间步骤,最终生成最终输出。

PRefLexOR 的基础是优势比偏好优化(ORPO),在这种方法中,模型通过优化偏好响应和非偏好响应之间的对数优势比来学习使其推理与人类偏好决策路径相一致。通过直接偏好优化(DPO)的集成进一步提升了模型性能,使用拒绝采样来精细调整推理质量,确保偏好对齐的细微差别。ORPO 和 DPO 之间的这种混合方法类似于 RL 的关键方面,其中模型不断根据反馈进行指导,以改进决策和推理。 主动学习机制使 PRefLexOR 能在训练过程中动态生成新的任务、推理步骤和被拒绝的答案。这一适应性过程使模型能够边学边教,并通过实时反馈和递归处理不断改进

方法

PRefLexOR方法与传统方法不同,不依赖于预先生成的数据集;相反,它会动态生成新的任务、推理步骤和反馈,使模型能够实时不断适应和改进。在思考令牌框架内的递归优化引入了迭代反馈循环,模型通过这些循环不断细化其推理,类似于 RL 中的策略细化,从而实现更深层次的一致性、连贯性和适应性。通过反馈驱动的学习进行递归优化推理,PRefLexOR 在处理复杂任务方面获得了显著的灵活性,能够自主学习和进化其认知能力

这种框架通过证明模型可以迭代地自我教学,以更深层次和反思性的方式进行推理,推动认知对齐领域的发展,类似于一种基于 RL 的自我改进系统,能够解决具有更优推理深度和逻辑性的开放域问题

实例演示

实现简单明了,可以轻松集成到任何现有的预训练模型中。 例如在材料设计领域,PRefLexOR 通过从随机文本生成问题,并利用检索增强生成(RAG)从整个语料库中检索上下文相关数据,构建了一个动态知识图谱,通过嵌入空间中相似节点的复杂交互实现递归推理

生成材料信息学工作流和设计原则的示例

A:信息转化为知识和可操作结果的过程。每一条单独的信息(左侧)被整合成一个相互连接的知识网络,从而做出明智的决策和创新设计(右侧)

B:传统材料科学方法依赖于数据驱动模型、偏微分方程(PDE)和实验结果,专注于单步预测

C:相比之下,基于本文提出的 PRefLexOR 框架构建的生成材料信息学模型通过引入迭代推理和上下文理解,明确地进行“思考”和“反思”,从而实现更复杂的多步预测。这种方法从单一推理步骤扩展开来,包括多种数据和响应模式,整合了实际反馈和物理原理,并利用自我评估和自我学习。 使用强化学习(RL)原理,通过借鉴生物范式并采用生物启发的神经网络设计,进一步启发发现原理或解决特定任务。这些先进方法支持材料预测的持续改进,使设计更加适应和智能

其中PRefLexOR 递归推理算法实现:利用微调的推理模型和通用批评模型进行迭代的方法,以生成、精炼并可选地整合响应。该过程包括生成初始响应、提取反思、改进思维过程,并基于精炼的思维创建新响应,可选地包含最终整合步骤。该算法依赖于提取思维过程(通过 <|thinking|>...<|/thinking|> 指示)和反思过程(通过 <|reflect|>...<|/reflect|> 指示)。使用特殊标记使我们能够轻松构建此类代理建模,因为它便于暂停推理、改进策略并重新生成改进的答案。采样的响应可以以最终状态使用,也可以整合到一个综合响应中,展示科学过程中的丰富方面

参考:

⭐星标AI寒武纪,好内容不错过⭐

用你的赞和在看告诉我~

求赞

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OCWIUVVWYNkC5yusX_tIKOHg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券