首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大语言模型能否和人类一样通过反思不断试错来高效解决新问题?

#人工智能文献分享#【Reflexion: an autonomous agent with dynamic memory and self-reflection】

目前#大型语言模型#(LLM)#智能体#不具备人类决策过程中从错误中学习的能力。自我反思(Reflexion)使人类能够通过试错过程高效地解决新问题。那么,大语言模型能否和人类一样通过反思不断试错来高效解决新问题?

人类在回路(HITL)的方法已经普遍用于提高模型的性能,这种方法在最小的人为干预下实现了性能的提高,但并没有完全自主,因为它依赖人类训练员在每个时间步监控轨迹。目前大型语言模型(LLM)已经显示出高级的人性化特征,使自然语言代理能够以更直观的方式解决任务

论文假设大型语言模型(LLM)具有一种自我反思的特性,能够有效利用基于自然语言的自我优化,如果有机会自主结束试验循环。论文提出了 Reflexion 方法,该方法赋予智能体动态记忆和自我反思能力,以增强其现有的推理轨迹和任务特定的行动选择能力。

第一步,智能体从环境中获得任务,该任务组成了初始查询。第二步,智能体执行LLM生成的一系列动作并接收观察结果。第三步,在每次行动之后,智能体计算启发式h,它可能建议自我反省。如果建议自我反省,智能体会查询LLM以反映其当前任务、轨迹历史和最后奖励(即智能体在二元奖励约束下在给定环境中失败的事实)。然后,智能体重置环境在后续试验中重试。如果不建议进行自我反思,则智能体会将动作和观察结果添加到其轨迹历史和查询LLM的下一步行动。如果超过最大试验次数、未能在两次试验之间提高性能连续试运行或完成任务,则运行终止。要注意的是,要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断

 该方法应用于GPT3和GPT3.5,在AlfWorld和HotPotQA基准上的学习曲线显示,该方法显著优于基准智能体。由于论文提出的反思方法仅依赖于二元奖励模型,因此非常适用于决策和知识密集型任务的试验。在AlfWorld和HotPotQA实验中,论文将奖励模型限制为模仿难以设计或计算信息奖励模型的环境。以后可以将反思方法应用于更复杂的任务,在这些任务中,智能体必须学会发展新的想法、探索更大的状态空间,并通过其经验形成更准确的行动计划。

论文链接:https://arxiv.org/pdf/2303.11366

参考资料:https://zhuanlan.zhihu.com/p/677452632

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOXYBptJyRHG9pFGdrjq6jeQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券