首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | Agent-Pro:通过策略级反思和优化学习进化

摘要:大型语言模型对不同的任务表现出强大的解决问题的能力。然而,大多数基于LLM的代理都被设计为具有复杂提示工程的特定任务求解器,而不是能够通过交互学习和进化的代理。这些任务求解器需要手动制作的提示来告知任务规则并调节LLM行为,固有地使其无法解决复杂的动态场景,例如,大型互动游戏。有鉴于此,我们提出了Agent-Pro:一个基于LLM的Agent,具有策略级反射和优化,可以从交互式体验中学习丰富的专业知识,并逐步提升其行为策略。具体而言,它涉及到一个动态的信念生成和反思过程的政策演变。Agent-Pro不是行动层面的反思,而是迭代地反思过去的轨迹和信念,微调其非理性信念,以制定更好的政策。此外,深度优先搜索用于策略优化,确保策略收益的持续增强。代理专业评估两个游戏:二十一点和德州扑克,优于香草LLM和专业模型。我们的研究结果表明,Agent-Pro可以在复杂和动态的场景中学习和发展,这也有利于许多基于LLM的应用程序。

00

超越ToT,苏黎世理工发布新一代思维图GoT:推理质量提升62%,成本降低31%

论文链接:https://arxiv.org/pdf/2308.09687.pdf GoT的关键思想和主要优势在于将LLM生成的信息建模为图(arbitary graph),其中信息单元(思维,LLM thoughts)作为图的顶点,顶点之间的依赖关系作为图的边。 GoT方法可以将任意的LLM思维组合成协同结果,提取出整个思维网络的本质,或者使用反馈回路来增强思维。 通过实验可以证明GoT在不同任务上提供了优于现有技术的优势,例如,与ToT相比,排序任务的质量提高了62%,同时成本降低了31% 研究人员认为,GoT方法可以让LLM推理更接近人类的思维和大脑推理机制,比如二者都在内部形成了复杂的网络结构。 LLM思维(thought)的进化之路 用户与LLM对话的过程主要包括用户消息(提示,prompts)和模型回复(思维、想法,thoughts),其中回复可以是一段文本(摘要任务)、一个文档(生成任务)或是一个代码块等。 为了充分激活语言模型的能力,通常会采用各种提示方法:

04
领券