让AI决策更靠谱：两种现代方法的深度解读

程序员吾真本

发布于 2024-04-16 11:13:06

2890

文章被收录于专栏：程序员吾真本程序员吾真本

讲动人的故事，写懂人的代码

2023年5月的一天，美国的一个女士Sharon Maxwell在听说国家饮食失调协会要关闭他们的全国求助热线，然后推出了一个叫做Tessa的聊天机器人时，决定自己试一试这个新东西。

住在圣地亚哥的这位Maxwell女士，从小就一直在和饮食失调症战斗。

现在，她是一个饮食失调领域的顾问。

“嘿，Tessa，”她在聊天框里敲了几个字。“你能怎么帮助饮食失调的人？”

Tessa回答她的问题，给出了一大堆的想法，包括一些关于“健康饮食习惯”的资源。

Maxwell马上就感觉有些不对劲。

她问了Tessa更多的问题，然后这个聊天机器人给她提供了减肥的建议。

“Tessa告诉我，我一周可以减轻1到2磅，每天不要摄入超过2000卡路里的热量，还要每天减少500到1000卡路里的摄入，”Maxwell说。“这些对于一般人来说可能没什么问题，但是对于像我这样的饮食失调患者来说，减肥的建议实际上是在助长饮食失调症。”

Maxwell在社交媒体上分享了她的担忧，引发了一场大讨论，结果是国家饮食失调协会在5月30日决定无限期停用Tessa。

这一决定让患者、家人、医生和其他饮食失调专家都感到震惊和困惑，因为一个原本是要帮助饮食失调患者的聊天机器人，竟然会提供加重病情的减肥的建议。

当组织开始转向使用人工智能（AI）来解决日益严重的心理健康问题和临床治疗提供者短缺的问题时，这个事件引发了新的争议。

应该如何让大语言模型能提供更好的建议

几天前，科技新闻网站Venture Beat发布了Evolution AI的两位专家Vincent Polfliet和Miranda Hartley的文章，他们提出了两种可以帮助大语言模型做出更好决策的方法。

下面是他们的观点。

像OpenAI的ChatGPT（尤其是其最新版本，GPT-4）、Claude AI和Gemini等新兴的大型语言模型（LLMs）在决策制定方面的表现十分有限。

我们来聊聊现代研究是如何尝试改善大语言模型决策制定，以及这对大语言模型的未来可能意味着什么。

在大语言模型中，有效的决策制定通常是指找出潜在的模式或规则，并灵活、适当地将它们应用到新的情况中，并做出决定。

但是，圣菲研究所的一项实验指出，包括ChatGPT在内的大语言模型，不能“理解基本的核心概念”。

毕竟，理性决策依赖于对提示词的上下文和输出所带来的后果的细微理解。

更糟糕的是，大语言模型的决策制定能力不足，往往会导致实践中的灾难性结果。

例如，2023年，国家饮食失调协会不得不暂停他们的AI聊天机器人"Tessa"，因为它开始提供每周称重和每日摄入热量减少500至1000卡路里等会加重饮食失调患者病情的减肥建议。

在公开争议的风波中，这个聊天机器人很快被禁用。

大语言模型不仅可能提供错误的信息，而且可能推荐通用的结果。

欧洲工商管理学院（INSEAD）指出，当ChatGPT被要求对商业策略提出研究问题时，模型往往倾向于提供关于参与式管理的通用和传统的智慧。

例如，大语言模型倾向于推荐协作工作，培养创新文化，使员工与组织目标保持一致等建议。但是，商业策略的制定是一个复杂的社会和经济过程，很少能从通用的建议中受益。

你可能会反驳说：“如果你希望大语言模型提供商业策略或医疗建议，为什么不专门训练它们来做这个呢？”

但其实，处理上下文数据的问题，不能通过增大模型的参数或对其进行更多数据训练来解决。

让大语言模型能根据微妙的上下文做出决策，不能通过扩大数据集来实现。

简单地输入更多数据，可能会引入或加重已存在的偏见，并增加计算需求。

训练大语言模型进行适应上下文的决策制定，是一项细致的工作。

目前，现代机器学习研究提出了两种深思熟虑的方法。

这两种方法提出了提高大语言模型决策制定过程，以与人类相似的不同方法。

第一种，AutoGPT，使用自我反思机制来规划和验证输出。

第二种，Tree of Thoughts（ToT），通过打破传统的、顺序的推理来鼓励有效的决策制定。

使用自我反思机制来规划和验证输出的AutoGPT方法

AutoGPT代表了AI开发的最新方法，旨在自主地创建、评估和提升其模型，以实现特定目标。

通过结合“额外意见”策略，学者们改进了AutoGPT系统，该策略涉及到专家模型的整合。

这提出了一个新的整合框架，该框架利用专家模型，如来自不同金融模型的分析，并在决策制定过程中呈现给大语言模型。

简单来说，这种策略的核心就是通过使用相关信息来增加模型的信息基础。

当应用到现实世界的场景时，专家模型的存在显著地增强了大语言模型的决策制定能力。

模型通过“思考-推理-计划-批评”这一步骤，使用专家模型来构建和审查大语言模型的决策。

如果成功部署，配备专家模型的大语言模型，可以分析比人类更多的信息，显示出它们可以做出更有依据的决策。

然而，AutoGPT受到有限的上下文窗口的限制——基本上，模型只能同时处理有限数量的token，意味着其记忆受到限制。

因此，使用AutoGPT可能会导致无限循环的交互。

这样一来，先给出所有能用的信息，比起和模型长时间的对话中慢慢添加信息，效果会更好哦。

打破传统和顺序的推理来鼓励有效决策制定的Tree of Thoughts方法

另一种提高大语言模型准确性的有潜力的框架是ToT。

它试图模拟人类的思考方式。

人类的决策制定通常是围绕生成和比较不同的选项或情景。因此，与额外意见策略一样，ToT将大语言模型中的错误决策制定追溯到它们的线性推理过程。

与AutoGPT一样，ToT的因变量测量了大语言模型通过完成拼图和复杂任务（如填字游戏和创意写作）遵守自然语言指令的能力。

大语言模型中的线性推理过程，被“思维链”概念化，这种方法通过显示逐步的决策制定，来鼓励大语言模型的透明度。

然而，ToT的目标是通过提高模型的自我批评能力，并检查多条推理路径来打破这一点。

例如，在玩24点游戏（玩家使用基本的数学运算将4个数字变成24）时，“思维链”难以概念化不同的结果——也就是，哪些数字可以被加、减、乘、除以产生24。

因此，GPT-4只达到了个位数的准确率。由于ToT能够描绘出不同的结果，该框架达到了74%的准确率。

总结一下

最后，如果大语言模型能够持续地做出更好的判断，人类和AI可能会在未来合作进行战略决策制定。

ToT建议应用于“编码、数据分析和机器人技术”，而AutoGPT则更大胆地引用了通用智能。

无论如何，AI的学术研究正在提出新的和实用的策略，以引导大语言模型进行更多的认知决策制定。

大语言模型的优势，是它们能够快速分析大量超过人类能够处理的数据。

因此，如果这两种方法取得成功，大语言模型可能在未来几年内达到——甚至超过——人类的决策制定能力。

本文系外文翻译，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

LLM

本文系外文翻译，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度