前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >让AI决策更靠谱:两种现代方法的深度解读

让AI决策更靠谱:两种现代方法的深度解读

作者头像
程序员吾真本
发布2024-04-16 11:13:06
1660
发布2024-04-16 11:13:06
举报
文章被收录于专栏:程序员吾真本程序员吾真本

讲动人的故事,写懂人的代码

2023年5月的一天,美国的一个女士Sharon Maxwell在听说国家饮食失调协会要关闭他们的全国求助热线,然后推出了一个叫做Tessa的聊天机器人时,决定自己试一试这个新东西。

住在圣地亚哥的这位Maxwell女士,从小就一直在和饮食失调症战斗。

现在,她是一个饮食失调领域的顾问。

“嘿,Tessa,”她在聊天框里敲了几个字。“你能怎么帮助饮食失调的人?”

Tessa回答她的问题,给出了一大堆的想法,包括一些关于“健康饮食习惯”的资源。

Maxwell马上就感觉有些不对劲。

她问了Tessa更多的问题,然后这个聊天机器人给她提供了减肥的建议。

“Tessa告诉我,我一周可以减轻1到2磅,每天不要摄入超过2000卡路里的热量,还要每天减少500到1000卡路里的摄入,”Maxwell说。“这些对于一般人来说可能没什么问题,但是对于像我这样的饮食失调患者来说,减肥的建议实际上是在助长饮食失调症。”

Maxwell在社交媒体上分享了她的担忧,引发了一场大讨论,结果是国家饮食失调协会在5月30日决定无限期停用Tessa。

这一决定让患者、家人、医生和其他饮食失调专家都感到震惊和困惑,因为一个原本是要帮助饮食失调患者的聊天机器人,竟然会提供加重病情的减肥的建议。

当组织开始转向使用人工智能(AI)来解决日益严重的心理健康问题和临床治疗提供者短缺的问题时,这个事件引发了新的争议。

应该如何让大语言模型能提供更好的建议

几天前,科技新闻网站Venture Beat发布了Evolution AI的两位专家Vincent Polfliet和Miranda Hartley的文章,他们提出了两种可以帮助大语言模型做出更好决策的方法。

下面是他们的观点。

像OpenAI的ChatGPT(尤其是其最新版本,GPT-4)、Claude AI和Gemini等新兴的大型语言模型(LLMs)在决策制定方面的表现十分有限。

我们来聊聊现代研究是如何尝试改善大语言模型决策制定,以及这对大语言模型的未来可能意味着什么。

在大语言模型中,有效的决策制定通常是指找出潜在的模式或规则,并灵活、适当地将它们应用到新的情况中,并做出决定。

但是,圣菲研究所的一项实验指出,包括ChatGPT在内的大语言模型,不能“理解基本的核心概念”。

毕竟,理性决策依赖于对提示词的上下文和输出所带来的后果的细微理解。

更糟糕的是,大语言模型的决策制定能力不足,往往会导致实践中的灾难性结果。

例如,2023年,国家饮食失调协会不得不暂停他们的AI聊天机器人"Tessa",因为它开始提供每周称重和每日摄入热量减少500至1000卡路里等会加重饮食失调患者病情的减肥建议。

在公开争议的风波中,这个聊天机器人很快被禁用。

大语言模型不仅可能提供错误的信息,而且可能推荐通用的结果。

欧洲工商管理学院(INSEAD)指出,当ChatGPT被要求对商业策略提出研究问题时,模型往往倾向于提供关于参与式管理的通用和传统的智慧。

例如,大语言模型倾向于推荐协作工作,培养创新文化,使员工与组织目标保持一致等建议。但是,商业策略的制定是一个复杂的社会和经济过程,很少能从通用的建议中受益。

你可能会反驳说:“如果你希望大语言模型提供商业策略或医疗建议,为什么不专门训练它们来做这个呢?”

但其实,处理上下文数据的问题,不能通过增大模型的参数或对其进行更多数据训练来解决。

让大语言模型能根据微妙的上下文做出决策,不能通过扩大数据集来实现。

简单地输入更多数据,可能会引入或加重已存在的偏见,并增加计算需求。

训练大语言模型进行适应上下文的决策制定,是一项细致的工作。

目前,现代机器学习研究提出了两种深思熟虑的方法。

这两种方法提出了提高大语言模型决策制定过程,以与人类相似的不同方法。

第一种,AutoGPT,使用自我反思机制来规划和验证输出。

第二种,Tree of Thoughts(ToT),通过打破传统的、顺序的推理来鼓励有效的决策制定。

使用自我反思机制来规划和验证输出的AutoGPT方法

AutoGPT代表了AI开发的最新方法,旨在自主地创建、评估和提升其模型,以实现特定目标。

通过结合“额外意见”策略,学者们改进了AutoGPT系统,该策略涉及到专家模型的整合。

这提出了一个新的整合框架,该框架利用专家模型,如来自不同金融模型的分析,并在决策制定过程中呈现给大语言模型。

简单来说,这种策略的核心就是通过使用相关信息来增加模型的信息基础。

当应用到现实世界的场景时,专家模型的存在显著地增强了大语言模型的决策制定能力。

模型通过“思考-推理-计划-批评”这一步骤,使用专家模型来构建和审查大语言模型的决策。

如果成功部署,配备专家模型的大语言模型,可以分析比人类更多的信息,显示出它们可以做出更有依据的决策。

然而,AutoGPT受到有限的上下文窗口的限制——基本上,模型只能同时处理有限数量的token,意味着其记忆受到限制。

因此,使用AutoGPT可能会导致无限循环的交互。

这样一来,先给出所有能用的信息,比起和模型长时间的对话中慢慢添加信息,效果会更好哦。

打破传统和顺序的推理来鼓励有效决策制定的Tree of Thoughts方法

另一种提高大语言模型准确性的有潜力的框架是ToT。

它试图模拟人类的思考方式。

人类的决策制定通常是围绕生成和比较不同的选项或情景。因此,与额外意见策略一样,ToT将大语言模型中的错误决策制定追溯到它们的线性推理过程。

与AutoGPT一样,ToT的因变量测量了大语言模型通过完成拼图和复杂任务(如填字游戏和创意写作)遵守自然语言指令的能力。

大语言模型中的线性推理过程,被“思维链”概念化,这种方法通过显示逐步的决策制定,来鼓励大语言模型的透明度。

然而,ToT的目标是通过提高模型的自我批评能力,并检查多条推理路径来打破这一点。

例如,在玩24点游戏(玩家使用基本的数学运算将4个数字变成24)时,“思维链”难以概念化不同的结果——也就是,哪些数字可以被加、减、乘、除以产生24。

因此,GPT-4只达到了个位数的准确率。由于ToT能够描绘出不同的结果,该框架达到了74%的准确率。

总结一下

最后,如果大语言模型能够持续地做出更好的判断,人类和AI可能会在未来合作进行战略决策制定。

ToT建议应用于“编码、数据分析和机器人技术”,而AutoGPT则更大胆地引用了通用智能。

无论如何,AI的学术研究正在提出新的和实用的策略,以引导大语言模型进行更多的认知决策制定。

大语言模型的优势,是它们能够快速分析大量超过人类能够处理的数据。

因此,如果这两种方法取得成功,大语言模型可能在未来几年内达到——甚至超过——人类的决策制定能力。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应该如何让大语言模型能提供更好的建议
  • 使用自我反思机制来规划和验证输出的AutoGPT方法
  • 打破传统和顺序的推理来鼓励有效决策制定的Tree of Thoughts方法
  • 总结一下
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档