讲动人的故事,写懂人的代码
2023年5月的一天,美国的一个女士Sharon Maxwell在听说国家饮食失调协会要关闭他们的全国求助热线,然后推出了一个叫做Tessa的聊天机器人时,决定自己试一试这个新东西。
住在圣地亚哥的这位Maxwell女士,从小就一直在和饮食失调症战斗。
现在,她是一个饮食失调领域的顾问。
“嘿,Tessa,”她在聊天框里敲了几个字。“你能怎么帮助饮食失调的人?”
Tessa回答她的问题,给出了一大堆的想法,包括一些关于“健康饮食习惯”的资源。
Maxwell马上就感觉有些不对劲。
她问了Tessa更多的问题,然后这个聊天机器人给她提供了减肥的建议。
“Tessa告诉我,我一周可以减轻1到2磅,每天不要摄入超过2000卡路里的热量,还要每天减少500到1000卡路里的摄入,”Maxwell说。“这些对于一般人来说可能没什么问题,但是对于像我这样的饮食失调患者来说,减肥的建议实际上是在助长饮食失调症。”
Maxwell在社交媒体上分享了她的担忧,引发了一场大讨论,结果是国家饮食失调协会在5月30日决定无限期停用Tessa。
这一决定让患者、家人、医生和其他饮食失调专家都感到震惊和困惑,因为一个原本是要帮助饮食失调患者的聊天机器人,竟然会提供加重病情的减肥的建议。
当组织开始转向使用人工智能(AI)来解决日益严重的心理健康问题和临床治疗提供者短缺的问题时,这个事件引发了新的争议。
几天前,科技新闻网站Venture Beat发布了Evolution AI的两位专家Vincent Polfliet和Miranda Hartley的文章,他们提出了两种可以帮助大语言模型做出更好决策的方法。
下面是他们的观点。
像OpenAI的ChatGPT(尤其是其最新版本,GPT-4)、Claude AI和Gemini等新兴的大型语言模型(LLMs)在决策制定方面的表现十分有限。
我们来聊聊现代研究是如何尝试改善大语言模型决策制定,以及这对大语言模型的未来可能意味着什么。
在大语言模型中,有效的决策制定通常是指找出潜在的模式或规则,并灵活、适当地将它们应用到新的情况中,并做出决定。
但是,圣菲研究所的一项实验指出,包括ChatGPT在内的大语言模型,不能“理解基本的核心概念”。
毕竟,理性决策依赖于对提示词的上下文和输出所带来的后果的细微理解。
更糟糕的是,大语言模型的决策制定能力不足,往往会导致实践中的灾难性结果。
例如,2023年,国家饮食失调协会不得不暂停他们的AI聊天机器人"Tessa",因为它开始提供每周称重和每日摄入热量减少500至1000卡路里等会加重饮食失调患者病情的减肥建议。
在公开争议的风波中,这个聊天机器人很快被禁用。
大语言模型不仅可能提供错误的信息,而且可能推荐通用的结果。
欧洲工商管理学院(INSEAD)指出,当ChatGPT被要求对商业策略提出研究问题时,模型往往倾向于提供关于参与式管理的通用和传统的智慧。
例如,大语言模型倾向于推荐协作工作,培养创新文化,使员工与组织目标保持一致等建议。但是,商业策略的制定是一个复杂的社会和经济过程,很少能从通用的建议中受益。
你可能会反驳说:“如果你希望大语言模型提供商业策略或医疗建议,为什么不专门训练它们来做这个呢?”
但其实,处理上下文数据的问题,不能通过增大模型的参数或对其进行更多数据训练来解决。
让大语言模型能根据微妙的上下文做出决策,不能通过扩大数据集来实现。
简单地输入更多数据,可能会引入或加重已存在的偏见,并增加计算需求。
训练大语言模型进行适应上下文的决策制定,是一项细致的工作。
目前,现代机器学习研究提出了两种深思熟虑的方法。
这两种方法提出了提高大语言模型决策制定过程,以与人类相似的不同方法。
第一种,AutoGPT,使用自我反思机制来规划和验证输出。
第二种,Tree of Thoughts(ToT),通过打破传统的、顺序的推理来鼓励有效的决策制定。
AutoGPT代表了AI开发的最新方法,旨在自主地创建、评估和提升其模型,以实现特定目标。
通过结合“额外意见”策略,学者们改进了AutoGPT系统,该策略涉及到专家模型的整合。
这提出了一个新的整合框架,该框架利用专家模型,如来自不同金融模型的分析,并在决策制定过程中呈现给大语言模型。
简单来说,这种策略的核心就是通过使用相关信息来增加模型的信息基础。
当应用到现实世界的场景时,专家模型的存在显著地增强了大语言模型的决策制定能力。
模型通过“思考-推理-计划-批评”这一步骤,使用专家模型来构建和审查大语言模型的决策。
如果成功部署,配备专家模型的大语言模型,可以分析比人类更多的信息,显示出它们可以做出更有依据的决策。
然而,AutoGPT受到有限的上下文窗口的限制——基本上,模型只能同时处理有限数量的token,意味着其记忆受到限制。
因此,使用AutoGPT可能会导致无限循环的交互。
这样一来,先给出所有能用的信息,比起和模型长时间的对话中慢慢添加信息,效果会更好哦。
另一种提高大语言模型准确性的有潜力的框架是ToT。
它试图模拟人类的思考方式。
人类的决策制定通常是围绕生成和比较不同的选项或情景。因此,与额外意见策略一样,ToT将大语言模型中的错误决策制定追溯到它们的线性推理过程。
与AutoGPT一样,ToT的因变量测量了大语言模型通过完成拼图和复杂任务(如填字游戏和创意写作)遵守自然语言指令的能力。
大语言模型中的线性推理过程,被“思维链”概念化,这种方法通过显示逐步的决策制定,来鼓励大语言模型的透明度。
然而,ToT的目标是通过提高模型的自我批评能力,并检查多条推理路径来打破这一点。
例如,在玩24点游戏(玩家使用基本的数学运算将4个数字变成24)时,“思维链”难以概念化不同的结果——也就是,哪些数字可以被加、减、乘、除以产生24。
因此,GPT-4只达到了个位数的准确率。由于ToT能够描绘出不同的结果,该框架达到了74%的准确率。
最后,如果大语言模型能够持续地做出更好的判断,人类和AI可能会在未来合作进行战略决策制定。
ToT建议应用于“编码、数据分析和机器人技术”,而AutoGPT则更大胆地引用了通用智能。
无论如何,AI的学术研究正在提出新的和实用的策略,以引导大语言模型进行更多的认知决策制定。
大语言模型的优势,是它们能够快速分析大量超过人类能够处理的数据。
因此,如果这两种方法取得成功,大语言模型可能在未来几年内达到——甚至超过——人类的决策制定能力。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。