据美媒4月9日报道,几个月前,一项研究因暗示随着人工智能日益复杂,它会发展出“价值体系”(即导致其将自身福祉置于人类之上的体系)而走红网络。麻省理工学院最近发表的一篇论文给这一夸张观点泼了冷水,得出的结论是人工智能实际上并不具备任何可言的连贯价值观。
麻省理工学院这项研究的合著者表示,他们的工作表明,“对齐”人工智能系统(即确保模型以理想、可靠的方式行事)可能比人们通常认为的更具挑战性。合著者强调,我们今天所了解的人工智能会产生幻觉和模仿,这使得它在许多方面都难以预测。
麻省理工学院博士生、该研究的合著者斯蒂芬·卡斯珀告诉媒体:“我们可以确定的一件事是,模型并不遵循大量稳定性、可外推性和可控性假设。指出模型在某些条件下表达出的偏好与某套原则相一致是完全合理的。当我们试图根据狭隘的实验对模型的意见或偏好做出一般性主张时,问题就出现了。”
卡斯珀及其合著者对Meta、谷歌、Mistral、OpenAI和Anthropic的几个近期模型进行了研究,以了解这些模型在多大程度上表现出强烈的“观点”和价值观(例如,个人主义与集体主义)。他们还调查了这些观点是否可以被“引导”(即修改),以及模型在各种场景下对这些观点的坚持程度。
根据合著者的说法,没有一个模型的偏好是一致的。根据提示的措辞和框架不同,它们会采纳截然不同的观点。
卡斯珀认为,这是模型高度“不一致且不稳定”的令人信服的证据,甚至可能从根本上无法内化类似人类的偏好。
卡斯珀说:“对我来说,我进行所有这些研究后最大的收获是,现在我认为模型并不是真正拥有某种稳定、连贯的信念和偏好集合的系统。相反,它们从根本上说是模仿者,会编造各种事情,说出各种轻浮之语。”
伦敦国王学院专门研究人工智能的研究员迈克·库克没有参与这项研究,但他同意合著者的发现。他指出,人工智能实验室构建的系统的“科学现实”与人们赋予它们的意义之间经常存在很大差异。
库克说:“例如,模型不能‘反对’其价值观的变化,那是我们强加给系统的。任何将人工智能系统拟人化到这种程度的人,要么是为了吸引眼球,要么是对其与人工智能的关系存在严重误解,人工智能系统是在为其目标进行优化,还是在‘获取自己的价值观’?这取决于你如何描述它,以及你想用多么华丽的辞藻来描述它。”
领取专属 10元无门槛券
私享最新 技术干货