具身智能这两年成为投资圈的热门话题,也经常有人问浩哥:为什么以前没有“具身智能”这个概念,最近一两年却突然火了起来?
其实,机器人并不是新鲜概念,但之前的机器人基本上都是单一场景、单一任务,而具身智能的目标是多场景、多任务,这是核心差异,有巨大的技术挑战。那么这个挑战为什么今天有机会突破呢?核心原因就在于大语言模型的出现。
大语言模型为机器人带来了两项革命性能力:一是对物理世界的理解能力,二是强大的泛化能力。
具体来说,过去的机器人虽然也有各种传感器,例如深度相机、激光雷达等,可以“看见”甚至“识别”现实世界。举个例子,在家庭环境中,机器人可以看见甚至分辨出这个是地上的垃圾,那个是孩子的玩具。但问题在于:他并不理解这些物体在现实生活中的意义。他不知道垃圾需要清扫,而玩具要收拾好保存起来,下次小孩儿还要玩儿,机器人缺乏一些物理世界的“常识”。
而大语言模型则赋予了机器人理解现实世界和处理复杂事情的能力,相当于给机器人装上了“大脑”。其实判断什么是垃圾,什么不是,这比我们想象中复杂得多。现实生活里,每个人对垃圾的定义都不同,所以经常闹出老婆把老公的宝贝当垃圾扔掉的尴尬。因此这一判断没有绝对标准,意味着具身智能必须具备高级的智能和理解能力,才能适应复杂的现实环境。
第二个关键点是泛化能力。大语言模型的泛化能力大家都很熟悉,比如它能写新闻、也能写作文;即能说汉语,也能说英语,无需专门针对不同的场景、不同的语言和语法进行训练,这就是泛化能力。对应到物理世界,就是“学会拿杯子后,也能自己拿盘子”,不需要对每一个动作都单独教一遍。
当然,在单一场景下,比如我这个机器人就是在工厂里拧螺丝的,这个对泛化能力的要求并不明显。但在家庭、服务等通用场景下,这种能力就变得极其重要。你不能说,我今天教会了机器人拿水杯,明天水杯换成了咖啡杯,它就不会拿了。每换一件物品都要重新训练,这肯定不行。这样的机器人毫无实用性。
总结一下:正是大语言模型赋予了机器人理解和泛化的能力,才让具身智能成为可能,这也解释了为何这两年具身智能突然爆火。至于“具身智能是否一定是人形”?那是另一个有意思的话题,浩哥下次和大家详聊。
关注“浩哥说”,秒懂前沿科技!