整理自《视觉求索》微信公众号
作者:
朱松纯 加州大学洛杉矶分校UCLA
统计学和计算机科学教授
视觉、认知、学习与自主机器人中心主任
目录
引言
第一节 现状:正视现实
第二节 未来:一只乌鸦给我们的启示
第三节 历史:从“春秋五霸”到“战国六雄”
第四节 统一:“小数据、大任务”范式与认知构架
第五节 学科一:计算视觉 --- 从“深”到“暗”
第六节 学科二:认知推理 --- 走进内心世界
第七节 学科三:语言通讯 --- 沟通的认知基础
第八节 学科四:博弈伦理 --- 获取、共享人类的价值观
第九节 学科五:机器人学 --- 构建大任务平台
第十节 学科六:机器学习 --- 学习的终极极限与“停机问题”
第十一节 总结: 智能科学 --- 牛顿与达尔文的统一
引言
本文的动机在于三点:
(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。
(2)为那些对人工智能感兴趣、喜欢思考的人们,做一个前沿的、综述性的介绍。
(3)为公众与媒体从业人员,做一个人工智能科普,澄清一些事实。
人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科,归纳为六个:
(1) 计算机视觉(模式识别,图像处理)
(2) 自然语言理解与交流(语音识别、合成,包括对话)
(3) 认知与推理(物理、社会常识)
(4) 机器学习(各种统计的建模、分析工具、计算的方法)
(5) 博弈与伦理(多代理人的交互、对抗与合作,机器人与社会融合等议题)
(6) 机器人学(机械、控制、设计、运动规划、任务规划等)
这些领域目前还比较散,正在交叉发展,走向统一的过程中。最终目标是形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science ofIntelligence。
第一节 现状:正视现实
人工智能:通过智能的机器,延伸和增强人类在改造自然、治理社会的各项任务中的能力和效率。
与人类几千年来创造出来的各种工具和机器不同的是,智能机器有自主感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念。
现在的人工智能和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense”。这是人工智能研究最大的障碍。
第二节 未来:一只乌鸦给我们的启示
鹦鹉有很强的语言模仿能力,你说一个短句,多说几遍,它能重复,这就类似于当前的由数据驱动的聊天机器人。鹦鹉和聊天机器人都不明白说话的语境和语义,也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑。
可是,乌鸦就远比鹦鹉聪明,它们能够制造工具,懂得各种物理的常识和人的活动的社会常识。
乌鸦给我们的启示,至少有三点:
(1) 它是一个完全自主的智能。感知、认知、推理、学习、和执行,它都有。我们前面说的,世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证明了,这个解存在。
(2) 你说它有大数据学习吗?这个乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。
(3) 乌鸦头有多大?不到人脑的1%大小。人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,就实现功能了,根本不需要前面谈到的核动力发电。这给硬件芯片设计者也提出了挑战和思路。
第三节 历史时期:从“春秋五霸”到“战国六雄”
最早一次,兴起是1956-1974,以命题逻辑、谓词逻辑等知识表达、启发式搜索算法为代表。然后进入第一次冬天。
第二次热潮,1980年代初又兴起了,做专家系统、知识工程、医疗诊断等。在80年代末有个短暂的神经网络的研究热潮。随后,人工智能就跌入了近30年的寒冬。其实它当时并没有消失,而是分化了。研究人员分别聚集到五个大的领域或者叫做学科:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。
第三次热潮,就是最近两年兴起的深度学习推动的。
从深一层的理论基础看。我把人工智能发展的60年分为两个阶段:
第一阶段:前30年以数理逻辑的表达、推理为主。他们懂很多认知科学的东西,有很强的全局观念。但是,他们的工具基本都是基于数理逻辑和推理。这些符号的知识表达不落地。
第二阶段:后30年以概率统计的建模、计算为主。在10余年的发展之后,1990年中期都开始找到了概率统计这个新“体制”:统计建模、机器学习、随机计算算法等。
总结:
(1) 早期数理逻辑和推理
(2) 计算机视觉、自然语言理解、认知科学、机器学习、机器人学五大学科独立发展
(3) 在发展壮大的过程中,这些学科都发现了一个新的平台——概率建模和随机计算
(4) 现在开始进入在一个共同平台上开始交互融合
第四节 认知构架:小数据、大任务范式
回到前面乌鸦的例子,我认为智能系统的根源可以追溯到两个基本前提条件:
(1) 物理环境的客观现实、因果链条。任何智能的机器必须理解物理世界及其因果链条,适应这个世界。
(2) 智能物种的任务、价值链条。这个任务是一个生物进化的“刚需”。如个体的生存,要解决吃饭和安全问题,而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数,这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成分的奖惩调制,如多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。
有了这个先天的基本条件(设计)后,下一个重要问题:是什么驱动了模型在空间中的运动,也就是学习的过程?
(1) 外来的数据。外部世界通过各种感知信号,传递到人脑,塑造我们的模型。数据来源于观察和实践。观察的数据一般用于学习各种统计模型,这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。因果与统计相关是不同的概念。
(2) 内在的任务。这就是由内在的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同,我们往往对环境中有些变量非常敏感,而对其它一些变量不关心。由此,形成不同的模型。
第五节 计算机视觉:从“深”到“暗”Dark, Beyond Deep
图像就是一个像素的二维矩阵,可是我们感知到非常丰富的三维场景、行为的信息;你看的时间越长,理解的也越多。
比如,把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态,可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人,到朋友、再到密友等。人类和动物忙忙碌碌,都是在改变各种流态,以提高我们的价值函数(利益)。
感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。
计算机视觉要继续发展,必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,才能到达真正的理解。现在大家都喜欢在自己工作前面加一个Deep,以为这样就算深刻了、深沉了,但其实还是非常肤浅的。不管你多深,不管你卷积神经网络多少层,它只是处理可见的图像表观特征、语音特征,没有跳出那5%,对吧?那些认为深度学习解决了计算机视觉的同学,我说服你了么?如果没有,后面还有更多的内容。
第六节 认知推理:走进内心世界
再往里面走一步,就进入人与动物的内心世界Mind,内心世界反映外部世界,同时受到动机任务的影响和扭曲。
(1) Ta看到什么?知道什么?什么时候知道的?这其实是对视觉的历史时间求积分
(2) Ta现在在关注什么?这是当前的正在执行的任务
(3) Ta的意图是什么?后面想干什么?预判未来的目的和动机
(4) Ta喜欢什么?有什么价值函数?
第七节 语言通讯:沟通的认知基础
纵观人类语言,中国的象形文字实在了不起。所谓象形文字就完全是“明码通讯”。所以,从生成式模型的角度来看,语言就是视觉,视觉就是语言。
第八节 博弈伦理:获取、共享人类的价值观
机器人要与人交流,它必须懂得人类价值观。哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent),他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化。与此对应的是非理性的人。对于理性的人,你通过观察他的行为和选择,就可以反向推理、学习、估算他的价值观。
这个价值观我们把它表达为一个利益函数Utility function,用一个符号U表示。它通常包含两部分:(1)Loss损失函数,或者Reward奖励函数;(2)Cost消费函数。就是说,你做一件事得到多少利益,花费多少成本。我们可以把这个利益函数定义在流态的(fluents)空间里面。我们每次行动,改变某些流态,从而在U定义的空间中向上走,也就是“升值”。由函数U对流态向量F求微分的话,就得到一个“场”。
我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务,还要执行大量的行动去改变环境。
第十节 机器学习:学习的极限和“停机问题”
当前大家做的机器学习,其实是一个很狭义的定义,不代表整个的学习过程。它就包含三步:
(1) 你定义一个损失函数loss function 记作u,代表一个小任务,比如人脸识别,对了就奖励1,错了就是-1。
(2) 你选择一个模型,比如一个10-层的神经网络,它带有几亿个参数theta,需要通过数据来拟合。
(3) 你拿到大量数据,这里假设有人给你准备了标注的数据,然后就开始拟合参数了。
七种学习模式:
(1) 被动统计学习:上面刚刚谈到的、当前最流行的学习模式,用大数据拟合模型。
(2) 主动学习:学生可以问老师主动要数据,这个在机器学习里面也流行过。
(3) 算法教学:老师主动跟踪学生的进展和能力,然后,设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。
(4) 演示学习:这是机器人学科里面常用的,就是手把手叫机器人做动作。一个变种是模仿学习。
(5) 感知因果学习:这是我发明的一种,就是通过观察别人行为的因果,而不需要去做实验验证,学习出来的因果模型,这在人类认知中十分普遍。
(6) 因果学习:通过动手实验,控制其它变量,而得到更可靠的因果模型,科学实验往往属于这一类。
(7) 增强学习:就是去学习决策函数与价值函数的一种方法。
第十一节 总结:智能科学 --- 牛顿与达尔文理论体系的统一
说到底,人工智能要变成智能科学,它本质上必将是达尔文与牛顿这两个理论体系的统一。