learning札记| 2nd | 以任务为目的的智能体构建 | 纠正智能技术的娱乐化倾向 | 朱松纯大师说AI

用户7623498

发布于 2020-08-04 16:05:07

1.1K0

发布于 2020-08-04 16:05:07

全文下载，公众号回复：20180528

特别说明

朱教授这篇正本清源的综述性文章，建立在大师深厚的数学功底和长期从事机器视觉、机器人等领域研究基础上，将人工智能领域面临的本质问题进行了深入剖析：梳理了目前六大主流方向和其统一化的发展趋势判断，提出了小数据、大任务的认知范式，总结了人工智能走向智能学科所面临的物理学与生物学的统一化问题。

朱教授也批评了当下科研工作的“娱乐化”倾向，肤浅的歌曲流行，大家都能唱，复杂高深的东西大家躲着走。对国人投入大量资源的“刷榜”现象提出了异议，让人振聋发聩。

作者简介

David Mumford教授 [左] [David Mumford，菲尔兹奖、美国国家科学奖章获得者，国际数学家协会前主席]与朱松纯教授

吴英年教授 [左]、顾险峰教授 [中] 与朱松纯教授[右]

朱松纯，男，1968年出生于湖北省鄂州市，全球著名计算机视觉专家，统计与应用数学家、人工智能专家，现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授，UCLA计算机视觉、认知、学习与自主机器人中心主任。

朱松纯于 1996年获美国哈佛大学计算机博士学位，师从国际数学大师大卫·曼福德教授 [David Mumford，菲尔兹奖、美国国家科学奖章获得者，国际数学家协会前主席]，在国际顶级期刊和会议上发表论文200余篇，三次问鼎马尔奖。朱松纯在1990年代率先将概率统计建模与随机计算方法引入计算机视觉研究，提出了一系列图像与视频的结构化解译的框架、数理模型和统计算法，发展了广义模式理论 [General Pattern Theory]。在认知科学领域，如视觉常识推理、场景理解及人工智能等领域做出重要贡献。自2010年以来，朱松纯两次担任美国视觉、认知科学、AI领域跨学科合作项目MURI负责人 [Principal Investigator]，并负责多个美国DARPA项目。朱松纯教授对科研具有很强的前瞻性，选题和方法独树一帜，长期致力于构建计算机视觉、认知科学、乃至人工智能科学的统一数理框架。

研究方向：计算机视觉,统计建模与计算, 机器学习, 认知与AI, 机器人自动化, 视觉艺术。

个人信息：

Mail Address:

8125 Math Sciences Building, Box 951554, University of California, Los Angeles, Los Angeles, CA 90095

Email:

user name: sczhu (at) stat.ucla.edu or cs.ucla.edu

Tel: 310-206-8693

Office: Boelter Hall 9404

个人主页：http://www.stat.ucla.edu/~sczhu/

文章结构

核心观点

人工智能是一个非常广泛的领域

当前人工智能涵盖很多大的学科，我把它们归纳为六个，这些领域目前还比较散，目前它们正在交叉发展，走向统一的过程中。

（1）计算机视觉（暂且把模式识别，图像处理等问题归入其中）

（2）自然语言理解与交流（暂且把语音识别、合成归入其中，包括对话）

（3）认知与推理（包含各种物理和社会常识）

（4）机器人学（机械、控制、设计、运动规划、任务规划等）

（5）博弈与伦理（多代理人agents的交互、对抗与合作，机器人与社会融合等议题）

（6）机器学习（各种统计的建模、分析工具和计算的方法）

各个领域的研究人员看人工智能，如果按照印度人的谚语可以叫做“盲人摸象”，但这显然是言语冒犯了，还是中国的文豪苏轼游庐山时说得有水准：

“横看成岭侧成峰，远近高低各不同。

不识庐山真面目，只缘身在此山中。”

人工智能的一种定义

人工智能的研究，简单来说，就是要通过智能的机器，延伸和增强（augment）人类在改造自然、治理社会的各项任务中的能力和效率，最终实现一个人与机器和谐共生共存的社会。这里说的智能机器，可以是一个虚拟的或者物理的机器人。与人类几千年来创造出来的各种工具和机器不同的是，智能机器有自主的感知、认知、决策、学习、执行和社会协作能力，符合人类情感、伦理与道德观念。

科研的一个现实是走向“娱乐化”

现在科研的一个现实是走向“娱乐化”：肤浅的歌曲流行，大家都能唱，复杂高深的东西大家躲着走。

既然说到这里，我就顺便说说一些竞赛的事情。大约从2008年开始，CVPR会议的风气就被人“带到沟里”了，组织各种数据集竞赛，不谈理解了，就是数字挂帅。中国很多学生和团队就开始参与，俗称“刷榜”。我那个时候跟那些组织数据集的人说（其实我自己2005年是最早在湖北莲花山做大型数据标注的，但我一早就看到这个问题，不鼓励刷榜），你们这些比赛前几名肯定是中国学生或者公司。现在果然应验了，大部分榜上前几名都是中国人名字或单位了。

咱们刷榜比打乒乓球还厉害，刷榜变成咱们AI研究的“国球”。所谓刷榜，一般是下载了人家的代码，改进、调整、搭建更大模块，这样速度快。我曾经访问一家技术很牛的中国公司（不是搞视觉的），那个公司的研发主管非常骄傲，说他们刷榜总是赢，美国一流大学都不在话下。我听得不耐烦了，我说人家就是两个学生在那里弄，你们这么大个团队在这里刷，你代码里面基本没有算法是你自己的。如果人家之前不公布代码，你们根本没法玩。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。

缺乏物理的常识和社会的常识

现在的人工智能和机器人，关键问题是缺乏物理的常识和社会的常识“Common sense”。 这是人工智能研究最大的障碍。那么什么是常识？常识就是我们在这个世界和社会生存的最基本的知识：

（1）它使用频率最高；

（2）它可以举一反三，推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题。

我自2010年来，一直在带领一个跨学科团队，攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告，也被转录成中文了，不久会发表出来。

那么是不是说，我们离真正的人工智能还很遥远呢？其实也不然。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。

理论基础看人工智能的发展历程

第一阶段：前30年以数理逻辑的表达与推理为主。

第二阶段：后30年以概率统计的建模、学习和计算为主。

那么现在开始进入一个什么状态呢？这“春秋五霸”不断扩充地盘和人马，在一个共同平台上开始交互了。比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟机器人开始融合了。

我的判断是，我们刚刚进入一个“战国时期”，以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域，这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵，仅仅是做机器学习就称作人工智能专家，恐怕说不过去。

小数据、大任务范式

我认为智能系统的根源可以追溯到两个基本前提条件：

一、物理环境客观的现实与因果链条。

二、智能物种与生俱来的任务与价值链条。

是什么驱动了模型在空间中的运动，也就是学习的过程？还是两点：

一、外来的数据。

二、内在的任务。

机器人的脑、人脑都可以看成一个模型。任何一个模型由数据与任务来共同塑造。

现在，我们就来到一个很关键的地方。同样是在概率统计的框架下，当前的很多深度学习方法，属于一个被我称作“大数据、小任务范式（big data for small task）”。针对某个特定的任务，如人脸识别和物体识别，设计一个简单的价值函数Loss function，用大量数据训练特定的模型。这种方法在某些问题上也很有效。但是，造成的结果是，这个模型不能泛化和解释。所谓泛化就是把模型用到其它任务，解释其实也是一种复杂的任务。这是必然的结果：你种的是瓜，怎么希望得豆呢？

我多年来一直在提倡的一个相反的思路：人工智能的发展，需要进入一个“小数据、大任务范式（small data for big tasks）”，要用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上，必须有一个思路上的大的转变和颠覆。自然辨证法里面，恩格斯讲过，“劳动创造了人”，这个有点争议。我认为一个更合适的说法是“任务塑造了智能”。人的各种感知和行为，时时刻刻都是被任务驱动的。这是我过去很多年来一直坚持的观点，也是为什么我总体上不认可深度学习这个学派的做法，虽然我自己是最早提倡统计建模与学习的一批人，但是后来我看到了更大的问题和局势。

计算机视觉：从“深”到“暗” Dark, Beyond Deep

被主流（指大多数研究人员）忽视的、但是很关键的研究问题。

一、几何常识推理与三维场景构建。在三维场景中，我们的理解就可以表达成为一个层次分解（compositional）的时空因果的解译图（Spatial，Temporal and Causal Parse Graph）,简称 STC-PG。STC-PG是一个极其重要的概念。

二、场景识别的本质是功能推理。

三、物理稳定性与关系的推理。

四、意向、注意和预测。

五、任务驱动的因果推理与学习。我把这些图像之外的东西统称为“暗物质”--- Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%，剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似：感知的图像往往只占5%，提供一些蛛丝马迹；而后面的95%，包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

我的一个理念是：计算机视觉要继续发展，必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹，结合起来思考，才能到达真正的理解。

视觉研究的未来，我用一句话来说：Go Dark， Beyond Deep --- 发掘暗，超越深。

这样一来，视觉就跟认知和语言接轨了。

认知推理：走进内心世界

人内心的状态，也可以用一个STC-AOG 和STC-PG 来表达的，见下图，大致包含四部分。

一、时空因果的概率“与或图”，STC-AOG。

二、当前的情景situation，由上图的蓝色三角形表示。

三、意向与动作规划图，由上图的绿色三角形表示。

四、当前的注意力，由上图的红色三角形表示。描

我用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人，他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind。

我们要达成共识，共同的知识，然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候，就有社会道德和伦理规范，这都可以推导出来了。俗话说，入乡随俗。当你加入一个新的团体或者社交群体，你可能先观察看看大家都是怎么做事说话的。机器人要与人共生共存必须理解人的团体的社会道德和伦理规范。所以说，这个认识论是机器人发展的必经之道。乌鸦知道人类在干什么，它才能够利用这个在社会里生存。

语言通讯：沟通的认知基础

从生成式模型的角度来看，语言就是视觉，视觉就是语言。

下图就是我提出的一个认知模型。两个人之间至少要表达五个脑袋minds：我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有，对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。

最后，我想谈一点，语言与视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思？就是说图象空间，语言空间，就是一个大集合，全集。我们的每个概念往往是它的一个子集。语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达，而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它，语言肯定用它，认知是它，机器人任务规划也是它。这就是一个统一的表达。

博弈伦理：获取、共享人类的价值观

所谓“人往高处走、水往低处流”说的是社会和物理的两个不同现象，本质完全一致。就是人和水都在按照各自的势能函数在运动！那么驱动人的势能函数是什么呢？

有了价值函数，在一个多人环境中，就有了竞争与合作，形成我们上一节谈到的社会规范、伦理道德。这些伦理、社会规范就是人群在竞争合作之中，受到外部物理环境与因果限制下，达成的暂时的准平衡态。每种平衡态不见得是一个固定的规则，要求大家做同样的规定动作，而是一种概率的“行为的语法”。规则其实就是语法。说到底，这还是一种概率的时空因果与或图STC-AOG的表达。

总结：智能科学 --- 牛顿与达尔文理论体系的统一

以物理学的发展为参考：

（1）物理学的发展就是一部追求物理世界的统一的历史。

（2）物理学把生物的意志排除在研究之外，而这正好是智能科学要研究的对象。

智能科学的复杂之处在于：

（1）物理学面对的是一个客观的世界，当这个客观世界映射到每个人脑中，形成一个主观与客观融合的世界，也就是每个人脑中的模型（这是统计中贝叶斯学派观点）。

（2）物理学可以把各种现象隔离出来研究，而我们一张图像就包含大量的模式，人的一个简单动作后面包含了很复杂的心理活动，很难隔离开。

我们研究的物理与生物系统有两个基本前提：

一、智能物种与生俱来的任务与价值链条。

二、物理环境客观的现实与因果链条。

说到底，人工智能要变成智能科学，它本质上必将是达尔文与牛顿这两个理论体系的统一。