X君和T君关于通用学习机的对话 - 之三

CreateAMind

发布于 2018-07-24 14:34:43

1880

发布于 2018-07-24 14:34:43

文章被收录于专栏：CreateAMind

http://mp.weixin.qq.com/s/j95RW3QXhQKbEZh9d47UPQ

摘要：

数学家与软件专家，趣聊通用学习机。

图文：X君 T君

X君和T君是老朋友。X君是数学家，对通用学习机比较有心得。T君是物理学家，资深程序员，软件专家。他们已经两次在纽约城谈通用学习机。今天他们通过电话第三次谈通用学习机。

X君

你好啊。现在电话的带宽还可以，我们的谈话很清晰。······ 我们前两次的谈话发表了，微信和Medium上都有，查“关于通用学习机的对话”就可以找到。反应还不错。

T君

看到了。我现在也了解了，这种谈话的方式很有效，可以帮助我们搞清楚很多东西，而且轻松不费力还比较好玩。好的方式就会导致好的结果，此言不虚。我们继续吧。

X君

好。不过，我先对听众的一些反应做一点解释。有这样的反应，说是没有必要和深度学习做对比，仅谈通用学习机就可以了。我的解释是：其实对照着谈，往往比较容易，容易引起话题，听的人也容易懂，因为从熟悉的到比较不熟悉的，正是认识规律之一。许多听众对深度学习多少知道一些，而对通用学习机就完全不知道，做对比可以帮助大家。当然，既然要做对比，就免不了对深度学习做一些负面的评价，这可能带来一下负面影响。这就要请大家理解。

T君

做对比是好方式。

X君

前次我们谈到了X-形式，以及X-形式的实现方式，但是，我们还没有来得及谈学习的更多细节。今天我们就来谈这些吧。

T君

好。先让我来复述。通用学习机里面有X-形式，这是一种数学对象，表达的是学习机怎样处理信息，就是怎样把输入信息变成输出信息，而X-形式可以随着数据的输入而改变，学习机就是通过改变自己内部的X-形式，而达成学习的。

X君

很对。

T君

那么我们现在应该谈X-形式是怎样随着数据的输入而改变的。

X君

正是如此。我们可以先来看看深度学习是怎么做的。如我们前次谈到的，深度学习模型的内部也有X-形式，不过是以非常隐含的方式内嵌在非常高维的欧式空间中的。那么，这个X-形式怎样变动呢？其原理并不复杂，那就是求优化。这是深度学习模型进行学习的基本动力。

T君

我知道这点。但是，还有更多的一些细节吧。

X君

的确，还有很多细节，最重要的是反向传播，就是从结果的误差来推导怎么修改参数，而修改参数就可能改变了内嵌的X-形式（更具体的，可以参考我们的文章《深度学习究竟在干什么？》）。不过，那些应该属于更下一层次的，基本动力就是通过求损失函数的极值来优化参数。也可以说学习的动力学就是在优化参数。

T君

我们清楚了深度学习的最基本动力，那么，通用学习机的最基本动力又是什么呢？能不能像这样仅用一句话就说清楚？

X君

是的，可以仅用一句话，那就是，逐级抽象。

T君

啊，是这样的！我懂了。这和我的想法很合拍。举例来说，我们那个100x100的bitmap中间，有些像素其实组合成某些特征，如团块，边缘等。这些特征，就是像素的上一级的抽象。

X君

而且，这些特征本身上面还有更高级的特征。这样逐级抽象，就可以使得X-形式向一个好的方向变动，这就是学习机制。

T君

那么，深度学习模型是否也有和逐级抽象类似的呢？

X君

不仅有，而且是深度学习获得成功的内在机制。

T君

我是学物理的，对你说的这些，我就不仅在数学或者计算机这种层次来思考，而是想沉到物质这一层次来思考。我想逐级抽象可以用标度变换的理论来理解，比如理论物理中的重整化群。

X君

Bingo！你说到关键点了。其实，大概3年前，就有人写了文章，试图说明深度学习的成功之处正在于它在事实上实现了重整化群。你可以很容易查到这篇文章。我想说的观点是这个：逐级抽象是学习的本质，是学习机特别需要做的。深度学习其实是在不自觉中做到了逐级抽象，这个很好。但是，既然是不自觉的，就会有非常多的遗漏和问题。通用学习机充分认识到逐级抽象的重要性，并且特别对此安排，来制定学习机制，来形成学习动力学，就将做得更好更优秀。我们知道，往往一点进步，就将转变成极为关键的优势，更不要说通用学习机是完全自觉。

T君

我完全相信。但是，究竟怎么实现逐级抽象？好像并不容易。

X君

这是关键，不仅不容易，而且相当难。这里我引用著名认知科学家J·皮亚杰的一段很著名的话：“我们的问题是解释低层次的知识是怎样转化成更高层次的知识”。一切的关键就在于这个低层次到高层次是如何实现的。这是学习机的难题，也是认知科学的难题，更是哲学的难题。

T君

但是，深度学习误打误撞实现了，至少是部分实现了。对吧？

X君

的确，非常正确！现在清楚了，实现的方式就是数据驱动。机器不是人，并没有高度发达的脑，仅有一些简单规则在里面，以及大量的计算能力。要想驱动机器产生由低层次到高层次的抽象，唯一可行的就是用数据来驱动。

T君

这样讲，就应该对用来驱动学习的数据有所要求了？不是任何数据都可以吧？

X君

数据很重要，数据也需要满足一定条件。遗憾的是，现在对数据的要求并没有公认的理论。但是我们已经通过对X-形式的研究，建立了最初步的数据理论。对此我们非常高兴。可以参考“Descriptions of Objectives and Processes of Mechanical Learning”，在arxiv里面，很容易查到。简单说，如果我们期望让深度学习学会某个X-形式，记成X，我们证明了，用对这个X充分包围和充分支持的数据来驱动学习，就一定可以让机器学会这个X。

T君

通用学习机也如此吧。

X君

是的。我们这个证明揭示了深度学习的基本工作原理，当然也是任何学习机的基本原理。但是，可以明确讲，通用学习机可以做得更好，可以更容易做无监督学习，可以使用更少的数据。

T君

是否还可以做得更好一些？比如，设计更聪明的学习方法，使用更少的数据，学得更快？

X君

完全可以这样设想。但是，这里面有非常深奥的理论在，这些理论将规定若干极限，这些极限是科学极限，任谁也跨不过去。这就是说，我们需要把把关于机器的能力的极限搞清楚。这个工作很重要，但是好像目前没有什么人做。举例来说吧，深度学习非常热门，举世通搞之，但是，这些理论工作，如为什么它工作？工作的极限在哪里？数据需要多少？就没有多少人愿意做。因此也就无法改进。

T君

你前次提到“机器认识论”，就是准备做这些方面的工作？

X君

就是啊。我们做了一些初步工作。而且这些初步工作对我们的通用学习机产生了非常好的推动。

T君

太好了。

X君

我们希望不久就可以发表工作的结果。那里面，我们将能够回答一些问题，如：机器可以学习什么，需要什么条件，难度有多大，等等。这些都是现在还没有答案的。当然，可能我们的工作提出的问题比能够解答的更多。

T君

问题多是一个领域正在蓬勃发展的象征，不是坏事。我们说远了一些，还是回到怎样逐级抽象吧。

X君

前面说了，在适当的数据驱动下，X-形式在变动，而具体使得X-形式变动的是两个层次的东西：首先学习策略，其次学习方法。学习策略是需要先定的，如是采用求极值的策略，还是从下面往上面挤的策略，还是从其他方向挤。在选定了策略后，就是具体的方法，例如，如果选定求极值这个策略，就需要考虑若干具体怎么求极值，例如随机梯度下降，或者逐层预学习，等等。

T君

理解。我这里问一下，照你这样说，好像通用学习机也可以做深度学习现在做的事情，如求极值？

X君

完全正确。通用学习机完全可以采用和深度学习同样的策略，如求极值，不过因为通用学习机采用更高效的X-形式的表达，可以做得更好。但是，通用学习机可以做深度学习完全做不到的事情。

T君

是因为采用了更好的策略，不同于求极值？

X君

的确如此。我们发明了更多的策略，而且证明了采用这些策略，在适当的数据驱动下，可以学会任何X-形式。但是，我们认为目前发明的这些学习策略，仅是最初的开端。欢迎大家一起来发明。另外，加一句，这些策略和方法就是先验知识，就是决定学习动力学的基本结构。

T君

学会任何X-形式，所以叫做通用学习机。我很赞赏：欢迎大家一起来发明，发明更高效的策略和方法。

X君

也非常欢迎一起来做理论。搞清楚机器究竟可以学习什么，需要什么条件，什么数据，等等。这些其实都可以联系到物理，对吧？

T君

的确，刚才我们说的，很多都可以联系到物理理论。真的是很丰富的领域啊！

X君

那么，我们对怎样逐级抽象就说得差不多了吧？你知道，还有若干事情暂时还是需要保守一下的。不过，再对学习策略和学习方法多说几句。我们认为，学习方法其实完全可以非常丰富，从概率的，贝叶斯的，纯逻辑推理的，混合的。但是，都需要遵循一个原则：在有效的X-形式的表达上面工作，而且能够做好逐级抽象。因此，这个领域是非常丰富，非常有前途的。

T君

好，今天到此了，我们下次再聊。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-12，如有侵权请联系 cloudcommunity@tencent.com 删除

微信