在看到某个物体一到两次之后,我们大多数人都能认出来。但支持计算机视觉和语音识别功能的算法却需要接触数千个例子,才能对新的图像或词语变得熟悉。
现在,谷歌DeepMind的研究人员提出了一个解决方法。他们对一个深度学习算法进行了巧妙的改动,使之在接触单个例子之后即能够识别图片中的物体或其他事物——他们将之称为“单样本学习”。该团队在一个大型标签图像数据库中展示了这一功能,还在手写和语言识别中进行了演示。
谷歌DeepMind的研究人员Oriol Vinyals在一个深度学习系统上添加了记忆体组件。该团队在名为ImageNet的标签照片数据库中展示了系统的功能。软件仍然需要分析数百个类型的图片,但在此之后,软件就能在看到一张图片之后识别新的对象——例如一只狗。它可以高效学习识别图片中的特征之处。这种算法仅需看到一个例子,其识别准确率即可与传统的、需要大量数据的系统媲美。
Vinyals表示,如果这种算法可以迅速认识新词语的含义,可能就会大有用处。他认为,这可能对谷歌具有重要意义,因为它可以让系统迅速了解新的搜索词的含义。其他公司也开发了单样本学习系统,但一般与深度学习系统不兼容。2015年的一个学术项目就使用了概率规划技术支持高效的单样本学习。但深度学习系统正在变得越来越强大,在添加记忆体机制后更是如此。谷歌DeepMind的另一个小组最近使用一种灵活的记忆体开发了一个网络,使之可以执行简单的推理任务——例如,在分析若干简单的网络图之后,学会如何导航地铁系统。
韩国大田市韩国高等科技学院的大脑和机器智能实验室负责人Sang Wan Lee表示:“我认为这是一种非常有趣的办法,为在大规模数据集上进行单样本学习开辟了新颖途径。这是对人工智能界的重大技术贡献,计算机视觉研究人员可能会非常重视。”
其他人则对这种方法的实用性表示了怀疑,因为它仍然与人类学习有很大的差距。哈佛大脑科学系副教授Sam Gershman表示,人类一般是通过了解构成图像的元素来学习,而这就需要一些现实知识或者说常识,例如,“两轮平衡车可能看起来和自行车或摩托车有很大区别,但却可能是由相同的部件组成的。”
Gershman和Wan Lee都表示,在机器能达到人类的学习能力之前,还有很长的时间。Wan Lee表示:“我们还远远不足以揭示人类进行单样本学习的奥秘,但这种方案显然值得我们进一步研究。”