【紫冬观点】 刘成林:模式识别背后的人工智能局限

今日聚焦

中科院自动化所刘成林研究员详述了人工智能在目前发展阶段,人脸识别、文字识别等典型问题的研究难点和重点。同时,刘成林指出,人脸识别和文字识别作为典型的模式识别问题,图像清晰度和光照等问题是其共同的难点,深度学习也有其局限性存在。但他也认为,对于AI未来的发展而言,深度学习依然会是人工智能研究的主流,但对抗学习、脑科学、认知科学等的理论方法,都会与其进行融合,共同推进人工智能的发展。

众所周知,人工智能目前的快速发展得益于深度学习的兴起,但在具体应用上,深度学习主要在模式识别(感知智能)中获得成功,同时从智能机理研究上, 脑科学也逐渐跟人工智能深度融合。人工智能领域,正在由感知智能的初步成功,慢慢走向百花齐放。

本文中,刘成林研究员详述了人工智能方兴未艾之时,人脸识别、文字识别等典型模式识别问题的研究难点和重点。

刘成林研究员作报告

人脸识别、文字识别背后的方法,模式识别是什么?

模式识别是什么?

作为人工智能的一个重要方向,模式识别的主要任务是模拟人的感知能力,如通过视觉和听觉信息去识别理解环境,又被称为“机器感知”或“智能感知”。

人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的不同之处,并根据一定目的把相似、但又细节不同的事物或现象组成一类。字符识别就是一个典型的例子,如数字“4”可以有各种写法,但都属于同一类别。人脑具有很强的模式识别和推广能力,即使对于某种不同写法的“4”,以前虽未见过,也能把它分到“4”所属的这一类别。人脑的这种对模式(事物、现象等)进行归类和分类的能力,就是模式识别,也就是感知能力。

随着20世纪40年代电子计算机出现,50年代人工智能兴起,模式识别在20世纪60年代初迅速发展成为一门新学科。21世纪以来,模式识别又逐渐与深度学习融合。近年来,深度学习和大数据的出现推动了模式识别的快速发展。

对此,刘成林解释道,“模式识别是一个智能任务,是人工智能的一种形式。机器学习,包括深度学习是模式识别背后的基本方法,通过学习(训练)使机器具备识别模式的能力。当前,用深度学习的方法来实现模式识别,能更好的解决问题。”

深度学习作为机器学习的一种,是对生物神经网络结构和信息处理机制的简单模拟。人工神经网络早在上世纪40年代就有人研究,50年代和80年代都曾产生较大的影响。近年来,随着计算能力的提升,可以训练层数较多的神经网络(称为深度神经网络)来提升数据拟合和识别能力,有的甚至达到了1000多层。深度学习一般就是指利用深度神经网络来进行学习。

复杂条件下,人脸识别的正确率不到50%

得益于深度学习,目前人脸识别和文字识别都是人工智能领域应用比较成功的方向,可以算是模式识别借助深度学习形成的主要研究成果之一。

但刘成林认为,目前人脸识别、文字识别虽然已应用得较为广泛,但还不能算“应用得很好”。人脸识别目前应用得比较成熟的是门禁、通关等领域,原因在于被识别的对象能主动配合,距离摄像头较近,能拍摄到比较清楚的图像。很多厂商在用户配合、光照可控的场景下人脸识别正确率能达到99%以上。但在更加复杂的情况下,如在室外光照不均、距离远、人脸视角多变情况下,用监控摄像头进行人脸识别,识别正确率就会明显降低。

目前在计算机前端加入AI模块,只能起辅助作用,复杂条件下的人脸识别依旧难以达到成熟应用的程度。刘成林表示,室外自然光照条件下,“人脸识别正确率还达不到50%”。

文字识别领域也是如此。文字识别目前主要应用在书籍和报纸等的数字化上。报纸、金融机构、保险机构以及快递行业的的大量单据,都需要电子化后才能方便检索、管理和进行大数据分析。司法界推行智能法务,办案的文书(有印刷体,也有手写体)需要电子化。医院的病例、教育领域的作业题、考试答卷等,也都有很大的电子化需求。

同人脸识别一样,图像清晰度和光照等问题也是文字识别的一大难点。平板扫描仪由于光照均匀,对纸质材料扫描得到的图像清晰度高,文字识别率较高。而拍照图片的识别率则会降低,室外自然场景图片中的文字检测和识别更是当今研究的热点和难点问题。

对抗学习、脑科学并肩,加速AI进程

要克服人脸识别中低分辨率和光照的问题,深度学习也存在局限,而运用对抗学习的方法来处理图像则能提高其清晰度或生成更多样本。

什么是对抗学习?

对抗学习是一种很新的机器学习方法,由加拿大学者Ian Goodfellow首先提出。对抗学习实现的方法,是让两个网络相互竞争对抗,“玩一个游戏”。其中一个是生成器网络,它不断捕捉训练库里真实图片的概率分布,将输入的随机噪声转变成新的样本(也就是假数据)。另一个是判别器网络,它可以同时观察真实和假造的数据,判断这个数据到底是不是真的。通过反复对抗,生成器和判别器的能力都会不断增强,直到达成一个平衡,最后生成器可生成高质量的、以假乱真的图片。

文字识别领域要解决的问题,除了上文提到的拍照图片、以及手写笔迹的识别,小样本条件下的文字识别,如古籍的识别也是一大挑战,因为用于训练的标记样本不足,深度学习难以取得较高的识别率。

小样本泛化性、自适应性、可解释性、鲁棒性是当前以深度学习为主的模式识别技术的主要局限所在,而这些恰恰是人脑的长处。因此,模式识别可以从脑科学和神经科学上寻找新的借鉴,发展新的类人感知和认知机理的模式识别学习理论与方法。

以泛化能力为例,在训练样本较少时,可以设计与人的记忆方式类似的模型进行训练,使机器记住文字的结构和关键特征,如构成文字的笔画、组合和关系。这种模型叫“生成模型”,可以记住每一类模式的关键特征及分布,并能生成数据,如生成满足一类文字基本结构、细节不同的手写字。生成模型也具有很好的解释性,在识别模式的同时能解释这个模式是由哪几部分构成的,几部分之间是什么关系。

模式识别、深度学习、对抗学习、脑科学……越来越多的人工智能研究路径进入了我们的视野。而对于人工智能发展的未来,刘成林也认为,深度学习依然会是人工智能研究的主流,但对抗学习、脑科学、认知科学等的理论方法,都会与其进行融合,共同推进人工智能的发展。

本文转载自中国科学院自动化研究所

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-10-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

如何在 15 个月内占领 Kaggle 榜首?bestfitting 经验大放送

雷锋网 AI 研习社按:相信玩过 Kaggle 比赛的人都知道 bestfitting,他在加入 Kaggle 社群短短两年之内,就以黑马之姿成功占领比赛排行榜...

1062
来自专栏新智元

【深度】小度VS最强大脑声纹识别战成平局,吴恩达详解技术原理

【新智元导读】 2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。本文带来百度首席科学家吴恩达对百度声...

3076
来自专栏人工智能头条

从YouTube算法论文反推其推荐机制

1842
来自专栏CSDN技术头条

专家展望未来5年深度学习发展趋势

2015年已然过去,2016刚刚开始,回头将目光集中于去年的成就上,以及对将来科学趋势的预测。去年最令人瞩目的一个领域就是深度学习,它是机器学习中越来越流行的一...

4045
来自专栏新智元

【报告】神经网络:技术发展与未来挑战(PDF下载)

【新智元导读】本文为爱思唯尔收费报告。西班牙格拉纳达大学研究人员系统梳理神经网络历史,从模型、模拟器到实现几方面阐释神经网络发展,展示了随时间推移,神经网络如何...

3598
来自专栏CreateAMind

智能机器的现实风险

当人们问我是干什么的,我常常对回答的深度感到困惑。说“人工智能”我很满意,但太宽泛,而说“图像处理”可能又太具体。然而,一听到接下的来的毫不相干的问题我总是气不...

921
来自专栏人工智能头条

专家展望未来5年深度学习发展趋势

1914
来自专栏人工智能快报

新型神经网络可从单张照片识别人脸

借助于深度神经网络,俄罗斯国立高等经济大学的人研究人员已经提出了一种新方法,能够从视频中识别出人的身份。该方法不需要大量的照片,并且与现有方法相比具有明显更高的...

1622
来自专栏大数据文摘

怎样找到一份深度学习的工作 | 附学习材料,资源与建议

2194
来自专栏新智元

《科学》封面论文作者力作:搭建像人一样思考和学习的机器(附论文下载)

【新智元导读】纽约大学的B. Lake、MIT的J. Tenenbaum等人2015年底在《科学》刊发封面论文,描述“看一眼便能学会写字”的计算机。Lake、T...

3477

扫码关注云+社区

领取腾讯云代金券