AI综述专栏简介
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。
导读
本期文章来源于中国自动化学会模式识别与机器智能专业委员会(CAA-PRMI)通讯。CAA-PRMI成立于 1979 年,是国内模式识别和人工智能领域最早成立的专业委员会。自成立开始,专委会在普及、推动国内模式识别领域的研究和学科发展上发挥了巨大的作用。在以谭铁牛院士为首的中国学者的努力下, ICPR 2018(国际模式识别联合会议)即将于2018年8月20-24日北京召开,组织工作正在有序进行。从研究水平和影响以及在国际组织的话语权来看,中国模式识别学术界的国际影响力与30年前相比已大不相同了。早在 2012 年 ICPR(可能更早),中国学者投稿和发表的论文数就已在所有国家中位列第一。
本文作者钟德星是CCF计算机视觉专委会委员,西安交通大学电子与信息工程学院副教授, 美国伊利诺伊大学厄巴纳-香槟分校的访问学者,2005年和2010年在西安交通大学分别获得学士和博士学位,主要研究方向是生物识别和计算机视觉。作者杜学峰是西安交通大学电子信息工程学院本科生,信息新蕾计划(ITP)参与学生。本文主要综述掌纹识别近十年的研究进展,并对未来的掌纹识别研究提出了展望和建议。
「关注本公众号,回复"PRMI",获取本期CAA-PRMI通讯的完整版」
一.引言
作为生物特征识别的研究课题之一,掌纹识别已经有二十多年的历史。由于其拥有较高的识别准确度和实际应用的便捷性,过去十年中出现了许多掌纹识别的研究新成果。经典的掌纹识别过程主要包括五个部分:掌纹图像采集、数据库、 预处理、特征提取和匹配,如图 1 所示。
图 1 掌纹识别系统框图采集装置可得到不同的掌纹图像。
采集装置可得到不同的掌纹图像。感兴趣区域(ROI)是预处理阶段的核心,通常使用的是参考坐标系方法[1],如图2所示。对于特征提取, 常见的有基于子空间、基于学习、基于主线和基于编码等方法,每种方法都从全局或局部范围中提取特征。而匹配是基于某个预定的匹配器将测试样本与数据库中的样本进行匹配。
图 2 经典的预处理步骤:(a)原始图像,(b)二值 图像,(c)边界跟踪,(d)建立坐标系统,(e)提 取中心部分和(f)ROI样本 [1]
2009 年,Kong等人完成了一篇综述 [2],描述获取设备、预处理、验证算法、掌纹相关融合以及隐私保护的识别措施。最近,一些新的识别方法出现了,本文主要综述掌纹识别近十年的研究进展,包括数据采集、预处理、特征提取、匹配和融合等。 除了揭示最新的算法之外,我们还对未来的掌纹识别研究提出了展望和建议。
二、图像获取与预处理
2.1 图像采集
采集过程一般在特定的实验室环境中进行。 由于现实环境多变,理想条件下提出的算法不能很好的适合掌纹识别的实际应用。因此,建立有针对性的数据库以模拟不同的环境并测试后续识别算法尤为重要。
近十年来,很多新的数据库已经建立[3]。除 了一些传统的采集方式,即基于 CCD 扫描仪、数码相机、摄像机外,许多数据库都采用新设备来捕获不同类型的图像。例如,Aykut 等人[4]使用CCD 摄像头,直流自动光圈镜头和均匀的 LED 光源完成在线手掌图像采集,如图 3 所示。2D 掌纹数据是使用最广泛的数据,因为它易于访问和处 理。同时,也有包含其他信息的数据库,如3D图像,多光谱和掌纹细节。
图 3 图片获取系统的外观. [4]
2.2 预处理
除了图像增强、滤波等步骤,提取 ROI 的算法是预处理阶段的关键步骤。近十年来,距离是ROI 提取中最重要的指标。即保持ROI边缘与谷点连线之间有固定像素距离。然而,由于掌纹图像的大小多变,如果仅使用该方法,ROI 区域将不会被精确提取,识别的结果不佳。因此,研究人员提出了比率和角度法。前者使 ROI 的大小占掌纹图像中的固定比例,后者使 ROI 边界点和谷点连接线与谷点连线之间具有恒定角度。实验结果显示,45°或 60°最适合精确特征提取[5]。由于图像中出现重叠,不同的谷点数量将导致 ROI 提取结果不同。大多数文章使用 2~6 个谷点数,也有一些使用 12 和 15 谷点,平均使用谷点数为 5。
三、特征提取与匹配
3.1 特征提取
特征提取的目的是为了最大限度地区分不同类的掌纹。近十年,特征类型越来越多,特征表征的方法也更加有效。
最近十年主要特征对象是纹理、方向、细节和频率等。而许多新特征也相继出现了,如Laplacialpalm、LRV(Local relative variance)、GMP(Gabor magnitude and phase)信息、Blur不变相、能量信息等。多特征融合也是特征提取的趋势,使得特征之间可以互补。
现有的特征表征的方式可以分为三种类型: 编码、图片和学习。图片方法直接使用图像信息, 我们又将其划分为三个子类,即基于结构、统计和子空间的算法。
(1)基于编码的算法
编码将图像转换成数字信息,可以减少空间复杂度。常用的编码方法首先使用预定义的滤波器对图像滤波,然后根据特定原理编码,并使用位编码存储。之后,使用二进制运算获得相似度。 为了研究 Gabor 滤波器的数量和方向的影响,一种改进的模糊C均值聚类算法被提出来确定每个Gabor 滤波器的方向。 Kim 等人[6]设计了一种使用主线和倾斜方向的新型混合方法,以减少照明条件对位置信息的影响。该方法可以处理非手掌线周围的像素,从而优化了鲁棒线方向编码(RLOC) 和二进制方向共生矢量(BOCV)这两个算法。
(2)基于结构的方法
基于结构的方法关键在于利用边缘检测算法提取脊线、主线或特征点的方位信息。Huang 等人[7]基于方向和频率提出了一种新的脊特征提取方法,使用了一组 Gabor 滤波器来捕获局部和全局细节,将脊线表示为不同的点集。相应的等错误率(EER)低至 1.5%。Li 等人[8]首先减少图像中的噪点,然后基于多样性和对比度来检测手掌线,接着改进了Hilditch算法并应用边缘跟踪方法来消除分支,最后获得单像素主掌纹图像。
(3)基于统计的方法
这类方法使用图像的统计概念,即方差、平均值、不变矩等。目前有两个研究方向,一个基于变换,另一个是非变换法。经典变换由小波变换, 傅里叶变换组成,可以完美地表示掌纹图像在频域的多尺度信息,但是该法是局部的。近十年,离散曲波变换、Riesz 变换、力场变换和数字剪切变换已经被引入。在变换后,统计指标被转换为对应的向量。科研人员还改进了局部二值模式直方图(LBPH),并将其与双树复数小波变换(DT- CWT)相结合,提出一种基于 DT-CWT 的 LBPWH 方 法。无变换统计方法一般来自 Zernike 矩的研究。Gayathri 等人[10]设计了一个使用高阶Zernike矩的鲁棒识别系统。 该方法不受旋转影响,并且拥有正交性和旋转不变特性。
(4)子空间方法
子空间方法将图像视为高维矩阵或矢量,并通过投影或数学变换将其转换为低维矢量。通常, 需要建立不同类型的掌纹训练集,并且选择最优投影方式来表示特征。
为了消除过度拟合,Bai 等人[11]结合了分块表面类型(ST-Surface Type)特征和 PCA 进行 3D掌纹识别,并采用分块 ST 的直方图作为掌纹特征,降低了计算复杂度。此外,PCA还与其他方法 (如矩不变性)融合,以获得高识别率。对于线性判别分析(LDA),基于图像的 LDA 被提出来完成多光谱融合。研究人员还将后处理方法扩展到掌纹识别,并使用两个数据库来评估后处理的 LDA方法,取得了很好的效果。文献[12]中提出一种基 于独立成分分析(ICA)的掌纹识别算法,满足了高维计算需求。关于局部保持投影(LPP),Pan 等 人[13]基于Gabor特征(I2DLPPG)改进2DLPP。最后,基于核的方法将图像表示为更高维的特征空 间。除 KPCA、KLPP、KFD、KDA 外,文献[14]提出 了基于核映射的稀疏表示(KSR)算法,稀疏编码效率提高,同时也降低了量化误差。
(5)机器学习和深度学习方法
传统的机器学习可以分为两类,监督学习如卷积神经网络和非监督学习如深度置信网络。学习系统中的三个关键点是激活函数、损失函数和优化策略。在最近几年中,由于对人工神经网络的深入理解,Zhao 等人[15]提出了掌纹识别深度学习的概述。Liu 等人[16]使用 CNN 进行非接触式识别。除此之外,研究人员还基于 CNN 提出了一种新的预处理措施。深度学习的平均准确度远高于传统方法,甚至达到 100%。因此,这是一个有前景的研究方向。
3.2 匹配
匹配的目的是找出测试掌纹图像属于哪一类。 本文主要讨论匹配器。对于不同的图像数据库, 计算出的不同距离会导致同一人掌纹的不同分类结果。许多传统距离仍然适用,如欧几里德距离、 汉明距离和卡方距离。一些新的距离,如角距离、CW-SSIM(复小波-结构相似性)距离、峰-旁瓣比 (PSR)和余弦马氏距离被充分研究。多距离融合也是一个新现象。它通常使用多个匹配器的加权之和来计算差异。
四、融合
融合规则包括最小值、最大值、总和、平均值、SVM 和神经网络等。与掌纹相关的融合包括对象融合以及提取和匹配方法的融合。前者可分为很多类,例如不同生物特征信息,不同图像类型。 另外,融合级别也可不同,例如像素级[17]、特征 级[18],分数[19]和决策层[20]。
五、进一步研究的建议
首先是面向应用的问题。图像的旋转、平移、 模糊、失真和异构数据阻碍了掌纹识别的实际应用。需要在非接触方式采集图像时设计更加合适的算法。随着互联网的发展,应该重视在线掌纹识别及其在手机中的使用,这将成为网上支付或个人认证中的一种新的识别方法。
第二个方向是深度学习。一般来说,深度学习需要的训练样本太多,泛化能力也不强。最近,George 等人[21]提出了一种称为递归皮层网络的概率生成模型来进行基于消息传递的推理。该方法统一了识别,分割和推理,展示出色的通用性和推理能力,实验结果甚至优于CNN,计算效率高出 300 倍。因此,这是一个值得关注点。
第三是融合。它可以用于数据采集、预处理、 特征提取和匹配,提高识别性能,但当前的融合应用对象未超过三个,应考虑更多的对象,而同时平衡总时间消耗。此外,在融合中忽略的大量信息导致了识别率有限,进一步的研究应考虑融合的鲁棒性,以减少约束条件对识别系统的影响。
掌纹识别的另一个关键方向是活体检测。尽管掌纹不会丢失,但伪造和复制问题仍然会对识别系统产生不利影响。活体检测作为检测人体生命体征的方法可以防止这种破坏,最近的研究如多光谱识别可能是一个良好的解决方案。
(相关参考文献请参阅PDF)