什么是模式识别,与数据挖掘,机器学习关系又如何?

模式识别是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

英文“Pattern”源于法文“Patron”,本来是指可作为大家典范的理想的人,或用以模仿复制的完美的样品。

在模式识别学科中“模式”具有更广泛的意义。

人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的相同或不同之处,根据一定的目的把并不完全的事物或现象组成一类。字符识别就是一个典型的例子。例如汉字“中”可以有各种写法,但都属于同一类别。更为重要的是,即使对于某个“中”的具体写法从未见过,也能把它分到“中”这一类别。人们在路上行走的时候,也总是不断的根据周围的景物,判断它是否能达到目的地,这实际也是不断的在作“正确”和“不正确”的分类判断。

人脑的这种思维能力就构成了“模式”的概念。在以上的例子中,模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事物或现象,就可以识别这个集合中的任意多的事物或现象。

为了强调能从具体的事物或现象中推断出总体,我们就把个别的事物或现象称作“模式”,而把总体称作类别或范畴。也有的学者认为应该把整个的类别称作模式,这样的模式是一种抽象化的概念,如“房屋”,“铁路”,“通俗音乐”等等都是模式,而把具体的对象如人民大会堂称作“房屋”这类模式中的一个样本。这种名次上的不同含义是容易从上下文中弄清楚的。

模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、文字、符号、三位物体和景物以及各种可以用物理的、化学的、生物的传感器对对象进行测量的具体模式进行分类和辨识。

模式识别研究主要集中在两方面,即研究生物体(包括人)是如何感知对象的,属于认知科学的范畴,以及在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究内容,后者通过数学家、信息学专家和计算机科学工作着近几十年来的努力,已经取得了系统的研究成果。

早期的计算机模式识别研究着重在模型的建立上。50年代末,F.Rosenblatt提出了一种简化的模拟人脑进行识别的数学模型-感知机,初步实现了通过给定类别的各个样本对识别系统进行训练,使系统在学习完毕后具有对其他未知类别的模式进行正确分类的能力,60年代用统计决策理论求解模式识别问题得到了迅速的发展,70年代前后出版了一系列反映统计模式识别理论和方法的专著。

1962年,R.Narasimahan提出了一种基于基元关系的句法识别方法,傅京孙在这个领域进行了卓有成效的工作,形成了句法模式识别的系统理论。80年代,J.J.Hopfield深刻揭示出人工神经元网络所具有的联想存储和计算能力,为模式识别技术提出了一种新的途径,短短几年在很多方面就取得了显著成果,从而形成了模式识别的人工神经元网络方法的新的学科方向。

一个计算机模式识别系统基本上事有三部分组成的,即数据采集、数据处理和分类决策或模型匹配。

任何一种模式识别方法都首先要通过各种传感器把被研究对象的各种物理变量转换为计算机可以接受的数值或符号(串)集合。习惯上,称这种数值或符号(串)所组成的空间为模式空间。为了从这些数字或符号(串)中抽取出对识别有效的信息,必须对它进行处理,其中包括消除噪声,排除不相干的信号以及与对象的性质和采用的识别方法密切相关的特征的计算(如表征物体的形状、周长、面积等等)以及必要的变换(如为得到信号功率谱所进行的快速傅里叶变换)等。然后通过特征选择和提取或基元选择形成模式的特征空间。以后的模式分类或模型匹配就在特征空间的基础上进行。系统的输出或者是对象所属的类型或者是模型数据库中与对象最相似的模型编号。

针对不同应用目的,这三部分的内容可以有很大的差别,特别是在数据处理和识别这两部分,为了提高识别结果的可靠性往往需要加入知识库(规则)以对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量。在某些具体应用中,如机器视觉,除了要给出被识别对象是什么物体外,还要求出该物体所处的位置和姿态以引导机器人的工作。

模式识别已经在天气预报、卫星航空图片解释、工业产品检测、字符识别、语音识别、指纹识别、医学图像分析等许多方面得到了成功的应用。所有这些应用都是和问题的性质密切不可分的,至今还没有发展成统一的、有效的可应用于所有的模式识别的理论。

当前的一种普遍看法是不存在对所有的模式识别问题都使用的单一模型和解决识别问题的单一技术,我们现在拥有的是一个工具袋,我们所要做的是结合具体问题把统计的和句法(结构)的识别方法结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来,把人工神经元网络与各种以有技术以及人工智能中的专家系统,不确定方法结合起来,深入掌握各种工具的效能和应用的可能性,互相取长补短,开创模式识别应用的新局面。

对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。

而模式识别和机器学习的关系是什么呢,传统的模式识别的方法一般分为两种:统计方法和句法方法。句法分析一般是不可学习的,而统计分析则是发展了不少机器学习的方法。也就是说,机器学习同样是给模式识别提供了数据分析技术。

至于,数据挖掘和模式识别,那么从其概念上来区分吧,数据挖掘重在发现知识,模式识别重在认识事物。

机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器学习是方法,模式识别是目的。

总结一下吧。只要跟决策有关系的都能叫 AI(人工智能),所以说 PR(模式识别)、DM(数据挖掘)、IR(信息检索) 属于 AI 的具 体应用应该没有问题。 研究的东西则不太一样, ML(机器学习) 强调自我完善的过程。 Anyway,这些学科都是相通的。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

深度学习:推动NLP领域发展的新引擎

1815
来自专栏华章科技

深度学习卷积神经网络大事件一览

导读: 深度学习(DeepLearning)尤其是卷积神经网络(CNN)作为近几年来模式识别中的研究重点,受到人们越来越多的关注,相关的参考文献也是层出不穷,连...

762
来自专栏IT派

普通程序员,几个月如何成功转型AI?

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程...

4445
来自专栏应兆康的专栏

送给刚踏入数模路上的萌新们

送给刚踏入数模路上的萌新们 这里不会引用任何官方术语,均为我个人的理解,所以小伙伴们放心阅读 前面如果觉得很枯燥,可以调到后面,后面会提供干货 顺便打个广告,嘿...

37310
来自专栏机器学习算法与Python学习

深度学习CNN发展大事件一览

深度学习(DeepLearning)尤其是卷积神经网络(CNN)作为近几年来模式识别中的研究重点,受到人们越来越多的关注,相关的参考文献也是层出不穷,连续几年都...

840
来自专栏美团技术团队

强化学习在美团“猜你喜欢”的实践

“猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目...

1164
来自专栏大数据文摘

【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT下载)

1615
来自专栏AI研习社

用一张单色图像生成高质量3D几何结构 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 于法传 校对 / 凡江 整理 / 雷锋字幕组 本期论文:Hierarchical Surface Pre...

36612
来自专栏QQ大数据团队的专栏

神盾推荐——MAB算法应用总结

2944
来自专栏新智元

【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT 全文翻译及下载)

Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的...

4006

扫码关注云+社区