什么是模式识别,与数据挖掘,机器学习关系又如何?

模式识别是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

英文“Pattern”源于法文“Patron”,本来是指可作为大家典范的理想的人,或用以模仿复制的完美的样品。

在模式识别学科中“模式”具有更广泛的意义。

人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的相同或不同之处,根据一定的目的把并不完全的事物或现象组成一类。字符识别就是一个典型的例子。例如汉字“中”可以有各种写法,但都属于同一类别。更为重要的是,即使对于某个“中”的具体写法从未见过,也能把它分到“中”这一类别。人们在路上行走的时候,也总是不断的根据周围的景物,判断它是否能达到目的地,这实际也是不断的在作“正确”和“不正确”的分类判断。

人脑的这种思维能力就构成了“模式”的概念。在以上的例子中,模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事物或现象,就可以识别这个集合中的任意多的事物或现象。

为了强调能从具体的事物或现象中推断出总体,我们就把个别的事物或现象称作“模式”,而把总体称作类别或范畴。也有的学者认为应该把整个的类别称作模式,这样的模式是一种抽象化的概念,如“房屋”,“铁路”,“通俗音乐”等等都是模式,而把具体的对象如人民大会堂称作“房屋”这类模式中的一个样本。这种名次上的不同含义是容易从上下文中弄清楚的。

模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、文字、符号、三位物体和景物以及各种可以用物理的、化学的、生物的传感器对对象进行测量的具体模式进行分类和辨识。

模式识别研究主要集中在两方面,即研究生物体(包括人)是如何感知对象的,属于认知科学的范畴,以及在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究内容,后者通过数学家、信息学专家和计算机科学工作着近几十年来的努力,已经取得了系统的研究成果。

早期的计算机模式识别研究着重在模型的建立上。50年代末,F.Rosenblatt提出了一种简化的模拟人脑进行识别的数学模型-感知机,初步实现了通过给定类别的各个样本对识别系统进行训练,使系统在学习完毕后具有对其他未知类别的模式进行正确分类的能力,60年代用统计决策理论求解模式识别问题得到了迅速的发展,70年代前后出版了一系列反映统计模式识别理论和方法的专著。

1962年,R.Narasimahan提出了一种基于基元关系的句法识别方法,傅京孙在这个领域进行了卓有成效的工作,形成了句法模式识别的系统理论。80年代,J.J.Hopfield深刻揭示出人工神经元网络所具有的联想存储和计算能力,为模式识别技术提出了一种新的途径,短短几年在很多方面就取得了显著成果,从而形成了模式识别的人工神经元网络方法的新的学科方向。

一个计算机模式识别系统基本上事有三部分组成的,即数据采集、数据处理和分类决策或模型匹配。

任何一种模式识别方法都首先要通过各种传感器把被研究对象的各种物理变量转换为计算机可以接受的数值或符号(串)集合。习惯上,称这种数值或符号(串)所组成的空间为模式空间。为了从这些数字或符号(串)中抽取出对识别有效的信息,必须对它进行处理,其中包括消除噪声,排除不相干的信号以及与对象的性质和采用的识别方法密切相关的特征的计算(如表征物体的形状、周长、面积等等)以及必要的变换(如为得到信号功率谱所进行的快速傅里叶变换)等。然后通过特征选择和提取或基元选择形成模式的特征空间。以后的模式分类或模型匹配就在特征空间的基础上进行。系统的输出或者是对象所属的类型或者是模型数据库中与对象最相似的模型编号。

针对不同应用目的,这三部分的内容可以有很大的差别,特别是在数据处理和识别这两部分,为了提高识别结果的可靠性往往需要加入知识库(规则)以对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量。在某些具体应用中,如机器视觉,除了要给出被识别对象是什么物体外,还要求出该物体所处的位置和姿态以引导机器人的工作。

模式识别已经在天气预报、卫星航空图片解释、工业产品检测、字符识别、语音识别、指纹识别、医学图像分析等许多方面得到了成功的应用。所有这些应用都是和问题的性质密切不可分的,至今还没有发展成统一的、有效的可应用于所有的模式识别的理论。

当前的一种普遍看法是不存在对所有的模式识别问题都使用的单一模型和解决识别问题的单一技术,我们现在拥有的是一个工具袋,我们所要做的是结合具体问题把统计的和句法(结构)的识别方法结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来,把人工神经元网络与各种以有技术以及人工智能中的专家系统,不确定方法结合起来,深入掌握各种工具的效能和应用的可能性,互相取长补短,开创模式识别应用的新局面。

对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。

而模式识别和机器学习的关系是什么呢,传统的模式识别的方法一般分为两种:统计方法和句法方法。句法分析一般是不可学习的,而统计分析则是发展了不少机器学习的方法。也就是说,机器学习同样是给模式识别提供了数据分析技术。

至于,数据挖掘和模式识别,那么从其概念上来区分吧,数据挖掘重在发现知识,模式识别重在认识事物。

机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器学习是方法,模式识别是目的。

总结一下吧。只要跟决策有关系的都能叫 AI(人工智能),所以说 PR(模式识别)、DM(数据挖掘)、IR(信息检索) 属于 AI 的具 体应用应该没有问题。 研究的东西则不太一样, ML(机器学习) 强调自我完善的过程。 Anyway,这些学科都是相通的。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专访 | 阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计

2508
来自专栏PPV课数据科学社区

会学习!会写字!这个机器人太牛了!

最近,《科学》杂志封面刊登了一篇重磅研究:人工智能终于能像人类一样学习,并通过了图灵测试。 这个人工智能像你一样学习写字 假设你从来没有见过菠萝。有一天,有人...

38611
来自专栏PPV课数据科学社区

机器学习原来如此有趣:如何用深度学习进行语音识别

语音识别正在「入侵」我们的生活。我们的手机、游戏主机和智能手表都内置了语音识别。他甚至在自动化我们的房子。只需50美元,你就可以买到一个Amazon Echo ...

46112
来自专栏奇点大数据

谷歌发布全新搜索引擎Talk to books

谷歌作为全球最大搜索引擎公司,发布过很多有趣项目。近日,谷歌又上线了一个名为“Semantic Experiences”(语义体验)的网站,包含了Talk to...

1102
来自专栏牛客网

网易云音乐机器学习算法四面面经

你每天起床之前有两个选择,要么继续趴下做你没有做完的梦,要么拉开被子完成你没有完成的梦想。——杰森∙斯坦森

1643
来自专栏AI研习社

Google Brain:NMT训练成本太高?用大规模神经机器翻译架构分析给出解决方案

编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译( Neur...

3415
来自专栏挖掘大数据

关于熵(entropy)的简单理解

在机器学习领域有一种叫entropy目标函数,我们想通过调整参数(w,θ)去优化这种目标函数,以达到寻找到的含有某个参数(w,θ)的模型,最大程度上来表示我们想...

3270
来自专栏奇点大数据

《自然语言处理理论与实战》

自然语言处理是什么?谁需要学习自然语言处理?自然语言处理在哪些地方应用?相关问题一直困扰着不少初学者。针对这一情况,作者结合教学经验和工程应用编写此书。《自然语...

4522
来自专栏新智元

【独家】朱凯华:智能搜索和对话式OS最新技术全面解读(65PPT)

【新智元导读】百度度秘事业部首席技术官朱凯华日前在上海计算机学会做了题为《AI赋能的搜索和对话交互》的报告,主要介绍了现在的百度搜索及度秘“DuerOS”系统。...

5776
来自专栏华章科技

计算机领域顶级科学家、学术会议、期刊影响力排名(附国内排名)

以下是全球计算机领域杰出科学家的列表,其通过 H-Index 分值进行排列,以下仅显示影响力前十的研究科学家。

942

扫码关注云+社区