基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03

【导读】专知于11月24日推出胡老师的基于信息理论的机器学习报告系列教程,大家反响热烈,胡老师PPT内容非常翔实精彩,是学习机器学习信息理论不可多得的好教程,今天是胡老师为教程的第三部分(为第四章内容)进行详细地注释说明,请大家查看!

▌概述

本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。由于时间有限,本次只是大概介绍一下本次tutorial的内容,后续会详细介绍每一部分。

胡老师的报告内容分为三个部分:

引言(Introduction)

信息理论基础(Basics of Information Theory)

二值信道的理论进展(Theoretical Progress in Binary Channel)

分类评价中的信息度量(Information Measures in Classification Evaluation)

贝叶斯分类器和互信息分类器(Bayesian Classifiers and Mutual-information Classifiers)

总结和讨论(Summary and Discussions)

想了解基于信息理论的机器学习报告系列教程,请阅读专知以前推出的报道:

胡包钢研究员个人主页:

http://www.escience.cn/people/hubaogang/index.html

胡包钢老师简介:

胡包钢老师是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。

▌PPT

Mackay 2003年首次提议可以应用互信息来评价混淆矩阵优劣。他给出了二值分类中的两个混淆矩阵。矩阵最右一列代表了拒识类别。他没有给出具体计算公式与计算结果,但是他的例题以及提议已经表明只有互信息能够提供有效评价。我们这一章介绍的内容正是受该例题启发。在此也致谢当时课题组杨余久同学(博士)提供的该例题信息。

华人学者周绍康(Chow, C.K.)于1970年首次发展了拒识分类的基础研究工作。机器学习研究领域中又称为“弃权分类”,粗糙集研究领域中又称为“三支决策”。

拒识是人类智能中的重要决策方法之一,体现了大数据处理中的“分而治之”策略。如医学诊断中的“疑似病人”即对应了“拒识类别”。

机器学习应用中有所要考虑误差类别,特别是当小类概率很小时。为此,我们首次提出了误差类别与拒识类别同时考察的问题,并开展初步研究。

初始考察二值分类中的四个典型混淆矩阵。分别对应了不同误差与拒识类别。

在分类结果评价中,我们首次提出了“元准则”的概念与具体内容。如果将分类结果评价准则视为底层准则,那么“元准则”是关于底层准则高层知识评价的准则。“元准则”将有利于快速比较底层准则在规定考察特征上的不同。

针对拒识分类,我们提出了三个具体“元准则”用于考察底层准则的三个特征内容。分别是:Meta1. 能够与混淆矩阵对角线元素呈现单调关系。Meta2. 与拒识率相关。Meta3. 与人类分类直觉以下内容相符:小类中的一个误差(或拒识)将比大类中的一个误差(或拒识)代价更高;同类中的一个误差将比一个拒代价更高。由M3可以对四个混淆矩阵进行排序。思考为什么M2与M3无法区分,列为同序B?“元准则”可以理解为是期待底层准则要尽量可以包容的特征。Meta3是对Meta2的进一步期待要求。

基于互信息,信息散度,交叉熵这三种定义,采用不同的归一化计算公式,我们构造并考察了24个信息论指标。NI(T;Y)=0代表两个变量为完全独立,NI(T;Y)=1为两个变量为完全相关。

NI虽然是相关性的考察,它也部分反映了两个变量之间的相似性程度。由于拒识分类中混淆矩阵不是方阵,它们的两个边缘概率会出现长度不同。为此,通过“加零”方式来获得相同长度的边缘概率。该操作是符合物理意义的。

转自:专知

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171208B0Z3AG00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区