基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享02(附pdf下载)

【导读】上一次专知推出基于信息理论的机器学习报告,大家反响热烈,今天是胡老师提供的第二部分(为第三章内容)进行详细地注释说明,请大家查看!

▌概述


本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。由于时间有限,本次只是大概介绍一下本次tutorial的内容,后续会详细介绍每一部分。

胡老师的报告内容分为三个部分:

  • 引言(Introduction)
  • 信息理论基础(Basics of Information Theory)
  • 二值信道的理论进展(Theoretical Progress in Binary Channel)
  • 分类评价中的信息度量(Information Measures in Classification Evaluation)
  • 贝叶斯分类器和互信息分类器(Bayesian Classifiers and Mutual-information Classifiers)
  • 总结和讨论(Summary and Discussions)
  • 基于信息理论的机器学习——中科院自动化所胡包钢老师教程分享01(附pdf下载)
  • 报告链接:http://mp.weixin.qq.com/s/KkpzcZOAPNa2l_vOMGeHLw

胡包钢研究员个人主页:

http://www.escience.cn/people/hubaogang/index.html

胡包钢老师简介:

胡包钢老师是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。

▌PPT



第3章:二值信道的理论进展

分类是一种监督学习,因为每个样本的目标类标T通常给出。该图示意了分类与通信中模块的等价名称。

(目前的深度学习是“端到端”学习,即没有去人为地去建立特征变量。本章仅介绍二值分类。)

二值分类在通信理论中被称为二值信道。二值分类在分类求解中是最为基础的单元。当理论上的联合概率分布未知时,我们可以通过混淆矩阵转换为联合概率分布的估计。

在传统信息论研究中仅考虑贝叶斯误差。该误差是分类理论中统计意义下的最小值(或误差下界)。多数分类器是以非贝叶斯方法出现,如深度学习,支持向量机,决策树等。因此非贝叶斯误差需要考虑。

信息论中已有的上界与下界计算公式。它们适用于m类有限类别,并分别是通过不等式方式导出。这是信息论中最为重要的关系式。

该图示意了二值分类上界与下界曲线。反映了条件熵与误差之间的关联。由于贝叶斯分类是规定类别分布信息为已知,由此贝叶斯误差还有一个上界,为最小类别概率。任何超过该值的分类结果都不可能是贝叶斯分类(想想为什么)。

该图也示意了两种不同学习目标的驱动力。给定误差,下界为可能的最大条件熵产生的边界,上界为可能的最小条件熵产生的边界。

二值分类中条件熵计算公式。由于H(T)通常为固定值,该公式反映出最小条件熵等价于最大互信息。

该计算公式表达的独立自变量为两个(思考为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。

应用优化的方法我们从联合概率分布导出上下界计算公式,以及误差成分(e1与e2)的计算公式。

当误差与类别概率已知情况下,应用公式我们可以得出e1与e2。这一点是应用传统方法无法获得的信息(原因包括应用了不等式导出),但是这个信息对于机器学习可能是十分重要(误差类别会有不同影响)。

贝叶斯误差与条件熵的关联关系。下界与Fano完全相同,但是我们扩展了解释。

该界同时包括互信息为零(即条件熵最大,或T与Y变量独立)的解释与互信息不为零的解释。我们推导的上界为严格解,比原上界更紧。

非贝叶斯误差与条件熵的关联关系。我们首次将非贝叶斯误差引入该关联研究中。这也是从机器学习视角研究对信息理论发展的贡献。

这是首次推导的二值分类性能指标与互信息关联的关系式。该公式是以准确度,查全率,查准率为自变量表达。

实际中该关系表达的独立自变量为两个(思考下为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。应用二个自变量表达其结果更为繁杂,采用这三个自变量表达更为简洁。

  • 第3章总结

误差与条件熵的界分析是建立信息类学习目标与传统经验类学习目标之间关系的最为基础内容。本章从优化的方式发展了信息论中的界分析理论。但是,有关结果受限于二值分类。如何推广到多值分类还是待解问题。二值分类的界分析对于理解两种学习目标十分重要。给定误差,可以对应多值条件熵结果。反之亦然。只有在贝叶斯误差分析中,一对一关系发生在零条件熵情况下。而在非贝叶斯误差分析中,零条件熵不一定对应零误差。在实际应用中非贝叶斯误差与条件熵的界更为重要。

第三部分的二值信道的理论进展结束了,敬请期待下一期内容。

特别提示-信息论报告下载:

请关注专知公众号

  • 后台回复“ITL” 就可以获取胡老师报告的pdf下载链接

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

一篇文章搞懂图像风格迁移(Neural Style)的历史变迁

作者 | 李嘉铭 面向读者:没有或有一定机器学习经验并对Prisma之类的app背后的原理感兴趣的读者。比较有经验的读者可以直接参照科技树阅读文章末罗列的引用论...

83960
来自专栏WeaponZhi

机器学习一:线性回归

视频及 PPT 原教程:https://pan.baidu.com/s/1geFro9H 密码:50sc 线性回归中维基百科的定义如下:

16450
来自专栏深度学习

14种模型设计帮你改进你的卷积神经网络(CNN)

自2011年以来,深度卷积神经网络(CNN)在图像分类的工作中的表现就明显优于人类,它们已经成为在计算机视觉领域的一种标准,如图像分割,对象检测,场景标记,跟踪...

43190
来自专栏PPV课数据科学社区

数据挖掘分类、聚类算法学习摘要

一、有关数据挖掘 1.1 数据挖掘相关概念与定义 数据挖掘有广义和狭义之分。广义的数据挖掘,指从大量的数据中发现隐藏的、内在的和有用的知识或信息的过程。狭义的数...

40560
来自专栏语言、知识与人工智能

【腾讯知文】任务型对话之语言理解

本文的重点将介绍传统算法框架中语言理解模块的意图与槽位的联合模型。

11K90
来自专栏新智元

【arXiv】2015 深度学习年度十大论文

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了...

29450
来自专栏新智元

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【新智元导读】不同于在目标检测和识别等领域取得的丰硕成果,深度学习在目标跟踪领域进展相对缓慢,很大原因是缺乏数据——目标跟踪只有第一帧的标定框作为训练数据,在这...

39170
来自专栏SIGAI学习与实践平台

化秋毫为波澜:运动放大算法(深度学习版)

运动放大(Motion Magnification),将视频中对应位置的运动进行放大,简单理解的话,就是找到时间段内的运动矢量,进行放大,然后权值叠加回去。

39350
来自专栏PPV课数据科学社区

主编推荐 | 学会数据分析背后的挖掘思维,分析就完成了一半!

主编推荐:通过言简意赅的语言把数据挖掘的原理、建模过程、数据分析和数据挖掘关系说的比较清楚,适合入门者了解相关概念。 正文如下: 在数据分析中,模型是非常有用和...

32460
来自专栏AI星球

[转载]深度学习技术在文本数据智能处理中的实践

人工智能目前的三个主要细分领域为图像、语音和文本,老师分享的是达观数据所专注的文本智能处理领域。文本智能处理,亦即自然语言处理,试图让机器来理解人类的语言,而语...

15720

扫码关注云+社区

领取腾讯云代金券