机器学习基本概念-1

Learning algorithm

ML中的算法无疑都是学习型的算法,那么什么才是学习型算法(learning algorithm)呢? 机器学习大牛Bengio给出的解释是:

A machine learning algorithm is an algorithm that is able to learn from data.

这里的learn,Mitchell(1997)给出的定义是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P , if its performance at tasks in T , as measured by P , improves with experience(实践) E.

由此我们可以看出:

学习型的算法需要有能力从给定的数据中学习出能够有效地代表此数据的特征(feature)

所以一个ML system的基本构成就是:

  1. A learning algorithm
  2. Tasks
  3. Performance measure
  4. Experience
  5. Data

Task

ML出现的基本需求就是: 需要解决的任务过难,以至于无法使用一个固定的程序来解决它

Machine learning allows us to tackle tasks that are too difficult to solve with fixed programs written and designed by human beings.

那么什么是ML中的Task呢? 首先理解什么是我们在ML中常说的特征也就是feature,通俗点来说大概就是:

特征就是从some object或者event中抽取出来的可以定量表示和衡量的数学表达.

通常使用矩阵的形式来进行表达 再来说Task,Bengio给出的解释是:

Machine learning tasks are usually described in terms of how the machine learning system should process an example. An example is a collection of features that have been quantitatively measured from some object or event that we want the machine learning system to process.

说的有点抽象,实际就是我们需要解决什么问题,比如把我们的图片进行分类或者给定数据进行聚类之类的,这就是ML中的Task. 常见的比如:

  • Classification
  • Regression
  • Transcription
  • Machine translation
  • Semantic Segemention
  • Object Detection
  • Denoising
  • ………….

非常多,就不一列举了

Performance Measure

对于不同的learning algorithm,其ability不同,所以我们需要有个能够量化的衡量措施来检验之.

比如对于常见的classification来说,我们衡量某个算法的好坏的标准就是分类的准确率或者错误率. ML中我们更加关心的是model的泛化能力(generalization),也就是对于未见过的example的能力.

we care more about the performance of the model on new, previously unseen examples

但在一个具体的ML的task中,有时会存在两种困难:

  1. difficult to choose a performance measure that corresponds well to the desired behavior of the system.
  2. we know what quantity we would ideally like to measure, but measuring it is impractical.

所以在这种困难的情况下,我们通常采用的做法是:

  • design an alternative criterion
  • design a good approximation

Experience

ML的学习型算法广义上分为两类:

  • supervised
  • unsupervised

两者之间的界限是模糊的,大部分的学习型算法需要在某个数据集(dataset)上进行experience(实践). 那什么又是dataset呢?

A dataset is a collection of many examples.

dataset就是example的集合,比如像数字集合(0-9)的mnist数据集和多用途的VOC数据集等等,在计算中通常dataset会被表示为一个大的矩阵.

unsupervised的算法和supervised的算法在不同的dataset上进行experience:

  • Unsupervised learning algorithms experience a dataset containing many features, then learn useful properties of the structure of this dataset.
  • Supervised learning algorithms experience a dataset containing features, but each example is also associated with a label or target.

就写到这吧,下篇继续

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

涨姿势!用深度学习LSTM炒股:对冲基金案例分析

1704
来自专栏量化投资与机器学习

还是不靠谱!多维LSTM网络预测比特币价格【机器学习应用区块链系列二】

量化投资与机器学习 为中国的量化投资事业贡献一份我们的力量! ? 公众号今天为大家带来机器学习应用区块链系列的第二篇文章。 这篇文章的作者是公众号之前推过一位...

3898
来自专栏绿巨人专栏

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈 重复的博弈

3067
来自专栏AI科技评论

CNCC | 丘成桐演讲全文:工程上取得很大发展,但理论基础仍非常薄弱,人工智能需要一个可被证明的理论作为基础

AI科技评论消息,2017年10月26日上午,中国计算机学会(CCF)主办的第十四届中国计算机大会(CNCC 2017)正式在福州海峡国际会展中心开幕,雷锋网作...

3478
来自专栏数据科学与人工智能

【智能】机器学习:信用风险建模中的挑战,教训和机遇

由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。 使用两个大型数据集,我们分析了一...

653
来自专栏新智元

AI医疗开创性研究:深度学习进行病变检索和匹配(31 PPT)

1565
来自专栏磐创AI技术团队的专栏

AI医疗开创性研究:深度学习进行病变检索和匹配(31 PPT)

953
来自专栏AI科技评论

论文 | 斯坦福视觉实验室最新研究:人眼移动也可以用来探测病情!?

通过眼睛-移动基于视觉进行发育障碍分类 联合编译:章敏,陈杨英杰 摘要 本论文提出了一种可以将发育障碍进行细粒度分类的系统,它通过使用多模态视觉数据测量个人的眼...

3147
来自专栏CVer

魔都AI圣战者联盟第二次分享会圆满召开

魔都AI圣战者联盟(League of AI Mujahideen in Shanghai) 是由上海的AI行业从业者发起的民间组织。目前联盟主要成员为从...

943
来自专栏机器学习和数学

[有意思的数学]极小极大问题与博弈论入门

为啥要提到这个问题呢,是因为最近一直在做生成对抗网络(GAN)的工作,GAN的灵感来源于博弈论(也叫对策论,竞赛论)中的零和博弈,而原始GAN的优化目标又是一个...

3407

扫码关注云+社区