专栏首页AI研习社博客 | 机器学习中的数学基础(概论)

博客 | 机器学习中的数学基础(概论)

一、机器学习与数学知识简介

1、 机器学习的目的:现代人都讲究资源整合,学习应用也是一样,需要将工作中所接触和学习到的技能整合起来形成自己的核心竞争力力,提高自己的不可替代性,而机器学习恰好是当前最热门也最有用的结合之一。

具体来说,数据研究人员的职场能力可以分成3个方面:计算机技术、数理统计知识和特定行业的业务知识。而“机器学习”就是计算机技术与数理统计知识的结合,“传统研究”则是数理统计与特定行业业务知识的整合,而一个不具备数理统计能力的码农则进入了一个“危险区域”,因为他通常已经在一家公司工作多年,具备基本的计算机能力,熟悉公司乃至行业有关的业务情况,却对数理统计一窍不通。相反,若具备3种职场能力并能全部有效整合起来,那就形成了所谓的“数据科学”。而“量化交易”正属于“数据科学”中有关金融和交易业务的部分。

2、 机器学习的分类:根据1959年Arthur Samuel的定义,机器学习就是研究在没有完全为计算机程序规定精确规则的基础上,如何让计算机具备自主学习能力的研究。大体而言可分为3类,监督学习,非监督学习和强化学习。监督学习通常用于分类预测和回归分析,例如用户点击和购买预测;非监督学习用于聚类和关联规则,例如新闻聚类;强化学习则是用于Q-learning和时间差学习,例如动态系统及机器人控制。简单而言,监督学习就是在已知当前所有样本标签的情况下去预测下一个样本的标签,非监督学习就是未知样本具体标签,而尝试去为它们打上标签。

3、机器学习的一般思路:机器学习的研究流程是,首先收集一系列样本数据,透过某一种机器学习算法所得到的假设函数或得分函数h(x),计算由h(x)与样本间的误差形成损失函数

J(

),使其最小化,形成对总体模型的估计,最终去预测新样本的相关类别。其中最重要的部分是h(x)的假定和J(

)的计算,具体到监督学习上来说,则是在规则化参数的同时最小化误差,即使模型相对简单的同时使误差最小,前者保证模型不会过拟合,而后者则避免了欠拟合。在众多的学习研究,包括该课程中,重点研究损失函数的最小化问题。

4、机器学习的数学基础:机器学习所需要的数学知识包含3个大类:高等数学、概率统计与线性代数。就个人的感觉来说,高等数学作用于损失函数最小化问题求解,概率统计则是收集并处理数据,得到假设函数所需要的一系列特征量,最后估计新样本落在最优模型中某个类别的概率,而线性代数则用于在最优化问题在多维空间中的线性表达。

高等数学中最重要的就是泰勒公式、梯度和凸函数。由于导数本身是对函数的线性逼近,因此泰勒公式的本质就是对函数进行逼近,在邻域内的不断逼近迭代则是梯度下降法和牛顿法的精髓,只不过前者是函数的一阶导数逼近,后者是二阶。梯度本身定义为函数增长的方向,因此由全微分公式推出方向导数后,通过其余弦公式可知,只有在梯度方向与方向导数同向时,才能使得函数增长最快,这也是梯度下降法寻找最优解的由来。如果函数的最优化问题没有精确的代数解,通常会使用迭代的方法求解最优参数,但它们一般只会得到局部最优解,因此若能将函数本身变换为凸函数,迭代产生的局部最优解往往又是全局最优解本身。

概率与统计中的关注点在于,概率求解在已知样本总体分布的情况下,某一次抽样产生特定结果的可能性,而统计则是未知总体,通过对已知结果的不断抽样,计算总体分布的形态。因此,统计问题往往就是概率问题的逆向工程。而概率论与统计学习的关系在于,在已知多次抽样结果的情况下,对总体分布做出估计,然后使用估计的总体分布去预测下一次抽样结果的可能性,因此机器学习,尤其是监督学习算法先使用统计训练样本得到模型,后利用估计的模型对未来做出预测。于是就有一个不严谨的说法,机器学习是概率与统计的进阶版本。

线性代数的关注点通常在于求解多维特征的最优参数时,能简化计算过程,将繁杂的计算转变为简单的矩阵形式,同时大大的加快迭代的速度。举例可参考SVD算法。

本文分享自微信公众号 - AI研习社(okweiwu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ICLR 2019 选集:聚焦样本受限问题

    上周(5/6/19),国际学习表征会议(ICLR)开幕了。在此,我想深入研究一些我认为有趣的ICLR论文,这些论文大多与我个人感兴趣的领域有关(无监督学习、元学...

    AI研习社
  • 我是如何每周坚持 5 天自学机器学习,并拿到offer的

    本文作者是工程师 Daniel Bourke ,在本文中他分享了自己是如何通过 9 个月的自学,最终找到一份机器学习工作的经验,以下是他的全文。

    AI研习社
  • 干货 | 普通程序员如何转向 AI 方向?

    眼下,人工智能已经成为越来越火的一个方向。拥有编程基础、具备数学思维的普通程序员在这波AI浪潮中占据了得天独厚的转行优势,相比其他基础薄弱的转行人员,程序员只需...

    AI研习社
  • 什么是机器学习?进来带你参观参观

    首先我们需要了解几个机器学习中的起码要知道是怎么回事的概念,了解了后面看代码才不会一脸懵逼。

    1480
  • 这多年来我一直在钻研的技术

    我大学时代最爱玩的一个游戏,法老王-埃及艳后,这是一个以古代文明为背景的城市建设游戏。最近又捡起来玩了玩,还是那个味儿,倍爽。

    磐创AI
  • 【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归

    【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专...

    WZEARW
  • 模式识别vs机器学习vs深度学习

    2017年要说最火的几个关键词中,必然有【机器学习】的一席之地,从AlphaGo战胜人类围棋冠军到google无人驾驶技术的逐步成熟,从基于特征的推荐算法到更为...

    企鹅号小编
  • 机器学习的数学,从入门到不放弃

    似乎每个理科生都在生命的一大段时间中幻想过自己精通各种理论和技术,理科生的装腔相比其他人要硬核得多,说起话来也更加烧脑。

    黄博的机器学习圈子
  • 集成学习

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    于小勇
  • 这10个小工具 将引爆机器学习DIY潮流

    机器学习十大不可忽视项目 前言:那些流行的机器学习项目之所以受欢迎,一般是因为其提供了一种多数人需要的服务,或是因为它们是第一个(也许是最好的)针对特定用户提供...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券