学习机器学习需要具备怎样的数学水平?

在过去的几个月里,我一直和一些人交流,他们已经开始切入数据科学领域并积极使用机器学习(ML)技术来探索统计规律、或构建完善的数据驱动产品。然而,我发现很多情况下统计分析结果不尽人意的原因是是缺乏必要的数学直觉和知识框架。这就是我决定写这篇博客的主要原因。

最近兴起了许多易于使用的机器学习和深度学习的安装包,如scikit-learn,weka,tensorflow,r-caret等。机器学习理论是横跨统计、概率、计算机科学和算法等相关领域,可以用来构建智能应用程序。虽然机器和深度学习有着无限前景,但就这些技术而言,透彻的数学理解对掌握内部运算和获得较好的效果是非常有必要的。

为什么要强调数学?

毫无疑问机器学习中数学是重要的,例如你需要:

1.选择合适的算法,包括考虑精度、训练时间、模型的复杂性、参数和数量特征;

2.选择参数设置和验证策略;

3.通过了解偏差方差权衡来识别拟合不足与过度拟合;

4.估计正确的置信区间和不确定性。

你需要具备怎样的数学水平?

到底需要具备多少数学知识才能理解机器学习这个交叉领域的技术呢?这个问题没有统一的答案,通常是因人而异的。机器学习的数学公式和理论研究正在进行中,研究人员也正在研发更多的先进技术,所以回答这个问题是不太容易的。下面我将从以下方面阐述我认为成为机器学习科学家/工程师所需的最低数学水平以及每个数学概念的重要性。

1. 线性代数:我的一个同事Skyler Speakman说“线性代数是二十一世纪的数学”,我完全同意这个说法。在ML中,线性代数到处都是。主成分分析(PCA)、奇异值分解(SVD)、矩阵的特征分解、LU分解、QR分解/因式分解、对称矩阵,正交化和正交化、矩阵运算、投影、特征值和特征向量、向量空间和规范这些都是理解机器学习及其优化方法所必需的。线性代数令人惊奇的是,有很多在线资源。 我一直说传统的课堂正在死亡,因为互联网上有大量的资源。我最喜欢的线性代数课程是MIT(Gilbert Strang教授)课程。

2. 概率理论与统计学:机器学习与统计学领域是有很多相似的地方。实际上,有人最近将机器学习定义为“在Mac上统计数据”。 机器学习需要基本统计和概率理论的综合知识,如概率规则和公理、贝叶斯定理、随机变量、方差和期望、条件和联合分布、标准分布(伯努利,二项式,多项式,均匀和高斯)、矩生成函数、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和抽样方法。

3. 多元微积分:主要领域包括微积分、偏导数、向量值函数、梯度方向、Hessian矩阵、雅可比矩阵、拉普拉斯和拉格朗日分布。

4. 算法和复杂度优化: 这些在评估计算的效率和可扩展性,或利用稀疏矩阵时,显得非常重要。 需要知识包括数据结构(二叉树,散列,堆,堆栈等)、动态规划、随机和线性算法、图形、梯度/随机下降和原对偶方法。

5. 其他:包括上述四个主要领域未涵盖的其他数学主题。它们包括实分析和复分析(集合和序列、拓扑、度量空间、单值和连续函数、限制、柯西内核、傅里叶变换),信息理论(熵,信息增益),函数空间和Manifolds流形。

我推荐的机器学习在线MOOC和材料如下:

· KhanAcademy's LinearAlgebra, Probability & Statistics, Multivariable Calculus and Optimization.

· Coding the Matrix: Linear Algebrathrough Computer Science Applications by Philip Klein, Brown University.

· Linear Algebra - Foundations to Frontiers by Robert van de Geijn, University ofTexas.

· Applications of Linear Algebra, Part 1 and Part 2.A newer course by Tim Chartier, Davidson College.

· JosephBlitzstein - HarvardStat 110 lectures.

· LarryWasserman's book - All of statistics: A Concise Course in Statistical Inference.

· Boydand Vandenberghe's course on Convexoptimization from Stanford.

· LinearAlgebra - Foundations to Frontiers on edX.

· Udacity'sIntroduction to Statistics.

这篇文章的主要目的是给出数学在机器学习中的重要性建议以及掌握这些相关内容的有用资源。 然而,一些机器学习爱好者是数学新手,可能会发现这个帖子很令人泄气(说实话,这不是我的目的)。 对于初学者,你不需要掌握很多数学知识才能开始机器学习。 根本的先决条件是我之前一篇博客文章中所描述的数据分析,您可以边学习数学边去掌握更多的算法和技术。

来源见阅读原文

PPV课翻译小组原创作品

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | FAIR 田渊栋:2017 年的一些研究和探索

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索。 今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收...

2564
来自专栏AI科技评论

谷歌送上主播福利,手机拍视频实时换背景

YouTube stories 中的神经网络视频分割(加特效) AI 科技评论按:视频分割是一项用途广泛的技术,把视频的前景和背景分离之后,导演们、视频制作者们...

3454
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:回归(4.3节)

我们在本节中的主要学习目标是监督学习方法的另一个很好的例子,它也和最近邻分类一样简单:线性回归。以及它的近亲逻辑回归。

1037
来自专栏新智元

【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

作者:田渊栋 【新智元导读】FAIR研究科学家田渊栋今天在知乎发表他的2017年工作总结。今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习...

2794
来自专栏AI科技大本营的专栏

五个案例,三大心得,Meratix创始人带你进阶深度学习的实践应用之路

不谈理论,只谈实战。 当我们需要用深度学习处理现实问题时,除了相关的技术和数据,你还需要掌握一系列的小诀窍,并将这些技巧用在级联模型、智能增强、合理的评价标...

3779
来自专栏AI研习社

CVPR 2018摘要:第三部分

CVPR 2018(计算机视觉和模式识别)会议已经结束,但我们不能停止回顾其精彩的论文; 今天,我们学习第三部分。在第一部分中,我们简要回顾了2018年CVPR...

963
来自专栏小樱的经验随笔

层次分析法(详解)

注:文章内容主要参阅 《matlab数学建模算法实例与分析》,部分图片来源于WIKI 文章分为2部分: 1第一部分以通俗的方式简述一下层次分析法的基本步骤和思想...

5045
来自专栏大数据文摘

大咖 | GAN之父Ian Goodfellow在Quora:机器学习十问十答

1674
来自专栏AI科技评论

纽约大学神经学教授Eero Simoncelli万字解析:机器生成的图像为何能骗过你的眼睛?

AI科技评论按:在刚刚闭幕的ICLR2017上,纽约大学神经学、数学、心理学教授Eero Simoncelli作为特邀嘉宾分享了他在机器表征、人类感知方面的研究...

4478
来自专栏数据派THU

深度学习并非万能,你用对了吗?

来源:机器人圈 作者:Pablo Cordero 本文文章长度为4700字,建议阅读8分钟。 本文为你全面揭示深度学习的应用场合和作用。 [ 导读 ]深度学习随...

2048

扫码关注云+社区

领取腾讯云代金券