专栏首页PPV课数据科学社区学习机器学习需要具备怎样的数学水平?

学习机器学习需要具备怎样的数学水平?

在过去的几个月里,我一直和一些人交流,他们已经开始切入数据科学领域并积极使用机器学习(ML)技术来探索统计规律、或构建完善的数据驱动产品。然而,我发现很多情况下统计分析结果不尽人意的原因是是缺乏必要的数学直觉和知识框架。这就是我决定写这篇博客的主要原因。

最近兴起了许多易于使用的机器学习和深度学习的安装包,如scikit-learn,weka,tensorflow,r-caret等。机器学习理论是横跨统计、概率、计算机科学和算法等相关领域,可以用来构建智能应用程序。虽然机器和深度学习有着无限前景,但就这些技术而言,透彻的数学理解对掌握内部运算和获得较好的效果是非常有必要的。

为什么要强调数学?

毫无疑问机器学习中数学是重要的,例如你需要:

1.选择合适的算法,包括考虑精度、训练时间、模型的复杂性、参数和数量特征;

2.选择参数设置和验证策略;

3.通过了解偏差方差权衡来识别拟合不足与过度拟合;

4.估计正确的置信区间和不确定性。

你需要具备怎样的数学水平?

到底需要具备多少数学知识才能理解机器学习这个交叉领域的技术呢?这个问题没有统一的答案,通常是因人而异的。机器学习的数学公式和理论研究正在进行中,研究人员也正在研发更多的先进技术,所以回答这个问题是不太容易的。下面我将从以下方面阐述我认为成为机器学习科学家/工程师所需的最低数学水平以及每个数学概念的重要性。

1. 线性代数:我的一个同事Skyler Speakman说“线性代数是二十一世纪的数学”,我完全同意这个说法。在ML中,线性代数到处都是。主成分分析(PCA)、奇异值分解(SVD)、矩阵的特征分解、LU分解、QR分解/因式分解、对称矩阵,正交化和正交化、矩阵运算、投影、特征值和特征向量、向量空间和规范这些都是理解机器学习及其优化方法所必需的。线性代数令人惊奇的是,有很多在线资源。 我一直说传统的课堂正在死亡,因为互联网上有大量的资源。我最喜欢的线性代数课程是MIT(Gilbert Strang教授)课程。

2. 概率理论与统计学:机器学习与统计学领域是有很多相似的地方。实际上,有人最近将机器学习定义为“在Mac上统计数据”。 机器学习需要基本统计和概率理论的综合知识,如概率规则和公理、贝叶斯定理、随机变量、方差和期望、条件和联合分布、标准分布(伯努利,二项式,多项式,均匀和高斯)、矩生成函数、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和抽样方法。

3. 多元微积分:主要领域包括微积分、偏导数、向量值函数、梯度方向、Hessian矩阵、雅可比矩阵、拉普拉斯和拉格朗日分布。

4. 算法和复杂度优化: 这些在评估计算的效率和可扩展性,或利用稀疏矩阵时,显得非常重要。 需要知识包括数据结构(二叉树,散列,堆,堆栈等)、动态规划、随机和线性算法、图形、梯度/随机下降和原对偶方法。

5. 其他:包括上述四个主要领域未涵盖的其他数学主题。它们包括实分析和复分析(集合和序列、拓扑、度量空间、单值和连续函数、限制、柯西内核、傅里叶变换),信息理论(熵,信息增益),函数空间和Manifolds流形。

我推荐的机器学习在线MOOC和材料如下:

· KhanAcademy's LinearAlgebra, Probability & Statistics, Multivariable Calculus and Optimization.

· Coding the Matrix: Linear Algebrathrough Computer Science Applications by Philip Klein, Brown University.

· Linear Algebra - Foundations to Frontiers by Robert van de Geijn, University ofTexas.

· Applications of Linear Algebra, Part 1 and Part 2.A newer course by Tim Chartier, Davidson College.

· JosephBlitzstein - HarvardStat 110 lectures.

· LarryWasserman's book - All of statistics: A Concise Course in Statistical Inference.

· Boydand Vandenberghe's course on Convexoptimization from Stanford.

· LinearAlgebra - Foundations to Frontiers on edX.

· Udacity'sIntroduction to Statistics.

这篇文章的主要目的是给出数学在机器学习中的重要性建议以及掌握这些相关内容的有用资源。 然而,一些机器学习爱好者是数学新手,可能会发现这个帖子很令人泄气(说实话,这不是我的目的)。 对于初学者,你不需要掌握很多数学知识才能开始机器学习。 根本的先决条件是我之前一篇博客文章中所描述的数据分析,您可以边学习数学边去掌握更多的算法和技术。

来源见阅读原文

PPV课翻译小组原创作品

本文分享自微信公众号 - PPV课数据科学社区(ppvke123),作者:PPV翻译小组

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【机器学习】目前机器学习最热门的领域有哪些?

    目前机器学习最热门的领域有以下七个: 1.迁移学习Transferlearning 简介:一种学习对另一种学习的影响,它广泛地存在于知识、技能、态度和行为规范的...

    小莹莹
  • 练功 | 机器学习应补充哪些数学基础?

    编者按:很多同学开始学习机器学习时候遇到的最大障碍就是数学基础,机器学习到底需要学习哪些数据知识?要掌握到什么程度呢?希望这篇文章对于大家学习大数据和机器学习有...

    小莹莹
  • 学习攻略 | 机器学习和深度学习技能树、面试宝典

    人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

    小莹莹
  • Oh my god,机器学习原来可以这么简单

    我想大家对机器学习这个词肯定不陌生,特别是最近这段时间,好像特别热。在生信领域和临床研究都有很多高分的文章不断涌出,那我就给大家简单的介绍一下机器学习的内容。

    挑圈联靠
  • 麦肯锡报告:关于深度学习有120个商业机会

    有理由相信,深度学习将彻底改变以下提及的这12个领域。 这些行业的大多数领导者都在关注机器学习,不过他们却认为深度学习带来的改变在遥远的未来才会发生。他们错了。...

    华章科技
  • 麦肯锡报告:关于深度学习的120个商业机会

    大数据文摘
  • 麦肯锡用数据说明,关于深度学习有120个商业机会

    麦肯锡研究发布了深度学习将影响的12个领域,每个领域又分为10个方面。换言之,这就是深度学习的120个商业机会。 有理由相信,深度学习将彻底改变以下提及的这1...

    钱塘数据
  • 入门人工智能学习路线

    这门课基本涵盖了机器学习的主要知识点,例如:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等等。而且课程中没有复杂的公式推导和理论分析。Ng...

    用户3578099
  • 机器学习你不可不懂的线性代数和矩阵微分

    本文介绍本人在学习数学以及接触机器学习以来的一些感悟和书单。从大学到研究生,把自己对线性代数和矩阵论一点点感悟和心得发在这里,大家一起进步学习。

    陈灿
  • 业界 | 德勤预测:机器学习走向移动端成大势所趋,或将再掀行业新浪潮

    日前,德勤全球发布了《2017科技、传媒和电信行业预测》报告,其中涉及到生物识别、5G网络、数字化变革、平板电脑发展趋势研究等多项内容。其中在《边缘“大脑”:机...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券