暑期追剧学AI | 油管网红带你搞定机器学习中数学思维(一)

大数据文摘作品,转载要求见文末

翻译 | 海波,海抒,狗小白

后期 | 郭丽,崔云柯

后台回复“字幕组”加入我们!

人工智能中的数学概念一网打尽!欢迎来到YouTube网红小哥Siraj的系列栏目“The Math of Intelligence”,本视频是该系列的第一集,讲解最优化和梯度下降的概念。后续系列视频大数据文摘字幕组会持续跟进,陆续汉化推出喔!

  • 全部课表详见:https://github.com/llSourcell/The_Math_of_Intelligence
  • 本集代码挑战:https://github.com/llSourcell/Intro_to_the_Math_of_intelligence

本期视频时长11分钟,来不及看视频的小伙伴,可以先拉到视频下方看文字部分。

视频内容

我是Siraj。欢迎来到“The Math of Intelligence”,在接下来的三个月里,我们将学习“机器学习”中相关的重要数学概念,也即所有你需要的微积分理论、线性代数、概率论和统计学的相关概念

前提条件呢,就是要掌握基本的python语法和代数,我们代码中的任何算法都不会用到正流行的机器学习程序库,因为这个课程的重点只是让你建立一种数学直觉,这种直觉能够帮助你更好地建立能从数据中学习的算法。

虽然你确实可以简单地套用黑盒子API,但是如果你有这种数学直觉,那你就能有究竟用哪种算法来完成自己工作的直觉,甚至能够从无到有地建立贴合自己需求的算法。作为人类,我们不断地通过五官获得数据,并通过某种方法从懵懂混沌中启迪开化,从而生存下来,感谢物种进化使我们的大脑能够处理这些杂乱的信息。

我们拥有这宇宙中最珍稀的资源:智慧,也即学习和应用知识的能力。将人类的智慧从大千动物王国中区分开来,其衡量的方法之一就是对梯子的使用,人类运用梯子的任务范围最为广泛,也印证了人类的智慧确实是最全面的智慧,但这并不意味着人类的智慧是最好的一种。

19世纪60年代 一个研究灵长类的博士 Jane Goodall推断出,黑猩猩在森林中生存了成千上万年,却从未出现繁衍数量过多或破坏其生存环境的问题;虎鲸能在睡觉时让其半边大脑轮换着休息,既能保证其休息,也能使之对周遭环境保持警惕。在某些方面上,动物的智慧优于人类。智慧包括很多层面,其想象为一个多维空间的可能性问题吧。

人类的大脑因其在数不尽的任务中,其神经系统几乎达到如艺术品般的成就,因而对建造人工智能而言 人类的大脑就是一个极好的现成的指南,但这并不是唯一的指南,我们能够也将会创造出来许许多多其他可能的智能种类。

有些看起来很熟悉,有些却十分陌生,就像阿法狗的第37招棋那样,世界上最棒的围棋选手也因这个走法而哑然,看似昏招,最后事实却证明这招(相较于人类经验)是更精妙的策略,并使它得到最终胜利。

许多智能的种类像交响曲一般,每种都由不同的乐器奏响,并不仅仅只是音乐强弱上的变化 其音调、节奏、音色、旋律均不相同。

我们生成的数据增长十分迅速,我是说,真的非常非常快,从你看这个视频的那个时间开始到现在,已经有足够你研究一生的数据产生出来了,这些也不过只有所有数据的千分之五而已,创造智能不仅仅是可有可无,它的存在是一种必需。运用得当,它能帮我们解决那些曾经不敢想的问题

那么我们从何开始?

机器学习的核心,其实是数学的最优解问题,这是一种思考方式,任何的问题都能被分解为寻求最优解的过程。我们想达到的目标就是,我们能建立一模型,一旦手头上有数据作为输入值丢进模型里就算出一个最优解来,实现这个目标的途径之一就是减少我们定义的错误值。

举个例子来说,将“今天打算穿什么”作为问题,我可以构架时尚度作为有效解,而不是选择舒适度作为衡量维度,并将“给负面评价的人群占比”定义为我想要最小化的错误值,甚至“我iOS应用的首页最优设计是什么”也可以作为问题。我可以选择一个应用设计以及其相应的使用者打分的数据组,而不是硬码出一些元素。

如果我想得到能够得到最高评分的设计稿,我可以(从数据组中)得到设计风格和评分之间的数据地图。这就是未来任何一层堆栈建立的方法,我们的数据有时被标签化了,有时却又并非如此。

我们有许多不同的技巧从数据中找规律,有时最优解的实现并非通过定义数据规律模式而是,通过探索大量的可能性,看看什么有效,什么无效,构建学习的过程有许多方式。但是最容易的是当我们使用标签化数据时,从数学的角度讲,我们有一些输入,有个X域,里面的每个点都具有我们观察到的特征,接着,我们得到的输出就是一个预测规则。我们必需学习X上未知分布的映射,来回答Y值是多少,我们必需测量一些性能指标的误差函数,所以我们要做的就是从一些可能的模型中选择能代表该函数的模型。

最初我们设置一些参数值来代表映射,并评估初始结果,评估误差,更新参数,重复这个过程,一遍遍的优化模型,直到它完全学习了这个映射。所以才带给我们这个视频的主题,一级优化,这是什么?是凸函数还是凹函数更容易进行优化?我认为是凸函数,我真心希望我的实验室小伙伴作出史诗般优化。我想我应该心怀感恩,并不是很多数据科学家,能从CERN(欧洲核子研究中心)获得资助来探索。她的名字叫什么?Eloise 我认为她在ICML上获了奖,我在想她是不是很可爱?我不会将工作和娱乐混为一谈,至少这次不是。

假设我有一堆数据点,这些只是小数据点,就像Apple拿来训练Siri的。它们都是x-y值对,x值代表一个人的骑行距离,代表他们消耗的卡路里量,我们可以像这样在一个图表中将他们画出来,我们该怎么做?我们可以试着画一条适合所有数据点的线。

但是看起来我们的点间隔太大而不能够画一条直线穿过所有的点,所以我们画一条最适线,这条线尽可能多的穿过数据点,代数告诉我们直线的方程式是y=mx+b,其中m表示线的斜率或陡度,b表示y轴截距点,我们想找到b和m的最优值,使得这条线适合尽可能多的数据点,这样给出任何一个新的x值,将它代入方程中 将会得到一个最接近的y值,我们的误差可以定义为接近程度,让我们从一个随机的b和m值开始,画这条线吧!

对于我们所拥有的每个数据单点,在随机画线中都可以计算它的相关y值,接着,我们将从其中减去y实际值以测量两者之间的距离,我们将误差平方使得下一步更容易,一旦我们将所有的值加起来将会得到一个单值,这个值代表我们刚才所画线的误差,现在我们重复这个过程,进行1337次,得到一堆不同的随机画线,我们可以创建一个3D图,显示每个关联的b和m值的误差值。

注意在图表中有一个低谷,在低谷的底部,误差值最小,所以相关的b和m将会是这条线的最佳拟合参数,其中所有数据点和我们的线的距离最短,但是我们是怎样找到它的?好吧我们需要尝试一堆不同的线来创建这个3D图,如果我们用一种更加有效的方式来做,而不是一遍遍没有任何头绪的随机画线,会怎样呢?

这样,我们绘制的每一条线都使我们越来越接近这个低谷的底部,我们需要一个方向才能降到这个低谷,如果给定函数,这个斜率将会指出一个方向,指向这个图向的极小值,当我们一遍一遍的重新画线时 可以用这个斜率作为我们的指南针,作为我们最佳重画的指导 就像“穿越死亡阴影峡谷”的指导,向着极小值直到斜率接近0。

在微积分中,我们把这个斜率称为函数的导数,因为我们正在更新这两个值 b和m,我们想要计算关于他们的导数——偏导数,关于一个变量的偏导数,就是计算该变量的导数而忽略其他变量。将要计算关于b的偏导数,然后再计算关于m的偏导数。为此我们使用幂规律 将指数乘以系数 指数减一,一旦我们得到这两个值,将会从函数中更新这两个值,方法是将现存的b和m值中减去他们,我们将会根据预先设置的迭代次数一直这样做,我们刚刚所做的优化技术称为梯度下降法。它是机器学习中最流行的一种,所以 在这次视频中你需要记住什么?3点导数是函数在给定点上的斜率 偏导数是该函数中关于一个变量的斜率,我们可以用它们来组成一个梯度 指向函数的局部极小的方向,在机器学习中梯度下降是一个非常流行的策略,用梯度来做这些。

现在轮到你们了,我为你们准备了编码挑战,在我为你们提供的不同数据集上实现梯度下降,通过GitHub链接获得具体信息喔(https://github.com/llSourcell/Intro_to_the_Math_of_intelligence)。

2017年7月《顶级数据团队建设全景报告》下载

关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

机器人参数坐标系有哪些?各参数坐标系有何作用?

工业机器人的坐标形式有直角坐标型、圆柱坐标型、球坐标型、关节坐标型和平面关节型。

16820
来自专栏大数据杂谈

Python中用K-均值聚类来探索顾客细分

在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你就可以…...

34930
来自专栏人工智能头条

家里有两只猫给挖坑,还有世界美食的诱惑,我就被无监督学习彻底收服了!

【导读】无监督学习是推断描述“未标记”数据的分布与关系的机器学习任务,即给予学习算法的示例是未被标记的,因此没有直接的方法来评估算法产生的准确性。无监督学习根据...

7120
来自专栏新智元

【名家】王培:仅靠概率论的机器学习无法实现通用智能

【新智元导读】王培认为,贝叶斯解释在通用智能系统中适用性有限,因此仅靠概率论的机器学习方法并不能让计算机拥有可比人脑的智能,概率论虽然是个好东西,但这条路并不能...

29330
来自专栏视觉求索无尽也

【文献检索】你的Paper阅读能力合格了吗(硕士生版)前言Paper从哪来Paper怎么读Paper如何写总结最后的最后参考资料

论文阅读一直是科研过程中至关重要的一环,如何收集论文,快速选取和课题匹配的论文,高效地把握论文核心思想是每个科研人员的必备素养,也是每个科研萌新(硕士研究生)苦...

26310
来自专栏人工智能头条

如何能既便宜又快速地获取大数据? | CCAI 演讲实录

11020
来自专栏AI研习社

博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型

国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%。其中滴...

44320
来自专栏数据派THU

17张思维导图,一网打尽机器学习统计基础(附下载)

来源:大数据文摘 作者:小越酱 原文: https://zhuanlan.zhihu.com/p/25884239?utm_medium=social&utm_...

1.4K90
来自专栏人工智能

什么时候强化学习未必好用?

作者 Jason Xie 编译 Erica Yi 编辑 Emily 强化学习(reinforcement learning)描述的是个体(agent)必须...

26480
来自专栏AI科技评论

学界 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型

国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%。其中滴...

28820

扫码关注云+社区

领取腾讯云代金券