本文是斯坦福大学 CS229 机器学习课程的基础材料,原始文件下载[1]
原文作者:Arian Maleki , Tom Do 翻译:石振宇[2] 审核和修改制作:黄海广[3] 备注:请关注github[4]的更新。线性代数的翻译见(这篇文章)。
概率论复习和参考
概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。
尽管训练集的大小为m,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集的“有效大小”的效果。
4.2 随机向量
假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向量中是很方便的...我们称结果向量为随机向量(更正式地说,随机向量是从到的映射)。应该清楚的是,随机向量只是处理个随机变量的一种替代符号,因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。
一般来说,高斯随机变量在机器学习和统计中非常有用,主要有两个原因:
首先,在统计算法中对“噪声”建模时,它们非常常见。通常,噪声可以被认为是影响测量过程的大量小的独立随机扰动的累积;根据中心极限定理,独立随机变量的总和将趋向于“看起来像高斯”。
其次,高斯随机变量便于许多分析操作,因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。我们将在本课程稍后遇到这种情况。
一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》(A First Course on Probability by Sheldon Ross)。
[1]
原始文件下载: http://cs229.stanford.edu/summer2019/cs229-prob.pdf
[2]
石振宇: https://github.com/szy2120109
[3]
黄海广: https://github.com/fengdu78
[4]
github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math