多元线性回归
多线程
多元线性回归实践
通过将训练样本中不同的特征的取值范围限制在大致相同的范围内,可以加快梯度下降的收敛速度。这是因为,当输入的范围比较小的时候,θ的递减速度比较快,而输入的范围比较大的时候,递减速度会变慢。理想情况下,可以通过对输入变量进行处理,将其限制在一个范围内,这个范围可能是或。并不需要严格在这个范围内,因为我们的目的仅仅是让算法执行速度更快一些。
正规方程
梯度下降给出了最小化代价函数的算法,本节我们要讨论的另一种方式,是一种不基于迭代的算法,而是通过一个直接的计算公式,称为正规方程(Normal Equation):
是指一个的矩阵,其中m是指样本数量,n是特征个数,之所以是,是因为第一列用全1填充。是一个的向量,表示样本的结果。可以从数学上证明正规方程得到的能使代价函数最小化。对于使用正规方程计算时,我们上面提到的特征缩放和归一化。
对比一下梯度下降和正规方程解法的优劣:
特性冗余,即两个特性之间联系比较紧密,比如存在线性依赖关系
特性比样本多,即(m ≤ n)
解决办法通常就是删除一些冗余的特性,或者简化特性。
线性回归代码总结
在整个线性回归问题中,主要有如下几个算法需要实现:
代价函数
梯度下降算法
特征缩放
正规方程
使用和利于快速验证算法和模型。在使用这两种编程语言和平台时,要始终以向量和矩阵的思维方式去思考,这样才能更好的利用两种语言的优势,将很多看似复杂的公式用几行代码实现。
夏洛克 AIOps
Make Data Think
人工智能 | 机器学习 | IT运维
领取专属 10元无门槛券
私享最新 技术干货