“上次课讲了机器学习的模型表示,讲了一个线性模型的例子,那怎样在可能的拟合直线里选择一条最合适的呢?有没有数学的方法让这个直线合适还是不合适变得可以量化呢?这就要说代价函数了。”
01
—
视频
02
—
笔记
本次课前半段内容非常简单,带领我们一起复习初中平面几何的知识,后半段给出了代价函数(Cost function)的一般定义。
2.1从一元线性模型看代价函数的引入
上一节课,卖房子的那个训练集,我们说用一个直线的方程来拟合它们。如下图,在下面假设的直线方程。
\theta_{0}, \theta_{1}的变化,会改变直线的走向,让直线更好的拟合实际训练集中的那些已有的那些点点。
已有的训练集中的点分布如下图,
通过调整参数,可以得到这样一理想的条直线。
那有没有一种方法让拟合直线是否理想这件事变得可以量化呢?
针对那一堆训练集里面x^{(i)} 对应的y^{(i)}是已知的,如果把训练集中的每个x^{(i)}入我们用于拟合的那个直线的公式 中都可以得到一个估计值 , 用这个估计值和实际值之差的平方,可以衡量我们估计值和实际值的偏差情况。
我们如果把所有m个偏差的平方给它们求和,就会得到一个数,这个数呢,可以衡量我们的拟合曲线对所有的已知训练点的偏差情况。如果有办法把这个和降到最低呢,我们也就找到了那条最中庸,也是最适合用来做这个房子买卖这件事的预测直线。
对上面的方差函数变一下形,
上面这个公式呢,就是我们的cost function了。至于为什么要用平方,不用绝对值?那是因为平方可以求导(容易求导意味着容易求极值),平方一求导多出一个2,所以就在前面加一个2m的分母。
如果对误差函数还有点懵叉叉,且听下回。