本节将主要介绍逻辑回归的$Hypothesis\ Function$(假设函数)
对于二元分类问题来讲,给定一个输入特征向量$X$,它可能对应一张图片,你想识别这张图片看它是否是一只猫的图片,你想要一个算法能够输出预测,称之为$\hat{y}$,也就是你对实际值$y$的估计
我们用$\omega$来表示逻辑回归的参数,这也是一个$n_x$维向量(因为$\omega$实际上是特征权重,维度与特征向量相同),参数里面还有$b$,这是一个实数(表示偏差)。所以给出输入$x$以及参数$\omega$和$b$之后,我们应该如何产生输出预测值$\hat{y}$,一件你可以尝试却不可行的事是让$\hat{y} = \omega^Tx+b$
这时我们得到的是一个关于输入的线性函数,这对于二元分类问题来讲不是一个非常好的算法,因为你想让$\hat{y}$表示实际值$y$等于1的机率的话, $\hat{y}$应该在0到1之间。那么就存在一个问题,因为$\omega^Tx+b$可能比1要大得多,或者甚至为一个负值。对于你想要的$y$在0和1之间的概率来说它是没有意义的,因此在逻辑回归中,我们的输出$\hat{y}$应该是等于由上面得到的线性函数式子作为自变量的sigmoid函数,公式如上图最下面所示,将线性函数转换为非线性函数
下图是$sigmoid$函数的图像,如果我把水平轴作为$z$轴,那么关于$z$的$sigmoid$函数是这样的,它平滑地从0走向1,曲线与纵轴相交的截距是0.5
$sigmoid$函数的公式是$\sigma(z) = \frac{1}{1+e^{-z}}$,如果$z$非常大那么$e^{-z}$将会接近于0,$\sigma(z)$将会接近于1。相反地,如果$z$非常小或者说是一个绝对值很大的负数,那么$e^{-z}$会变成一个很大的数,所以$\sigma(z)$就接近于0。因此当你实现逻辑回归时,你的工作就是去让程序(机器)学习参数$\omega$以及$b$,使得$\hat{y}$成为对$y=1$这一情况的概率的一个很好的估计