机器学习问题,大致包含这是哪个方面:
举个例子:
机器学习的目的,就是在确定好模型(假设集)的前提下,构建目标函数构建优化问题,然后通过优化算法求解模型的最优参数,通常可以表达成如下式子:
θ=argminθ1N∑i=1NL(yi,f(xi,θ))+λϕ(θ)
\theta = \arg\min_{\theta} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i, \theta)) + \lambda \phi(\theta)
式子左边表示经验风险函数,损失函数是其核心部分;式子右边是正则项。式子整体是结构风险函数,其由经验风险函数和正则项组成。
逻辑回归的经验风险函数如下:
Ein=1N∑i=1Nlog(1+exp(−ynwTxn))
E_{in} = \frac{1}{N} \sum_{i=1}^N \log(1+\exp(-y_n w^T x_n))
其损失函数叫做交叉熵:
L(yn,xn,w)=log(1+exp(−ynwTxn)
L(y_n, x_n, w) = \log(1+\exp(-y_n w^T x_n)
其函数图像如下(横坐标轴代表ysys,即ywTxyw^Tx):
最小二乘的经验风险函数如下:
Ein=1N∑i=1N(yn−wTxn)2
E_{in} = \frac{1}{N} \sum_{i=1}^N (y_n-w^T x_n)^2
其损失函数为平方损失函数:
L(yn,xn,w)=(yn−wTxn)2
L(y_n, x_n, w) =(y_n-w^T x_n)^2
其函数图像如下(横坐标轴代表ysys,即ywTxyw^Tx):
软间隔的SVM有如下表示:
s.t.minb,w,ξ12wTw+C∑n=1Nξnyn(wTxn+b)≥1−ξn,ξn≥0
\begin{split} &\min _{b,w,\xi}\frac{1}{2} w^Tw + C\sum_{n=1}^N \xi_n \\ s.t. &y_n(w^Tx_n +b) \ge 1-\xi_n,\xi_n \ge 0 \end{split}
将约束条件放到最小化的式子中得到软间隔SVM的结构风险函数:
minb,w,ξ12wTw+C∑n=1Nmax(0,1−yn(wTxn+b))
\min _{b,w,\xi}\frac{1}{2} w^Tw + C\sum_{n=1}^N \max(0,1-y_n(w^Tx_n +b))
软间隔SVM的损失函数为Hinge损失函数:
L(yn,xn,w,b)=max(0,1−yn(wTxn+b))
L(y_n, x_n, w,b) = \max(0,1-y_n(w^Tx_n +b))
其图像为:
在AdaBoost中,数据权重的更新方式为:
u(t+1)nu(t+1)nu(T+1)n∑n=1Nu(T+1)n=u(t)n◊−yngt(xn)=u(t)nexp(−ynαtgt(xn))=1Nexp(−yn∑t=1Tαtgt(xn))=1N∑n=1Nexp(−yn∑t=1Tαtgt(xn))
\begin{split} u_n^{(t+1)} &= u_n^{(t)} \Diamond^{-y_n g_t(x_n)} \\ u_n^{(t+1)} &= u_n^{(t)} \exp(-y_n \alpha_t g_t(x_n)) \\ u_n^{(T+1)} &= \frac{1}{N} \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n)) \\ \sum_{n=1}^N u_n^{(T+1)} &= \frac{1}{N} \sum_{n=1}^N \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n)) \end{split}
AdaBoost的训练的目标就是减少∑Nn=1u(T+1)n\sum_{n=1}^N u_n^{(T+1)} ,因此其风险函数为:
1N∑n=1Nexp(−yn∑t=1Tαtgt(xn))
\frac{1}{N} \sum_{n=1}^N \exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n))
其损失函数为:
L(yn,xn,α,g)=exp(−yn∑t=1Tαtgt(xn))
L(y_n, x_n, \alpha, g) =\exp(-y_n \sum_{t=1}^T\alpha_t g_t(x_n))
其损失函数的图像为: