首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ML基础 线性模型

基本形式

线性模型形式简单、易于建模,但却蕴含着机器学习中的一些重要思想。线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

f(x)= \omega_1 x_1 + \omega_2 x_2 + \cdots + \omega_d x_d + b

f(x)=ω

1

x

1

2

x

2

+⋯+ω

d

x

d

+b

一般向量形式写成

f(x) = \omega^T x + b

f(x)=ω

T

x+b

线性回归

最小二乘法

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离之和最小(也称残差平方和最小)【残差:实际观测值和预测估计值之差】。其数学表达式为:

\min _{\omega} {||X \omega - y||}_2^2

ω

min

∣∣Xω−y∣∣

2

2

求解

\omega

ω

和 b 使

E_(\omega,b)=\sum_^m(y_i - \omega x_i - b)

E

(

ω,b)=∑

i=1

m

(y

i

−ωx

i

−b)

最小化的过程,称为线性回归模型的最小二乘“参数估计”。

正则化

L1正则

L2正则

Lasso 回归

Lasso 是估计稀疏系数的线性模型。它是由一个带有L1-norm的正则项的线性模型。最小化目标函数是:

\min_\omega \frac}||X\omega - y||_2^2 + \alpha ||\omega||_1

ω

min

2n

samples

1

∣∣Xω−y∣∣

2

2

+α∣∣ω∣∣

1

岭回归(Radge)

岭回归就是带L2系数惩罚的线性模型,

\min_\omega||X\omega - y||_2^2 + \alpha||\omega||_2^2

ω

min

∣∣Xω−y∣∣

2

2

+α∣∣ω∣∣

2

2

逻辑回归(对数几率回归)

广义线性模型

一般地,对于单调可微函数

g(·)

g(⋅)

,令

y = g^{-1}(\omega x + b)

y=g

−1

(ωx+b)

这样得到的模型称为“广义线性模型”,其中函数

g(·)

g(⋅)

称为“联系函数”。

LR模型原理

从广义线性模型出发,想要做分类任务,只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对数几率函数(一种Sigmoid函数)正是这样一个常用的替代函数:

y=\frac}

y=

1+e

−z

1

y=g^{-1}(·)

y=g

−1

(⋅)

。有

y = \frac}

y=

1+e

−(ω

T

x+b)

1

有:

ln \frac=\omega^T x + b

ln

1−y

y

T

x+b

一个事件的几率(odds)被定义为该事件发生于不发生的概率的比值,对于二分类问题(二项分布):

odds=\frac

odds=

1−p

p

对数几率:

logit(p)=log\frac

logit(p)=log

1−p

p

由此可看出,式

y=\frac}

y=

1+e

T

x+b)

1

实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率(逻辑)回归”。

然后,为了确定参数

\omega

ω

b

b

,将逻辑模型中的y看做后验概率估计

p(y=1|x)

p(y=1∣x)

,则有:

ln\frac=\omega^T x + b

ln

p(y=∣x)

p(y=1∣x)

T

x+b

显然,有

p(y=1|x)=\frac}}

p(y=1∣x)=

1+e

T

x+b)

e

T

x+b)

p(y=0|x)=\frac}

p(y=∣x)=

1+e

T

x+b)

1

参数估计

广义线性模型的参数估计常通过加权最小二乘法或极大似然法。

这里使用极大似然法,其思想是找到一组参数,使得在这组参数下,样本属于真实标记的似然度(概率)最大。

L(\omega,b)= \prod{[\pi(x_i)]^[1-\pi(x_i)]^}}

L(ω,b)=∏[π(x

i

)]

y

i

[1−π(x

i

)]

1−y

i

对数似然:

lnL(\omega, b)=\sum{[y_iln \pi(x_i)+(1-y_i)ln(1-\pi(x_i))]}

lnL(ω,b)=∑[y

i

lnπ(x

i

)+(1−y

i

)ln(1−π(x

i

))]

=\sum{[y_iln \frac{\pi(x_i)}}+ln(1-\pi(x_i))]}

=∑[y

i

ln

1−π(x

i

)

π(x

i

)

+ln(1−π(x

i

))]

=\sum{[y_i(\omega \cdot x_i)-ln(1+e^{\omega \cdot x_i})]}

=∑[y

i

(ω⋅x

i

)−ln(1+e

ω⋅x

i

)]

对应的损失函数:

J(\omega) = - \fraclnL(\omega)

J(ω)=−

N

1

lnL(ω)

最优化方法

逻辑回归模型的参数估计中,最后就是对J(W)求最小值。这种不带约束条件的最优化问题,常用梯度下降或牛顿法来解决。

使用梯度下降法求解逻辑回归参数估计

求J(w)梯度:g(w):

微信号:

MasterAlgorithm

简介:智能即算法,包括但不限于算法及机器学习、深度学习。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180513G09ROO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券