image
线性模型(linear model)试图学得一个通过属性的线性组合来进行
预测的函数:
image
向量形式:
image
简单、基本、可解释性好
image
image
image
让一个六年级的孩子在不问同学具体体重多少的情况下,把班上同学按照体重从轻到重排队。这个孩子会怎么做呢?
image
他有可能会通过观察大家的 身高 和 体格 来排队。
面积 (x,平方英尺) | 价格 (y,千美元) |
---|---|
2104 | 460 |
1416 | 232 |
1534 | 315 |
852 | 178 |
... | ... |
image
训练集
面积(x1,平方英尺) | 卧室个数(x2,个) | 楼层(x3,层) | 房龄 (x4,年) | ... | 价格(y,千美元) |
---|---|---|---|---|---|
2104 | 5 | 1 | 45 | ... | 460 |
1416 | 3 | 2 | 40 | ... | 232 |
1534 | 3 | 2 | 30 | ... | 315 |
852 | 2 | 1 | 36 | ... | 178 |
测试集
面积(x1,平方英尺) | 卧室个数(x2,个) | 楼层(x3,层) | 房龄 (x4,年) | ... | 价格(y,千美元) |
---|---|---|---|---|---|
1500 | 3 | 2 | 3 | ... | ? |
image
image
image
我们希望找到最好的权重/参数
image
= [
image
]
如何衡量“最好”?
我们把x到y的映射函数f记作
image
的函数
image
定义损失函数为:
image
image
均方误差损失是一个凸函数
image
image
====>
image
逐步迭代减小损失函数(凸函数)
如同下山,找准方向(斜率),每次迈进一小步,直至山底
一元的损失函数
image
image
二元的损失函数
image
image
====>
image
太小收敛速度太慢 太大会震荡甚至不收敛
一元的损失函数
image
image
image
实际工业界使用的各种模型都存在过拟合的风险:
通知正则化添加参数“惩罚”,控制参数幅度 限制参数搜索空间,减小过拟合风险
image
对于样本
image
如果我们希望用线性的映射关系去逼近y值 可以得到线性回归模型
image
有时候关系不一定是线性的 如何逼近y 的衍生物?
比如令
image
则得到对数线性回归 (log-linear regression) 实际是在用
image
逼近y
image
电子书:https://iosdevlog.gitbooks.io/aidevlog/ML/Regression.html