我们将要学习的第一个学习算法:线性回归
将会用这个模型对房价进行预测。
假设咱们有这么一个数据集。(别嫌弃手画的不好。- -)
问题:假如(我就是喜欢写这么多个假如:) )你有个朋友有1250feet²的房子,应该卖多少钱?
我们观察一下这里的数据集,有价格随着房子大小增长的趋势。可以先用个最简单的线性模型(就是一条直线)去拟合数据。
答案:可以看到1250feet²的房子售价大约$210k
这就是最简单的一个回归问题。
这里要注意区分监督学习和回归问题
监督学习:数据中的每个样本都有给定的标签或相对应的“答案”(也就是这里的价格)回归问题:预测输出为连续值的问题
一般来说,在监督学习中,我们用来训练模型的数据集叫训练集
下面是一个房价预测的训练集:
这里我们约定一些标记:
m = 训练集的样本数量
x = 输入变量 / 特征
y = 输出变量 / 目标变量
用 (x,y)表示一个单一的样本
用(x^(i),y^(i))表示第i个样本
下面来看一下监督学习的工作流程:
先将训练集喂给学习算法
算法输出一个h(“假设函数”)
然后将一个个样本的输入特征(x),输入给h
h函数会输出一个预测价格
这里的关键就是要设计一个模型来表示我们的假设函数h
这里我们选择一开始所表示的线性模型(就是一条直线)
相信这个模型大家初中就接触过了。就是将y预测成x的线性函数。
这个就是线性回归的模型表示。
领取专属 10元无门槛券
私享最新 技术干货