1、基于MXNET框架的线性回归从零实现例子 下面博客是基于MXNET框架下的线性回归从零实现,以一个简单的房屋价格预测作为例子来解释线性回归的基本要素。...接下来我们希望探索价格与这两个因素的具体关系: 设房屋的面积为x1,房龄为x2,售出价格为y。我们需要建立基于输入x1和x2来计算输出yy的表达式,也就是模型(model)。...它们是线性回归模型的参数(parameter)。模型输出y'是线性回归对真实价格y的预测或估计。我们通常允许它们之间有一定误差。...2、实现部分(各个部分见代码) 2.1、生成数据集(随机生成批量样本数据与高斯噪声) 2.2、读取数据集(遍历数据集并不断读取小批量数据样本) 2.3、初始化模型参数(均值为0、标准差为0.01的正态随机数...image.png 4.2、迭代结果 image.png 4.3、线性回归模型真实权重参数与训练得到的参数比较:print(true_w, w) print(true_b, b) image.png
⑦ K-Means(K均值算法) ⑧ 随机森林 ⑨ 降维算法 ⑩ Gradient Boosting算法(梯度提升算法) GBM XGBoost LightGBM CatBoost 1.线性回归 线性回归通常用于根据连续变量估计实际值...还记得从墨水渍中找出形状的活动吗?K均值算法在某方面就类似于这个活动。观察形状,想象一下能找出多少种集群来! ?...如何决定K值: 在K均值算法中,我们有集群,每个集群有它自己的质心。一个集群内的质心和各数据点之间距离的平方和为这个集群的平方值之和。...为了根据新对象的属性对其进行分类,每个决策树都对新对象给出一个分类,我们称这一过程为该决策树“投票”给该分类。显然,得票最多的分类为新对象的分类(即随机森林的输出结果)。...10.3 LightGBM LightGBM是一种基于树模型的梯度提升框架。
的均方差之和最小所对应的特征和特征值划分点。表达式为: ? 其中, ? 为 ? 数据集的样本输出均值, ? 为 ? 数据集的样本输出均值。...2)预测方式 对于决策树建立后做预测的方式,上面讲到了 CART 分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。...下图给出不同种分裂策略的 AUC 变换曲线,横坐标为迭代次数,纵坐标为测试集 AUC,eps 为近似算法的精度,其倒数为桶的数量。 ?...C.稀疏特征优化 XGBoost 在进行预排序时只考虑非零值进行加速,而 LightGBM 也采用类似策略:只用非零特征构建直方图。...无论增益多大,乘以该比例之后几乎可以忽略;较大的那个拆分样本集,它几乎就是原始的样本集,增益几乎为零; 影响决策树学习:决策树依赖的是数据的统计信息,而独热码编码会把数据切分到零散的小空间上。
\_threads或者num\_thread或者nthread:一个整数,给出了LightGBM的线程数。...输出的结果形状为nsamples,nfeatures+1,之所以+1是考虑到bais的贡献。所有的贡献加起来就是该样本的预测结果。该参数只用于prediction任务。...默认为True如果为False则禁用缺失值功能。 zero\_as\_missing:一个布尔值,表示是否将所有的零(包括在libsvm/sparse矩阵中未显示的值)都视为缺失值。默认为False。...如果为False,则将nan视作缺失值。如果为True,则np.nan和零都将视作缺失值。 init\_score\_file:一个字符串,表示训练时的初始化分数文件的路径。...boost\_from\_average:一个布尔值,指示是否将初始得分调整为平均值(它可以使得收敛速度更快)。默认为True。它用于回归任务。
它选择了使观察样本值的可能性最大化的值作为参数,而没有(像一般的回归分析用到的一样)选使误差平方和最小化的值。 现在,你或许要问,为什么要求出对数呢?...一个集群内的数据点对于对等集群来说是同质,且异构的。 还记得从墨迹中找出形状的方法吗?从某种程度上来说,K-均值算法与此有点类似。观察形状及延伸方式来辨认有多少种集群。 ?...K-均值怎样形成集群: 1. K-均值为每个集群选择k个点,称为质心(centroid)。 2. 每个数据点与最近的质心形成一个集群,即k个集群。 3....为了根据属性将新对象进行分类,每一棵决策树都给出一个分类,称之为该决策树为该分类“投票”。森林选择(在所有树中)获得票数最多的分类。 每棵树的种植&培育过程: 1....LightGBM LightGBM是一个使用以树为基础的学习算法的梯度增强框架,采用分布式且高效的设计,具有以下优点: 训练速度更快且效率更高 降低内存使用量 精准度更高 支持并行和GPU学习 能够处理大规模数据
num_threads或者num_thread或者nthread:一个整数,给出了LightGBM的线程数。...输出的结果形状为[nsamples,nfeatures+1],之所以+1是考虑到bais的贡献。所有的贡献加起来就是该样本的预测结果。该参数只用于prediction任务。...默认为True如果为False则禁用缺失值功能。 zero_as_missing:一个布尔值,表示是否将所有的零(包括在libsvm/sparse矩阵中未显示的值)都视为缺失值。默认为False。...如果为False,则将nan视作缺失值。如果为True,则np.nan和零都将视作缺失值。 init_score_file:一个字符串,表示训练时的初始化分数文件的路径。...boost_from_average:一个布尔值,指示是否将初始得分调整为平均值(它可以使得收敛速度更快)。默认为True。它用于回归任务。
这是一种贪心的压缩感知恢复算法。OMP 用于近似拟合一个带约束的线性模型,其中约束影响模型的非零系数。OMP 是一种前向特征选择方法,可以近似一个固定非零元素的最优向量解,这与最小角回归类似。...先验概率是假设模型输出 y 是符合均值为 X_{θ} 的正态分布,正则化参数 alpha 被看作是一个需要从数据中估计得到的随机变量。...其他: 选择普通非线性回归的期望函数通常取决于我们对系统响应曲线的形状以及物理和化学属性行为的了解。...这个叶节点中所有训练样本标签的平均值就是新样本的预测值。 支持向量机回归。支持向量机能够应用于回归预测任务,主要得益于其ε-不敏感损失函数和核函数技巧。...对于回归问题,最终的预测结果是所有决策树预测结果的平均值。 深度森林(DeepForest)回归 。周志华老师团队的一项工作 DeepForest,它是一种新颖的基于决策树的集成学习方法。
官方给出的这个工具库模型的优势如下: 更快的训练效率 低内存使用 更高的准确率 支持并行化学习 可处理大规模数据 支持直接使用category特征 下图是一组实验数据,在这份实验中,LightGBM 比...如图所示,用8位整型存储,内存消耗可以降低为原来的1/8。...就算可以在这个类别特征进行切分,也会把数据切分到很多零碎的小空间上,如下左图所示。而决策树学习时利用的是统计信息,在这些数据量小的空间上,统计信息不准确,学习会变差。...算法流程如图所示: ①在枚举分割点之前,先把直方图按每个类别的均值进行排序。 ②接着按照均值的结果依次枚举最优分割点。 从下图可以看到,Sum(y)/Count(y)为类别的均值。...公式如下: 这里为什么不是 label 的均值呢?其实上例中只是为了便于理解,只针对了学习一棵树且是回归问题的情况。
通常被捆绑的特征都是互斥的(即特征不会同时为非零值,像one-hot),这样两个特征捆绑起来才不会丢失信息。...为了继续提高效率,LightGBM提出了一种更加高效的无图的排序策略:将特征按照非零值个数排序,这和使用图节点的度排序相似,因为更多的非零值通常会导致冲突,新算法在算法3基础上改变了排序策略。...算法流程如下图所示,在枚举分割点之前,先把直方图按照每个类别对应的label均值进行排序;然后按照排序的结果依次枚举最优分割点。从下图可以看到, 为类别的均值。...原生接口的回归 对于LightGBM解决回归问题,我们用Kaggle比赛中回归问题:House Prices: Advanced Regression Techniques,地址:https://www.kaggle.com...要想让LightGBM表现的更好,需要对LightGBM模型进行参数微调。下图展示的是回归模型需要调节的参数,分类模型需要调节的参数与此类似。 ? 图:LightGBM回归模型调参 6.
在没有数据的地方,你可以看到置信界限(conbdence bounds)如何增加(因此答案的不确定性增加)。 但线性回归不能给你这个。 这就是为什么我们需要贝叶斯线性回归。...在我们的例子中,我们可以说, 用概率分布指定参数 我相信参数β0可以用均值为0和标准差为3的正态分布表示。也就是说, ? β1也一样, ? 如果我们对β的许多值进行取样,我们会更接近真正的正态分布。...正如您对β0和β1所看到的,很多采样值接近0,,但β1与β0相比形状更加扁(β0与β1相比接近0的比例较低) ? 为什么是正态分布? 为什么我们使用正态分布?正态分布具有非常好的分析特性。...假设:零均值与常量方差噪声 在线性回归中,我们对这个噪音成分做了两个重要的假设。...也就是说,这是一种正态分布, • 它是零均值 • 它有一个常量的方差 有了这两个假设,并将噪声值插入到我们的公式中, ? 并有, ? 7. 最终的似然方程 因此代入得: ? 简化表示 我们写成, ?
1.12 逻辑回归 用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归...Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。...KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。...分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。...1.24 LightGBM LightGBM 是 XGBoost 一种高效实现,其思想是将连续的浮点特征离散成 k 个离散值,并构造宽度为 k 的直方图。
1.12 逻辑回归 用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归...Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。...KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。 KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。...分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。...1.24 LightGBM LightGBM 是 XGBoost 一种高效实现,其思想是将连续的浮点特征离散成 k 个离散值,并构造宽度为 k 的直方图。
官方给出的这个工具库模型的优势如下: 更快的训练效率 低内存使用 更高的准确率 支持并行化学习 可处理大规模数据 支持直接使用category特征 下图是一组实验数据,在这份实验中,LightGBM 比...如图所示,用8位整型存储,内存消耗可以降低为原来的1/8。...算法流程如图所示: ①在枚举分割点之前,先把直方图按每个类别的均值进行排序。 ②接着按照均值的结果依次枚举最优分割点。 从下图可以看到,Sum(y)/Count(y)为类别的均值。...公式如下: \frac{该bin容器下所有样本的一阶梯度之和}{该bin容器下所有样本的二阶梯度之和} + 正则项(参数 {cat \text{-} smooth}) 这里为什么不是 label 的均值呢...其实上例中只是为了便于理解,只针对了学习一棵树且是回归问题的情况。
我们观察一下,每次遍历一次切分点,都要重新计算一次均值,然后再算n次减法的平方和。 这必然不是最优解,怎么优化呢?我们往下看。想看结论的可以直接翻到最后。...为什么说这道题比较精妙呢,他其实跟GBDT有着千丝万缕的联系,可以推导出LightGBM论文里面一个非常隐晦以及关键的定义。 那么我们看看下面的一个问题。从GBDT的建树过程讲起。...在GBDT里面,我们使用回归树拟合负梯度的时候(注意不是残差,千万不要一大票博客被带跑偏了),整体的loss为如下。遍历一棵树的所有叶子节点,对预测值求一个偏差的平方和。 ?...每个叶子节点的值为落到当前叶子节点上的预测值的均值,这是使用平方和误差作为建回归树损失的推导结果,(注意建树损失函数和优化目标损失函数的一定要区分开)。 即当前叶子结点的预测值为 ?...好了原来的公式可以变成 ? 前面是跟切分位置无关的项。所以剩下找 ? 的最小值。所以GBDT在回归树建立的时候,分裂指标是variance gain(LightGBM 论文的定义) ?
我们知道 boosting 模型是前向加法,以第 t 步的模型为例,模型对第 i 个样本 的预测为: 其中 由第 t-1 步的模型给出的预测值,是已知常数, 是我们这次需要加入的新模型的预测值,此时...下图给出不同种分裂策略的 AUC 变换曲线,横坐标为迭代次数,纵坐标为测试集 AUC,eps 为近似算法的精度,其倒数为桶的数量。 ?...XGBoost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题))。...稀疏特征优化 XGBoost 在进行预排序时只考虑非零值进行加速,而 LightGBM 也采用类似策略:只用非零特征构建直方图。...无论增益多大,乘以该比例之后几乎可以忽略;较大的那个拆分样本集,它几乎就是原始的样本集,增益几乎为零; 影响决策树学习:决策树依赖的是数据的统计信息,而独热码编码会把数据切分到零散的小空间上。
我们知道 boosting 模型是前向加法,以第 t 步的模型为例,模型对第 i 个样本 的预测为: 其中 由第 t-1 步的模型给出的预测值,是已知常数, 是我们这次需要加入的新模型的预测值,此时...下图给出不同种分裂策略的 AUC 变换曲线,横坐标为迭代次数,纵坐标为测试集 AUC,eps 为近似算法的精度,其倒数为桶的数量。...XGBoost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题))。...稀疏特征优化 XGBoost 在进行预排序时只考虑非零值进行加速,而 LightGBM 也采用类似策略:只用非零特征构建直方图。...无论增益多大,乘以该比例之后几乎可以忽略;较大的那个拆分样本集,它几乎就是原始的样本集,增益几乎为零; 影响决策树学习:决策树依赖的是数据的统计信息,而独热码编码会把数据切分到零散的小空间上。
对于我们通常使用逻辑回归建模的二元结果,事情并不那么容易(至少在尝试使用图形方法时)。首先,Y对X的散点图现在完全没有关于Y和X之间关联的形状的信息,因此在逻辑回归模型中应该如何包含X....所述LOWESS技术是稍微更复杂的版本,其中,代替在X = x的邻域计算Y值的一个(可能加权的)平均值,我们拟合回归线(例如,线性)到数据围绕X = X 。...检查逻辑回归的函数形式 这给出了 该图表明Y的平均值在X中不是线性的,但可能是二次的。我们如何将这与我们从X线性进入的模型生成数据的事实相协调?...解释是在逻辑回归中,我们将Y = 1的概率的logit建模为预测变量的函数,而不是概率本身。对于不接近零或一的概率,logit函数实际上非常接近线性,而在概率不接近零或一的数据集中,这不是问题。 ?...我们可以通过绘制为我们计算的估计概率(Y的平均值)的logit来克服这个问题。在Stata中,lowess命令有一个logit选项,它给出了一个平滑的logit对X的图。
领取专属 10元无门槛券
手把手带您无忧上云