文章/答案/技术大牛

发布

首页视频第 2 章监督学习：线性模型（1）

第 2 章监督学习：线性模型（1）原创

2021-06-182021-06-18 10:57:28播放6

点赞1 收藏 0

用于回归的线性模型，线性回归（又名普通最小二乘法），岭回归，lasso

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:02
2.3.3线性模型线性模型是在实践中广泛使用的一类模型，几十年来被广泛研究，它可以追溯到100多年前。线性模型利用输入特征的线性函数line function进行预测，稍后会对此进行解释。用于回归的线性模型。对于回归问题，线性模型预测的一般公式如下。Y hat等于W0乘以X0加W1乘X，一直加到WP乘上XP再加B。这里X0到XP表示单个数据点的特征。本例中特征个数为P加一。W和B是学习模型的参数。WHY是模型的预测结果，对于单一特征的数据集，公式如下。Y hat等于W0乘以X0再加B，你可能还记得这就是高中数学里的直线方程，这里W0是斜率，B是Y轴的偏移。对于有更多特征的数据集，W包含沿每个特征坐标轴的斜率。或者你也可以将预测的响应值看作输入特征的加权，求和权重由W的元素给出，可以取负值。
01:14
下列代码可以在一维V数据集上学习，参数W，零和B。我们在图中添加了坐标网格，便于理解直线的含义。从W0可以看出，斜率应该在0.4左右，在图像中也可以直观地确认这一点。
02:03
截距是指预测直线与Y轴的交点比零越小也可以在图像中确认。用于回归的线性模型可以表示为这样的回归模型，对单一特征的预测结果是一条直线，两个特征时是一个平面，或者在更高维度及更多特征时是一个超平面。如果将直线的预测结果与图二杠十中的k nes的预测结果进行比较，你会发现直线的预测能力非常的受限。似乎数据的所有细节都丢失了，从某种意义上来说，这种说法是正确的。假设目标Y是特征的线性组合，这是一个非常强的也有点不现实的假设。但观察一维数据，得出的观点有点片面。对于有多个特征的数据集而言，线性模型可以非常强大。特别的，如果特征数量大于训练数据点的数量，任何目标Y都可以在训练集上用线性函数完美的拟合。
03:00
有许多不同的线性回归模型，这些模型之间的区别在于如何从训练数据中学习参数W和B，以及如何控制模型的复杂度。下面介绍最常见的线性回归模型。现行回归又名普通最小二乘法。线性回归或者普通最小二乘法ordinary list squares OS是回归问题最简单也最经典的线性方法。线性回归寻找参数W和B，使得对训练集的预测值与真实的。回归目标值Y之间的均方误差最小，均方误差Miss y l是预测值与真实值之差的平方和除以样本数。线性回归没有参数，这是一个优点，但也因此无法控制模型的复杂度。先来讲一下线性回归的理论。给定数据集D等于X1Y1X2YL1直到XMY，其中Xi等于XI1XL1直到Xi d属于二。
04:05
实数题。线性回归lines试图学得一个线性模型，以尽可能准确的预测实值输出标记。我们先考虑最简单的一种情形，输入属性的数目只有一个。现行回归。试图学得。Fxi等于w Fi再加上B，使得fxi近似于Yi。如何确定W和B呢？显然关键在于如何度量FX与Y之间的差别。军方误差是回归任务中最常用的性能度量，因此我们可以试图让军方误差最小化。也就是我们要求W和B，使得它对I等于一到m f Xi减去Yi花弧的平方求和。最小。在这里我做了一步简化。
05:01
如果他这是要确保均方误差最小的话，前面会多一个M分之一。但是。显然，M分之一是一个常数。求一个函数的最小值。前面的常数。可以先不去管他。我为了减少麻烦。把M分之一给省略了。军方误差有非常好的几何意义，它对应了常用的OG离的距离，或者简称欧式距离。基于军方误差。最小化来进行模型求解的方法称之为最小二乘法list method。在线性回归中，最小二乘法就是试图找到一条直线，当然对于单一特征是如此，使所有样本到直线上的欧式距离之和最小。求解W和B。使得EWB等于。I等于一到MC吗？
06:00
Yi减去w Xi再减去B，整体的平方最小化的过程。称之为线性回归模型的最小二乘参数估计per e eation，我们可以将EWB分别对W和B求导，得到这两个式子。它是E比上，它是W等于两倍的。W乘上西格玛I等于一到m Xi平方的求和减去西格玛I等于一到M。Yi减去B整体乘上Xi的，求和。他是E比上他是B等于两倍的MB，再减去。I等于一到M西格玛。Yi减去w Xi的整体求和。的整体。然后令这两个式子为零，可以得到W和B，最优解的B是解。W等于。西格玛I等于一到m Yi乘上Xi减去X8的整体除以。
07:03
西格玛I等于一到m Xi的平方。减去M分之一。西格玛I等于一到mxi，求和之后的平方。B等于M分之一，西格玛I等于一到m Yi减去。W Xi的整体求和，其中X8等于M分之一。I等于一到MC吗？XI。整体的求和，它表示的是X的均值。更一般的情形是，如同数据集D。样本由第一个属性描述，此时我们试图觉得fxi等于Fi，乘上W，再加上B，使得fxi近似于Yi，其中Xi是一个行向量。
08:00
W是一个列向量。B是一个数，这称之为多元线性回归Mar lines。类似的，可以利用最小二乘法来对W和B进行参数估计。为了便于讨论，我们把W和BC收入向量形式WH等于W的转置逗号B整体的转置。也是一个列向量，W也是一个列向量，相应的把数据1D表示为一个M乘上D加一大小的矩阵X，其中每行对应一个数据点，该行的第一个元素对应数据点的第一个。属性值最后一个元素横置为一，就像这样。其中Xi是一个数Xi。对应的是一个行向量。再把标记也写成向量形式，Y等于。Y1 Y21直到YM的转置。
09:00
类似于第二个式子。我们可以得出。WC等于。Minimum w。对这个函数。使得这个函数达到最小值，找到一个WH。令1WH等于。Y减去X乘上W整体的转置，再乘上Y减去X乘上W。对WH求导。比较复杂，我这里直接给出结论。令这个式子为零，可以得出WH最优解的B式解，但由于涉及矩阵例子计算。比单变量的情形要复杂一些，下面直接做一个简单的讨论。当X转置成长X为满置矩阵for rank matrix或正定矩阵positive。DeFinite max时，另第八个式子，也就是这个式子为零，可以得到。
10:02
WXC等于。X转至乘上X整体的力。再乘上X转至Y，令Xi等于Xi逗号一，则最终学得的多元线性回归模型为f Xi hat等于Xi的hat乘上。X的转值X。整体能力。再乘上X转置乘以Y。然而，现实任务中，X转制乘上X往往不是。满质矩阵。例如，在许多任务中，我们会遇到大量的属性，其数目甚至超过训练数据点的数量，导致X的列数多余，行数X转至X显然不满值，此时可以解除多个W。多个W，他们都能使军方误差最小化，选择哪一个作为输出？常见的做法是引入正则画像。下面我们来证明。
11:00
为什么？当特征数量大于训练点数量时，任何目标Y都可以在训练数据集上。进行完美的拟合。懂一点线性代数的话，很容易理解。进第八个式子，也就是这个式子为零，可以得到。X转至X乘上W等于X转至乘上Y，令A等于系数矩阵吗？X转值XB等于右边的常数向量X转值乘成Y。就有A乘上WH等于B。很熟悉的格式了，对不对？因为特征数量大于训练点数量，所以M小于D。又因为A的值R等于RX转值X等于RX小于等于M。因为肯定是小玉的鱼。它的行列的最小值，也就是M。
12:03
啊，A杠等于。RA。竖线B等于RX转至X，竖线X转至Y等于R。这个时候可以把X转值提出去，提取公因式X转至乘上。X竖线Y小于等于。X的转置的置。呵。X出现Y2个值的最小值。啊，X竖向Y，它是要大于等于2X。而RX转置是等于RX，所以RA杠小于等于RX，又因为RA杠大于等于R，我们刚才推出来R就等于RX嘛，所以RA杠等于RA。也就是。两个矩阵的质是相等的。所以方程组是有解的。因为M小于D，所以M小于D加一，所以方程个数小于未知数的个数。所以方程组有无数个解。
13:04
因此，如果特征数量大于训练点数量，任何目标Y都可以在训练集上用线性函数完美的拟合。下列代码可以生成图二杠一一中的模型。
14:53
斜率参数W也叫权重或系数，被保存在Co EF下划线属性中，而偏移或截距B被保存在intercept下划线属性中。
15:47
你可以，你可能注意到了cof下划线和intercept下划线结尾处的奇怪的下划线。S总是将训练数据。总是将从训练数据中得出的值保存在以下划线结尾的属性中，这是为了将其与用户设置的参数区分开。
16:09
Intercept属性是一个浮点数，而Co EF属性是一个朗派数组，每个元素对应一个输入特征。由于外部数据集只有一个输特征，所以L2.coef下划线只有一个元素。我们来看一下训练集和测试集的性能。
17:17
二方分数约为0.66，这个结果不是很好，但我们可以看到训练集和测试集上的分数非常接近，这说明可能存在嵌拟合，而不是过拟合。对于这个一维数聚集来说，过拟合的风险很小，因为模型非常简单或受限。然而，对于更高维的数据集，既有大量特征的数据集，线性模型将变得更加强大，供拟合的可能性也会变大。我们来看一下linesing在更复杂的数据集上的表现，比如波士顿房价数据集，记住，这个数据集有506个样本。和。104个导出特征。首先加载数据集，并将其分为训练集和测试集。
18:06
然后像前面一样构建线性回归模型。
19:18
比较一下。训练题和测试题的分数。我们可以发现我们在训练集上的预测非常的准确。但测试集上。阿芳要低得多。训练集和测试集之间的性能差异是过拟合的明显标志，因此我们试图找到一个可以控制复杂度的模型。
20:05
标准线性回归最常用的替代方法之一就是领回归read regression。下面来看一下。零回归也是一种用于回归的线性模型，因此它的预测公式与普通最小化乘法相同。但零回归中对系数W的选择不仅要在训练题上得到好的预测结果，而且还要拟合附加约束，我们还希望系数尽量的小。换句话说，W的所有元素。都应接近于零。直观上看，这意味着每个特征对输出的影响应尽可能小，其斜率很小，同时仍给出很好的预测结果。这种约束就是所谓正则化的一正则化regular regularization的一个例子。正则化是指对模型做出显示约束，以避免过逆和令回归。用到的这种被称之为LR振则化。
21:03
从数学的观点来看。锐惩罚了系数的L2范数，或者说W的欧式长度。背后的数学，数学知识我就一笔带过。领回归确定W等于W11直到W2 W1 W21直到WD的转置和B，使得。还等于一到M西格玛Yi减去Xi乘上W，再减去B。整体的平方加上阿尔法乘上。W魔二的。平方。最小，其中Xi是一个行向量。W模下标二等于根号下西格玛I等于一到DW的平方求和。
22:00
阿尔法就是对应的参数。领回归在S克点Le model.read中实现，下面来看一下他对扩展的波士顿房价数据集效果如何。
23:33
可以看出，Rage在训练集上的分数要低于landing，但在测试集上分数更高，这和我们的预期一致。线性回归对数据存在过拟合，RA是一种约束更强的模型，所以更不容易过拟合。复杂度更小的模型意味着在训练集上的性能更差，但泛化性能更好。由于我们只对泛化性能感兴趣，所以应该选择锐模型，而不是lineing模型。
24:01
锐减模型在模型的简单性系数都接近于零与训练及性能之间做出权衡。简单性和训练及性能二者对于模型的重要程度可以由用户通过设置参数阿尔法来指定。在前面的例子中，我们用的是默认参数尔法等于1.0，但没有理由认为这会给出最佳权衡阿尔法的最佳性能。阿尔法的最佳设置设定值取决于用到的具体数据集。增大阿尔法会使系数更加趋向于零，从而降低训练集的性能，但可能会提高泛化的性能。
25:28
这里的参数阿尔法。对了。就是这个公式中的阿尔法。减小阿尔法可以让系数受到限制更小，即在图二杠一。中向右移动，对于非常小的阿尔法值，系数几乎没有受到限制，我们得到一个与莱gras类似的模型。
26:28
这里阿尔法等于0.1，似乎效果不错。我们可以尝试进一步减小阿尔法以提高泛化性能。现在注意参数阿尔法与图二杠一中模型复杂度的对应关系。第五章将会讨论选择参数的正确方法。我们还可以查看。阿尔法取不同值时，模型Co EF下划线的属性，从而更加定性的。理解阿尔法参数是如何改变模型的？
27:00
更大的阿尔法表示约束更强的模型。所以我们预计大阿尔法对应的Co EF下划线元素比小阿尔法对应的Co EF下划线元素要小，这一点可以在图二杠12中得到证实。
29:45
这里的X轴对应。Co EF下划线的元素X等于零。对应第一个特征的系数X等于一对应第二个特征的系数，以此类推，一直到X等于100。Y轴。
30:02
表示该系数的具体数值。这里需要记住的是，对于阿尔法等于十，系数大多在负三和三之间，对于阿尔法等于一的锐模型，系数要稍大一点，对于阿尔法等于0.1。点的范围更大，对于没做正则化的线性回归及阿尔法等于零，点的范围很大，许多点都超出了。这幅图的范围。还有一种方法可以理解正则化的影响，就是固定阿尔法值，但改变训练数据量。我们对波士顿房价数据集做二次抽样，并在数据量逐渐增加的子数据集上分别对line gras和re阿尔法等于一两个模型进行评估，将模型性能作为数据集大小的函数进行绘图，这样的曲线叫做学习曲线。
31:18
正如所预计的那样，无论是零回归还是线性回归，所有数据集大小对应的训练分数都高于测试分数。由于零回归是正则化的，因此它的训练分数要整体低于线性回归的训练分数，但领回归的测试分数要更高，特别是对于较小的子数据集，如果少于400个数据点。线性回归学不到任何内容，随着模型可用的数据越来越多，两个模型的性能都在提升，最终线性回归的性能追上了零回归。这里要记住的是，如果有足够多的训练数据，正则化变得不那么重要，并且零回归和线性回归将具有相同的性能。在这个例子中，二者相同恰好发生在。
32:03
整个数据集的情况下，这只是一个巧合。在这幅图中。还有一个有趣之处。就是线性回归的训练性能在下降，如果添加更多数据，模型将难，更加难以更加难以过拟合或记住所有的数据。As so拉扫除了瑞，还有一种正则化的线性回归是。除了瑞，还有一种正则化的线性回归是拉与领回归相同。使用拉也是约束系数，使其接近于零，但用到的方法不同，叫做L1正则化。拉惩罚系数向量的L1范数，换句话说就是系数的绝对值之和。L正则化的结果是使用拉造时，某些系数刚好就是零，这说明某些特征被模型完全的忽略。这可以看出。
33:04
是一种自动化的特征，选择某些系数刚好为零这样的模型。更容易解释，也可以呈现模型最重要的特征。简单介绍一下。老。背后的数学逻辑。确定W等于W1W1WD的转置和B，使得2M分之一I等于一到MC格玛Yi减去Xi乘上W，再减去B整体的平方，求和。加上阿尔法乘上。W的一方数最小，其中。是一个行向量。W的一方数等于I等于一到D。Wi的绝对值求和，阿尔法就是对应的参数。
34:06
下面我们将拉应用在扩展的波士顿房价数据集上。
35:50
这段代码中。存在两个问题。第一。拉点Co EF这么一个数组不等于零表示什么意思？一级。
36:01
派函数sum。能判函数sum很容易猜出来求和吗？我们首先来看一下。拉萨点Co EF数组不等于零表示什么？其中拉so.co EF是一个一为数组，拉so.co EF不等于零表示什么？表示一个长度和拉点cof相等且取值只有零和一的一维速度。计算其中每个元素的过程，可以看一下这个表格。首先是索引。拉点CEF对应的。对应索引出的值以及拉点E不等于零对应索引出的值。通过表格我们可以发现，对任意的I，拉点Co Fi不等于零，则拉点Co EF。
37:03
不等于零的I，也就是这个新数组对应索引I处的值等于一，否则拉点cof不等于零。的索引为，I的取值等于零。千万不要理解成比较一个数组和零。是否不相等？看到囊派函数number，派点sum，它的原型。大家可以自己看一下。参数A，一个类似数组的对象存放要进行求和的数据。Axis类型，Long type。整数整数元组三选一，可选参数沿哪一条轴或者哪一些轴构成的超平面或者超空间来计算对应的和。如果是一个整数元组，长度大于一，将会通过多条轴过程的超平面或者超空间来计算对应的和。
38:06
关于常用的参数、取值及其描述。可以看一下这个表格。观察这个表格可以看出。当X是一个元组的时候，C长度。小于等于数组的为数。若输入一个N为数组，并且AXX是一个整数，则AXX可能取值范围负N到N减一的整数共2N种可能。若输入数组，如输入一个N位数组，并且AX is是一个整数元组，则AX is中的每个元素的取值范围是。负A到N减一的整数共2N种可能，同时还必须满足要求axis的长度小于的原因。第二，设有一个矩阵A2行N列。
39:03
就像这样的一个矩阵AX is中不存在同一列的两个元素。数组为数和xx is取值数量的关系，当输入数组之为xx is 2N乘上2N减一直乘六乘四乘二，再加上2N乘上二零减一直乘六乘四，再一直加到一直加，加到二零，再加二零加一。把省略号消掉，就变成这样。I等于一到N西格玛。G等于派G等于到I2G。也就是这一块是一个连加套一个连成。加上二零，再加一。下面来看个例子。Axis等于零，看到表格。二维数组XX看成一个由列向量构成的一个矩阵。求每个列项当中所有分量的平，所有分量的和。
40:01
零加零等于零放在第一个位置上，一加五等于六放在第二个位置上。X等于一。看表看成一个由行向量组构成的一个矩阵。零加一等于一，零加五等于五。吧。返回数组中每个元素的类型，存放求和结果的。累加器指定的数据类型，除非输入数组A中元素的类型是整数类型，并且对应的范围小于平台默认的整数类型，否则直接使用输入数组的类型。在这种情况下，如果输入数组A中的元素类型都是有符号整数类型，那么就会使用平台默认的有符号整数类型，然后如果输入数组A中的元素的类型是无符号整数类型，那么就会使用平台默认的无符号整数类型。Out。选择存放结果的输出数组默认为，那如果提供一个数组，其形状。必须。
41:00
和预期的输出数组一致，如果必要的话，类型将被强制转换。类型可选参数。如果设置为处，会保持数组为数不变，根据这个变量，结果将会直接映射到输入数组中。X等于零表示。每个列向量求和吗？零加零等于零。放在。B。第零行的第零列一加五等于六放在第零行的第一列。X等于一的情况下。一加零等于一放在。第一行第一列。零加一等于一放在第零行。一加五零加五等于五放在第一行。D。
42:02
其他情况包括默认情况会产生为数下降。当输入数组A是一个N位数，N为数组的时候，如果P定等于two，返回一个N位数组。当keep等于false时，如果ass是一个整数或者包含一个整数的单元组，返回一个N减一位数组，否则，假设ass是一个M元组，返回一个N减M为的数组。特别的，当M等于N或者X等于long时，返回一个零为数组，也就是一个数。返回值。返回一个数组或者一个数，如果指定了参数al，它就会就地修改alt指针指向的数组对象，并返回这个指针。换句话说。返回的指针和参数二次指针指向了同一个数组对象。如果不指定参数，Out，返回一个新数组。看这么一个例子。我这里是指定的参数，Out。
43:04
奥等于B，返回值赋值给C，此时。C就是B。也就是说，C和B2个指针。指向内存中的同一个地址。修改了BC也跟着改。需要注意一下几点。当使用整数类型的时候，计算是经过球模的溢出时，不会报错。空数组的和是零，这没得解释。对于浮点数求和的数据精度，在一般情况下，通过单独把每个数相加，导致每一步的结果都会出现精度丢失，但是通常朗派会采用更好的方法，部分成堆求和，在许多应用场景下获得一个更好的精度。这样的精度提升总是。被用在不指定参数X的情况下，当指定参数xce的时候，它会取决于哪一条轴或哪一些轴或者超平面超空间被求和。从技术上说，为了提高更快的速度，精度提升仅仅被用在沿着内存的存储方式来求和。
44:15
注意取决于其他的参数。确切的精度可能会有所不同，相对于朗派p mass.f sum可提供更高的精度，但是牺牲的速度。默认情况下内存中的存储方式。是一条线，内存是一个一维的多维数组，存放的一维当中肯定是按照某种优先原则。一般情况下，默认情况都是按照行优先原则。就比如说这个0105在内存中占用四个存储单元。第一个存储单元存放零，第二个存储单元存放一，第三个存储单元存放零，第四个存储单元存放五。
45:03
特别情况，当使用当许多低精度浮点大数，比如32位浮点数类型，也就是C语言的float类型进行求和的时候，错误不容忽视。因为越界了嘛，在这种情况最好是用64位浮点数类型C元的double类型。当然，如果累加器对应的范围太小，会发生溢出。这里就有两个。不那么直观的例子。我们不用去管这个低type。先去看一下这个输入数组。这个输入数组是。二的零次方一直加到二的七次方。这个输入数组是128个一。为什么一加二加四加八一直加，一直加到128等于负一。
46:05
从数学上看，结果应该是28次方减一等于255，写成二进制就是八个一。IN8表示八位二进制整数最高位最左边的那一位表示符号位零，正一负，其余位对应数值位。如果是这样。那么。八个一最高位是符号位。这里对应的全值是二的零次方，一直加，一直加到二的六次方。不就是这个结果吗？负的一加二加四一直加到64等于负一往27吗？怎么会是负一呢？这是因为负数在计算机中使用补码来表示。八个一最高位符号位对应的十进制源码是负127。补码是什么？简单科普一下，我们都知道机械钟表的一根表针不用去管是哪一根表针，从12走向九，有两种走法，第一顺时针走九格，第二逆时针走三格。
47:03
如果把顺时针记为正方向，逆时针记为负方向，那么九等于负三。在某种程度上就是成立的，类似的一个数轴上面有256个点，分别是零到255的整数。把它围成一个圈，顺时针数变大，这个时候零走到255，有两种走法，第一，顺时针走255格，第二逆时针走一格，依旧是假设顺时针即为正方向，逆时针即为负方向。这个时候我们就可以说，255等于负一在某种程度上是成立的。关于更详细的信息。可以参考一下。这样一个视频。因为二的八次方减一等于二的八次方加上负一等于255，然后八位二进制整数八个一无法表示255，因为最高位是符号位嘛，所以在这种情况下我们不用。
48:03
八个一来表示这里的差值255，而是让他表示二的八次方加上负一中的负一。为什么让它表示这样一个负一呢？这是因为符号位为一，表示负数嘛，它满足符号位的要求。第二个问题更简单了。为什么128个一相加等于负的128，从数学上来看，结果应该是真的，128写成二进制。一个一，七个零，我们依旧是使用二的八次方减去128等于二的八次方加上负的128等于128，然后八位二进制整数无法表示128，因为最高位是符号位，所以在这种情况下，一就不用它来表示差值128，而是表示二的八次方加上负的128中的负128。这满足符号位的要求。那么为什么负数在计算机当中要使用？这个补码来表示呢。
49:01
因为如果不管正数负数，总是使用原码来进行表示，可以想一下，零是不是被表示了两次，没得解释了。一个正零一个负零嘛，没得解释，存在浪费。为此，想办法让零只被表示一次补码是到目前为止一直被采用的方法。回到这个。程序的输入输出结果上来。如你所见，拉在训练集与测试集上的表现都很差，这表示存在嵌拟合。我们发现模型只用到了。105个特征中的四个。与瑞者类似，拉萨也有一个正则化参数阿尔法。他对应的是。这个公式中的阿尔法。
50:01
可以控制系数趋于零的强度。在上一个例子中，我们用的是默认值阿尔法等于1.0。为了降低千零后，我们尝试减小阿尔法。这么做的同时，我们还需要增大ma的值运行迭代的最大次数。
51:51
阿尔法值变小，我们可以拟合一个更复杂的模型。在训练题和测试题上表现也很好。模型性能比使用睿智时略好一点，而且我们只用到了105个特征中的33个。
52:05
这样模型很可能更容易理解，但如果把阿尔法设的太小，那么就会消除政治化的效果，并出现过拟核，得到与line graing类似的结果。再次向图。报杠一二那样对不同模型的系数进行作图。
55:28
在阿尔法等于一时，我们发现不仅大部分系数都是零，我们已经知道这一点，而且其他系数也很小。将阿尔法减小至0.01时，我们得到图中向上的三角形。大部分特征等于零。阿尔法等于0.0001时，我们得到了正则化很弱的模型，大部分系数都不为零，并且还很大。为了便于比较。图中用圆形表示RA的最佳结果阿尔法等于0.1的RA模型的预测性能与阿尔法等于0.01的拉萨模型类似。
56:05
但锐减模型的所有系数都不为零。在实践中，这样两个模型中一般首在两个模型中一般首选领回归。但如果特征很多，你认为只有几个是重要的特征，那么选择拉扫可能更好。同样，如果你想要一个容易解释的模型，拉可以给出更容易理解的模型，因为它只选择了一部分输入特征。S还提供了。Ne类结合了拉和瑞兹的惩罚项。在实践中，这种结合的效果最好不过，代价是要调节两个参数，一个用于L1正则化，一个用于L2正则化。考虑到线性模型的内容比较多。
57:01
这一回我们就讲到这里，也就是把线性回归的部分讲完，用于回归的线性模型讲完。下一回我们看到用于分类的线性模型。

展开

我来说两句

0 条评论

登录后参与评论

作者

不可言诉的深渊

【合辑】《Python 机器学习基础教程》演示视频_已获出版社授权

（7/47）

24分48秒

第 1 章引言（1）

7.3K44

55分54秒

第 1 章引言（2）

6.1K9

6分12秒

第 1 章引言（3）

53分35秒

第 1 章引言（4）

3.4K8

28分33秒

第 2 章监督学习（1）

3K3

52分48秒

第 2 章监督学习：k 近邻

3.4K2

57分13秒

第 2 章监督学习：线性模型（1）

1时8分

第 2 章监督学习：线性模型（2）

37分11秒

第 2 章监督学习：朴素贝叶斯分类器

46分27秒

第 2 章监督学习：决策树

2.2K1

31分24秒

第 2 章监督学习：决策树集成

7171

36分15秒

第 2 章监督学习：核支持向量机（1）

50分55秒

第 2 章监督学习：核支持向量机（2）

1.2K0

30分16秒

第 2 章监督学习：神经网络（1）

1K0

42分38秒

第 2 章监督学习：神经网络（2）

1.1K0

1时1分

第 2 章监督学习（2）

42分12秒

第 3 章无监督学习与预处理（1）

45分52秒

第 3 章无监督学习与预处理：主成分分析（1）

8700

34分54秒

第 3 章无监督学习与预处理：主成分分析（2）

32分42秒

第 3 章无监督学习与预处理：非负矩阵分解

110

15分55秒

第 3 章无监督学习与预处理：用 t-SNE 进行流形学习

1.2K0

23分30秒

第 3 章无监督学习与预处理：k 均值聚类（1）

1.2K0

15分48秒

第 3 章无监督学习与预处理：k 均值聚类（2）

6600

23分14秒

第 3 章无监督学习与预处理：凝聚聚类

1.2K0

11分57秒

第 3 章无监督学习与预处理：DBSCAN

25分23秒

第 3 章无监督学习与预处理（2）

38分30秒

第 3 章无监督学习与预处理（3）

5分17秒

第 3 章无监督学习与预处理（4）

32分31秒

第 4 章数据表示与特征工程（1）

20分16秒

第 4 章数据表示与特征工程（2）

26分39秒

第 4 章数据表示与特征工程（3）

40分50秒

第 4 章数据表示与特征工程（4）

11分56秒

第 4 章数据表示与特征工程（5）

1.2K0

38分40秒

第 5 章模型评估与改进（1）

18分42秒

第 5 章模型评估与改进（2）

1.2K0

34分43秒

第 5 章模型评估与改进（3）

7分14秒

第 5 章模型评估与改进（4）

37分1秒

第 5 章模型评估与改进（5）

1.2K0

55分53秒

第 5 章模型评估与改进（6）

9660

29分27秒

第 5 章模型评估与改进（7）

29分14秒

第 6 章算法链与管道（1）

16分48秒

第 6 章算法链与管道（2）

27分3秒

第 7 章处理文本数据（1）

16分43秒

第 7 章处理文本数据（2）

7分45秒

第 7 章处理文本数据（3）

1.3K1

15分22秒

第 7 章处理文本数据（4）

26分7秒

第 8 章全书总结

第 2 章监督学习：线性模型（1）原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 2 章 监督学习：线性模型（1）原创

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 2 章监督学习：线性模型（1）原创