00:02
用于分类的线性模型,线性模型也广泛应用于分类问题。我们首先来看二分类,这时可以利用下面的公式进行预测。WHY?等于W,零乘上X0加W1乘上X1,一直加到WP乘上XP,再加B大于零。这个公式看起来与线性回归的公式非常相似,但我们没有返回特征的加权求和,而是为预测设置了预值零。如果函数值小于零,我们就预测类别负一,如果函数值大于零,我们就预测类别正一。对于所有用于分类的线性模型,这个规则都是通用的,同样有很多种不同的方法找出系数W和截距B。对于用于回归的线性模型。输出y hat是特征的线性函数,是直线平面或超平面,对于更高维的数据集,对于用于分类的线性模型,决策边界是输入的线性函数。换句话说。
01:02
二元信息分类器。是利用直线平面或超平面来分开两个类别的分类器。本节我们将看到这方面的例子。学习线性模型有很多种算法,这些算法的区别在于以下两点,系数和截距的特定组合,对训练数据拟合好坏的度量方法。是否使用正则化以及使用哪种正则化方法。不同的算法使用不同的方法来度量对训练及拟合好坏。由于数学上的技术原因,不可能调节W和B,使得算法产生的服务分类数量最少。对于我们的目的以及对于许多应用而言,上面第一点称为损失函数的选择并不重要。最常见的两种线性分类算法是logistic、回归logistics和线性支持向量机Li machine。线性SVM牵者在model.logisticgsion中实现,后者在SVM.line s VC中实现,SVC代表支持向量分类器。虽然logisticgsion的名字含有回归gression,但它是一种分类算法,并不是回归算法,不应与line regression混淆。
02:12
下面重点来讲一下lot可回归的原理,线性支持向量积的原理,我们先放一放。线性模型虽然简单,却有着丰富的变化。例如,对于样例XYX是一个行向量Y除以二,当我们希望线性模型的预测值逼近正式标记Y时,就得到了线性回归模型。为了便于观察,我们把线性回归模型简单写成Y等于XW加B。其中X是一个行向量,W是个列向量,B属于二,可否否定模型预测值B定Y的衍生物呢?譬如说。假设我们认为实力所对应的输出标记在指数尺度上变化,那么就可以将输出标记的对数作为线性模型逼近的目标,即罗Y。等于XW加B,这就是对数线性回归loggres,它实际上是在视图上E的XW加B逼近Y是12。
03:10
也就是这个式子在形式上仍然是线性回归,但实际上也是在求取输入空间到输出空间的非线性函数映射。更一般的考虑单调可为函数G,令Y等于。GXW加B的反函数。这样得到的模型称为广义线性模型,简来自LA model,其中函数G称之为联系函数link方形。显然,对数线性回归是广义线性模型在G等于long时的特例,对数几率回归logistic回归。上一回讨论了如何使用线性模型进行回归学习,但如果要做的是分类任务,该怎么办呢?答案蕴含在事实三的广义线性模型中。只需找一个单调可微函数,将分类任务的真实标记Y与线性回归模型的预测值联系起来。
04:00
考虑二分类任务,其输出标记Y属于零或者一。而线性回归模型产生的预测值Z等于XW加B是实值,于是我们需要将实值Z转换为零,一值。最理想的是单位节约函数unit step方形。当Z小于零时,Y等于零,当Z等于零时,Y等于0.5,当Z大于零时,Y等于E。即若预测值Z大于零,就判别为正立,小于零则判别为反例,预测值为零,界值零,则可以任意判别。但是单位接阅函数不连续,因此不能直接用作43的替的反函数。于是我们希望找到能在一定程度上近似单位接于函数的替代函数s function,并希望它单调,可谓对数记录函数logistic function正是这样一个常用的替代函数,Y等于。一加上一的负Z次方分之一。对数几率函数是一种写个摩的函数,它将Z值转换为一个接近零或一的Y值,并且其输出值在Z等于零附近变化很陡。将对数记录函数作为G的反函数代入43得到。
05:12
Y等于一加上E的负XW加B的整体次方分之一。类似于42 46可以变化为。罗隐,Y除以一减Y等于XW加B。若将Y视为样本X作为正立的可能性,则一减Y是其反应的可能性,两者的比值Y除以一减Y称之为几率O,反映了X作为正立的相对可能性。对数几率函数取对数得到对数几率log o1乘log log y除以一减Y。由此可以看出,46实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此其对应的模型称之为对数几率回归logistic reg,一称GS,简称对率回归。这种方法有很多优点,例如它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题。它不仅预测出类别。
06:12
而且,而且可以得到近似概率预测。这对许多需利用概率辅助决策的任务很有用。此外,下面我们会看到,对于回归求解的目标函数是任意阶可导的函数,有很好的数学性质。现在有许多数值优化算法都可以直接用于求取最优解。下面我们来看看如何确定46中的W和B。如果将46中的Y视为内后应概率估计P给定XY等于一的概率。则是时期可重写为log p给0XY等于一的概率除以给定XY等于零的概率等于XW加B,显然有P给0XY等于一的概率。它等于E的XW加B次方除以一加上E的XW加B次方。
07:00
给定XY等于零的概率。它就等于一加上一的XW加B分之一次方。于是我们可以通过其他自然法maxim likehood method。来估计W和B,给定数据集Xi yii,从一到M。对率回归模型最大化对数自然,Look likehood。LWB等于I等于一到M西格玛。P给定Xi Yi的概率WB参数。即令每个样本属于真实标记的概率越大越好。为了便于讨论,令贝塔等于。W的转置逗号B,整体的转置X等于X逗号一。则XW加B可简写为X派贝塔再立。PE hat封号贝塔等于。给定XY等于一的概率参数贝塔P,零,X hat分号贝塔等于。
08:02
Y等于零的概率参数贝塔等于一减去PX封号贝塔。则是23中的四然相克,重写为P。给定Xi y的概率WB参数等于Yi乘上P1X号贝塔加上一减Y乘上P0 Xi封号贝塔。将是24代入是23,并根据是21和是22可知最大化是23。等价于最小化。L贝塔等于I等于一到M西格玛。负的Y乘上Xi,再乘上贝塔加上罗伊。一加上E的XI,贝塔。的整体,求个和,它也等价于最小化L0贝塔等于。I think IM loing。E的负Y乘上Xi的hat,再乘上贝塔,再加一。经典的数值优化算法如梯度下降法ENT de center method、牛顿法new method等都可以用来求解其最优最优解,于是就得到贝塔星等于阿格米贝塔L贝塔。以牛顿法为例,其GT加一轮迭代解的更新公式为。
09:16
贝塔T加一等于贝塔T减去塔是平方,L贝塔除以,他是贝塔,塔是贝塔的转置整体的力再乘上它是L贝塔除以,塔是贝塔。其中关于贝塔的一阶、二阶导数分别为一阶导数,它是L贝塔除以,它是贝塔等于负的。I等于移到MC吗?Yi减去P1乘上Xi hat分号贝塔整体乘上Xi的hat。二阶导数,它是平方L,贝塔除以它是贝塔,它是贝塔的转等于I等于一的m X I hat的转置乘以XI。PI hat,封号贝塔再乘以一减P1。Xi hat封号贝塔。
10:01
下面简单科普一下梯度下降法,牛顿法。梯度下降法梯度下降法。Descent是一种常用的一阶first的优化方法,是求解无约束优化问题最简单、最艰难的方法之一。考虑无无约束优化问题。纠结。FX的最小值点。其中FX是连续口味函数,若能构造出一个序列,X0 x1 x2依次往内推。满足FXT减一小于FXTT等于零,一二,依此类推,则不断执行该过程可收敛到局部极效点。想要满足是三时,根据泰勒展,泰勒展开有。
11:03
FX加得尔塔X近似于FX加上德尔塔X的转置乘上FX的梯度。其中X德尔塔XFX,还有这个FX梯度。即为倒三角FX都是一个列向量。倒三角FX表示FX的梯度。于是想要满足FX加德塔X小于FX,可以选择德尔塔X等于负的伽马。FX乘上FX的梯度,其中不长伽玛是一个小常数,这就是梯度下降法。若对目标函数FX满足一些条件,则通过选取合适的布长就能确保。通过梯度下降收敛到局部极小点。例如,若FX满足L。Lips条件。这个条件是对任意的X存在常数L是的。
12:00
FX梯度的膜。小于等于L成立,则将步长设置为一除以2L,即可确保收敛到局部极小值点。当目标函数FX2阶连续可微时,可将是31。替换为更精确的二阶泰勒展开,这样就得到了牛顿法。牛顿法是典型的二阶方法及迭代,轮数远小于梯度下降法,但牛顿法使用了二阶导数。倒三角平方FX。其中每轮迭代中都涉及海森矩阵的求逆计算,复杂度相当的高,尤其是在高维问题中,几乎不可及做那较低的计算。在讲寻找海森矩阵近似逆矩阵则可显著降低计算开销。这就是你牛的吗?Co new method。下面简单科普,海森矩阵是什么?FX关于X的二阶导数称,是称为海森矩阵matrix的一个方阵,其中第行DJ列的元素为。
13:04
他西平方FX除以塔西Xi乘上塔西XJ。简单写成倒三角平方FXIG。下面简单说一下line model点类中的一些重要参数。参数,Penalty。L1L2EL now。四个选一个。默认是L2,它表示的意思是选择使用哪一种正则化方法,当penalty等于L2时,进行L。进行L2正则化。同等于L2时,进行L2阵的话,求解W和B,使得1/2W的转置乘上W加上CL0贝塔,达到最小值L0贝塔。
14:05
大家可以自己看一下。当penalty等于L一时,进行L1正则化,求解W和B式的W的一范数加上C乘上L,零,贝塔最小。当penalty等于net时,把L1振子化和二振子化结合起来,使得二分之。一减收。W的转置,W加上柔乘上W的一范数加上CL,零贝塔最小,当penalty等于long时,不进行式的话,求解W和B,使得L贝塔或L0贝塔最小。C。它是一个正实数,默认1.0,它是正则化强度的倒数。当前进,当penalty不等于当时,有效数值越小,对应的振动化强度越高。当C等于零的时候。
15:02
他就只进行这则化,不考虑。Ein Beta。Soma。Newton cg LB fgs Li lineag4选一。默认lib f GS求解最优化问题的算法,注意0.22版本或者更高版本默认值从lib line改为LBFGS。这里和书上有一点点不一样。我为了和书上效果一样。我会把默认值改为lib line。如果sava曲值new登CG。它对应的算法名称就是牛顿法。如果取值是LBFGS,对应的是限制内存占用的BFGS算法,拧牛顿法的一种lib line呢,坐标下降法,Sat随机平均梯度法,下面简单说一下。
16:05
BFGS算法,坐标下降法和随机平均梯度法,牛顿法上面已经讲过了。BFGS算法假设作为换物体是求解FX的最小值,F是一个N为时空间列向量FXF是一个可为标量函数F没有限值。算法一开始首先估计一个初值X0,随后一步一步的估计一个根号值值,搜索向量PK对应BK部拟牛顿方程的解。BK乘上PK等于负的FXK的梯度,其中BK是海森矩阵的一个近似,它在每一步的迭代中被更新。FXK的TFXK到三角FXK是函数在FK处的梯度。PK的方向线性搜PK的方向的线性搜索用于最通过最小化FXK加上RPK的方式寻找加上伽马乘PK的方式寻找下一个点XK加一,其中标量伽马大于零,强加于更新。
17:02
BK等你牛的条件是BK加1X的K加一减去XK等于。FXK加一的梯度减去FXK的梯度,另YK等于。FXK加一的梯度减去FXK的梯度FK等于XK加一减去XK,那么。BK加一满足各项方程,BK加一乘上SK等于YK。许率条件,SK的转置乘以YK大于零应该被满足,因为BK加一正定可以通过左成。SK的转置来证明不要求计算出整个海参矩阵。DK部对应的近似海参矩阵通过额外添加两个矩阵的方式进行更新。BK加一等于BK加UK加VKUK和VK都是对称矩阵,且值为一。但是他们的和变成了一个质为二的矩阵。为了确保BK加一的对称性和正定性,要求新格式可以写成BK加一等于BK加上阿尔法乘上UU的转置加上贝塔乘上VB的转置。
18:02
考虑到割线条件BK加一乘上SK等于YK,选择UK等于YK1选择U等于YKV等于BK乘上SK,解的阿尔法等于。YK的转置乘上SK分之一,贝塔等于负的。SK的转制BKSK。分之一。最后代入BK加一等于BK加上阿尔法乘上UU的转置加上贝塔质量VB的转置,可以得到BK加一等于BK加上。YK的转置乘以SK分之YK乘上YK的转置,再加上。SK的转至BK乘上SK分之BKSKSK转至,BK转至,通过使Morrison公式,这个公式的内容是。A加上UV的转置整体的力等于A的力减去A的力。
19:02
乘上UV转值,再乘上A的力除以一加上V的转值,A的力乘上U。其中A是一个矩阵,UV是两个列向量,可以求出。你。BK加一的力等于E减去YK的转置乘上SK,分支SK乘上YK的转置,整体乘上BK的力。乘上E减去YK的转至SK,除以分之YK乘上SK的转置,再加上SKSK转置除以YKSKYK转至SK,考虑到BK能力是一个对称矩阵。YK的转置b k me y k和SK的转置YK都是标量展开的。BK加一的力等于BK的力加上。
20:01
SK的转置YK整体的平方分之SK的转置YK加上YK的转置BK的逆K整体乘上SKSK的转制减去。SK的转置,Y分之BK的转置,YK指向SK的转置。BK的力乘上YK,再乘上SK的转置,再加上SKYK的转置,BK的力。公式看上去可能有点看不太清楚,我稍微放大一下。够大了。BK加一的转至BK加一的逆等于BK的逆,加上后面这一堆东西,大家自己看一下。
21:04
下面讲喽坐标下降法坐标下降法coordinate descent是一种非梯度优化算法。它在每步迭代中间坐标方向进行搜索。通过循环使用不同坐标来达到目标函数的局部极小值,不反射目标函数是求解函数,不仿射目标是求解函数FX的极小值,其中X等于X1X2,一直到XD的转置属于RD,是一个地位向量。从初始点X0开始,坐标线通过迭代。我叠的构造序列X0 x1 x2,以此类推来求解该问题,XT加一的第个分量X it加一构造为X it加一等于阿根命Y属于R。F。X1。T加一逗号一直到Xi减一,T加一逗号Y逗号Xi加1T1直到XDT,通过执行此操作,显然有FX0大于等于FX1大于等于FX2,以此类推。
22:05
与梯度下降法类似,通过执行迭代。通过迭代执行该过程序列X0 x1 x2能收敛到所期望的局部极小点或者说重点。Stationary point坐标现在不再需要计算目标函数的梯度,在每步迭代中仅需求解。一为搜索问题对于某些复杂问题的计算。较为简便,但若目标函数不光滑,则坐标下降法有可能会陷入非点让stationary point。随机平均梯度法,该算法相对于其他算法来说有更低的迭代开销,迭代形式如下。其中AK是DK次迭代的步长,XK加一等于XK减去。N分之aki等于一到N西格玛。Why ID?每次迭代选择一个随机索引IK,并且我们立YK等于。
23:01
当I等于IK时,Yi k等于FXK的导数。其他情况它就等于Y的K减一。因此该算法没有去计算更多的样本,只是利用了之前计算出来的梯度求个平均,所以每次迭代的计算成本很小。参数LE1RAAL浮点数默认为呢范围零到一,当前锦囊penalty等于ne时才有效。对应目标函数。也就是这个函数。里面的肉。我们可以将logisticgs。和line s VC模型应用到for数据集上,并将线性模型找到的角色边界做一下可视化。
28:02
在这张图中,For数据集的第一个特征位于X轴,第二个特征位于Y轴。与前面相同,图中分别展示了Li s VC和logistic res,得到的决策边界都是直线,将顶部归类为类别一的区域和底部归类为类别零的区域分开了。换句话说,对于每个分类器而言,位于黑线上方的新数据点会都会被划分为类别一。而黑线下方的点都被划分为类别,零。两个模型得到了相似的角色边界,注意,两个模型中都有两个点的分类是错误的,两个模型都默都默认使用了L2正则化,就像锐整模型对回归所说的那样。对于lotgs,和line s VC,决定正则化强度的权衡参数叫做CC值越大,对应的正则化越弱。换句话说,如果参数C值较大,那么lot sing和line s VC将尽可能的将训练仅仅合到最好,而如果C值较小,那么模型更强调使系数向量W接近于零。
29:16
参数C的作用还有另一个有趣之处,较小的C值可以让算法尽量适应大多数数据点,而较大的C值更强调每个数据点都分类正确的重要性。下面是使用line s VC的图示。
30:00
在左侧的图中,C值很小。对应的是强正则化。大部分属于类别,零的点都位于底部。大部分属于类别一的点都位于顶部,强正则化的模型会选择一条相对水平的线,有两个点,分类错误在中间的图中,C值稍大。模型更关注两个分类错误的样本使决策边界的斜率变大。最后在右侧图中,模型的C值非常大,使得决策边界的斜率也很大。现在模型对类别零中所有分类的点都是正确的,类别一中仍然有一个点分类错误,这是因为对这个数据集来说,不可能用一条直线将所有的点都分类正确。右侧图中的模型尽量使所有点都分类正确,但可能无法掌握类别的整体分布。换句话说,这个模型很可能过年后。与回归的情况类似。
31:02
用于分类的线性模型在低维空间中看起来可能非常受限,决策边界只能是直线或平面。同样,在高维空间中,用于分类的线性模型变得非常强大,当考虑更多的特征时,避免过拟和变得越来越重要。我们在乳腺癌数据集上详细分析logistic regression。
34:07
C等于一的默认值给出了相当好的性能。在训练级和测试级上。都达到95%的精度,但由于训练集和测试器性能非常接近,所以模型很可能是嵌拟合的。我们尝试增大C来拟合一个更复杂的模型。
35:22
使用C等于100可以得到更高的训练及精度,也得到稍微提高的测试及精度,这也证实了我们的直觉及更复杂的模型应该性能更好。我们还可以研究使用正则化更强的模型时会发生什么?设置C等于0.01。
36:15
正如我们所料。在图二杠一中,将已经嵌拟合的模型继续向左移动,训练集和测试集的精度都比采用默认参数时。更小。最后来看一下正则化参数C,取三个不同的知识模型学到的系数。
40:21
由于logistic regression默认使用L2正则化。所以其结果与图二杠12中的RA的结果类似,更强的正则化使得系数更趋向于零,但系数永远不会正好等于零。进一步观察图像。还可以在第三个系数那里发现有趣之处,这个系数是平均周长per。C等于零和C等于一时。这个系数为负,C等于100和C等于10,这个系数为负,而C等于。0.01时,这个系数为正,其绝对值比C等于一时还要大,在解释这样的模型时,人们可能会认为系数可以告诉我们某个特征与哪个类别有关。例如,人们可能会。
41:09
认为高纹理错误texture AR特征与O型的样本有关,但平均周长系数的正负号发生变化说明较大的平均周长可以被当做良性指标或恶性指标,具体取决于我们该考虑考虑的是哪一个模型。这也说明对线性模型系数的解释应该始终持保留态度。如果想要得到一个可以解释、可解释性更强的模型,使用L一阵的话可能会更好,因为它约束模型只使用少数几个特征。
47:41
这里的输出对应的是使用L正则化的分类精度。图对应的是使用L正则化的系数图像。如你所见,用于二分类的线性模型。与用于回归的线性模型有许多相似之处。与用于回归的线性模型一样,模型的主要差别在于penalty参数,这个参数会影响正则化,也会影响模型是使用所有可用特征还是只选择特征的一个子集。
48:13
用于多分类的线性模型。许多线性分类模型只适用于二分类问题,不能轻易推广到多类别问题。除了logistic回归,将二分类算法推广到多分类算法的一种常见方法是一对。One Vs rest方法在一对其余方法中,对每个类别都学习一个二类模型,将这个类别与所有其他类别尽量分开,这样就生成了与类别个数一样多的二分类模型。在测试点上运行所有二分类,分二分类、二类分类器来进行预测。在对应类别分数对应类别上分数最高的分类器删除,将这个类别返回,将这个类别的标签返回作为预测结果。每个类别都对应一个二类T,这样每个类别也就都有一个系数W向量和一个截距B。下面给出的是分类最近方程,其结果中最大值对应的类别即为预测的类别标签,W0乘X0加W1乘X1,一直加到WP乘上XP再加B。
49:16
多分类逻辑这个回归背后的数学与一对区域的方法稍有不同,但它也是对每个类别都有一个系数,向量和一个截距,也使用了相同的预测方法。我们将一对其余方法应用在一个简单的三分类数据集上,我们用到一,我们用到了一个二维数据集。每个类别的数据都是从一个高斯分布中采样得出的。
51:13
现在在这个数据集上训练一个line s VC分类器。
52:30
我们看到Co EF的形状是三二,说明Co EF每行包含三个类别之一的系数向量,每列包含某个特征,这个数据提供有两个特征对应的系数值。现在intercept是一个一维数组,保存了每个类别的截距。我们将这三个。Or分类器给出的直线格式化。
56:24
在讲这幅图之前,先来讲一下。这样一个东西。负的line乘上COEF0加上intercept整体除以Co f1表示什么?其中line是一个长度为一为数组,Co EF是一个长度为二的一为数组,Intercept是一个数。负的Li乘上cof,零加上intercept的人体除以CO1表示什么?表示一个长度为N一位数组假设。SOEF等于。
57:04
这两个数intercept等于这个数,计算其中每个元素的过程可以看一下下表。对任意的爱。负的Y乘上Co EF的零加上的整体除以Co EF的一。这个数组的第个取值等于。副的light I乘上。Co EF,零加上。Intercept整体除以Co。虽然听上去有点绕,但是大家看这个公式其实很简单,就是把外面的这个I。到里面来。那么为什么书上第50页?画直线代码中的纵坐标的取值要这么去写?这是因为横坐标表示第零个特征X0,纵坐标表示第一个特征X1。分类直径方程Y等于W0乘X0加W1乘X1再加B,当Y大于零时,预测该类,当Y小于零时,预测其他类,那么当Y等于零呢?此时可以随便预测,此时数据点的位置比较特殊,就在分解出也是直线上,因此我另Y等于零可以解得。
58:15
X1等于负的。W0乘X0加B的整体除以W1,其中W0对应的就是Co e,零。B对应的就是W对应的是CO1。也就是X轴对应的是Y。回到这一幅图。你可以看到训练集中所有属于类别零的点都在与。类别零对应的直线的上方。
59:02
说明他们位居这个二分类T属于类别零的那一侧,属于类别零特点位于与类别对应的直线的上方,说明它们被类标二的分类器划分为其余属于类别零的点。位于与类别一的点对应的直线的左侧,这说明类别一的二元分类器将它们划分为其余。因此,这一区域的所有点都会被最终分类器划分为类别零,类别零的分类器的分类执行方程的结果大于零,其他两个类别对应的结果都小于零。但图像中间的三角形区域。也就是这块区域。属于哪一个类别呢?三个二分类二类分类器都将这些区域内的点划分为,其与这里的点应该归到哪一个类别呢?答案是分类方程结果最大的那个类别及最接近那条线对应的类别。
60:01
下面的例子给出了二维空间中所有区域的预测结果。
62:29
优点、缺点和参数。线性模型的主要参数正则化参数在回归模型中叫做阿尔法。在的SVC和loggs中叫做C,阿尔法值较大和C值较小。分为模型比较简单,特别是对于回归模型而言,调节这些参数非常重要。通常在对数尺度上对C和阿尔法进行搜索。你还需要确定的是用L1正则话还是L2正则话。如果你假定只有几个特征是真正重要的,那么你应该用L1振则话,否则应默认使用L2阵则话。
63:03
如果模型的可解释性很重要的话,使用L也会有帮助。由于L只用到几个特征,所以更容易解释。哪些特征对模型是重要的,以及这些特征的作用。线性模型的训练速度非常快,预测速度也很快,这种模型可以推广到非常大的数量级。这种模型可以推广到非常大的数据集,对稀收数据也很有效。如果你能数据包含数十万甚至上百万个样本,你可能需要研究如何使用逻这个gsing和锐模型的sova等SSA选项。在处理大型数据时,这一选项比默认值要更快。其他选项还有s gd class class file类和SGD类。他们对本节介绍的线性模型实现了可扩展性更强的版本。线性模型的另一个优点在于。利用我们之间,利用我们之前见过的用于回归和分类的公式,理解如何进行预测是相对比较容易的。不幸的是,往往并不完全清楚系数为什么是这样的。如果你的数据集中包含高度相关的特征,这一问题尤为突出。在这种情况下,可能很难对系数做出解释。
64:17
如果特征数量大于样本数量,线性模型的表现通常都很好。它也常用于非常大的数量级,只是因为训练其他模型并不可行。但在更低维的空间中,其他模型的泛化能力可能更好。2.3.7级。也就是和支持向量积那一节内容会介绍几个线性模型不适用的例子。方法链论中所有模型的fit方法返回的都是self,这允许你像下面这样编写代码。我们在本章已经用过很多次了。
65:44
这里我们利用fit的返回值,也就是self,将训量后的模型赋给变量log。这种方法调用的拼接,先调用双向开头结尾in,也就是。构造函数。然后调用fit,被称之为方法链master。
66:02
在中,方法论的另一个常见用法是在。一行代码中同时fit和predict。
67:04
最后,你甚至可以在一行代码中完成模型初始化拟合和预测。不过,这种非常简短的写法并不完美,一行代码中发生了很多事情,可能会使代码变得难以阅读。此外,拟合后的回归模型也没有保存在任何变量中。
68:04
所以我们既不能查看它,也不能用它来预测其他的数据。
我来说两句