第 2 章监督学习：核支持向量机（2）原创

2021-07-092021-07-09 10:17:25播放1.2K

点赞0 收藏 0

核技巧，理解 SVM，SVM 调参，为 SVM 预处理数据，优点、缺点和参数

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
继续上一次的内容进行学习。看到书上75页。二和技巧。这里需要记住的是，向数据表示中添加非线性特征可以让线性模型变得更强大。但是通常来说，我们并不知道要添加哪些特征，而且添加许多特征，比如100维特征空间中所有可能的交互项，计算开销可能会很大。幸运的是，有一种巧妙的数学技巧让我们可以在更高维空间中学习分类器，而不用实际计算可能非常大的新的数据表示。这种计巧叫做和技巧可能去。它的原理是直接计算扩展特征表示中数据点之间的距离，更准确的说是内积，而不用实际对扩展进行计算。对于支持向量机将数据映射到更高维空间中，有两种常用的方法，一种是多项，适合在一定接数内。计算原始特征所有可能多项式，比如F出一的平方乘上F出二的五次方。另一种是镜像积函数radio basis方体啊，BF和也叫高斯核。高斯核有点难以解，是因为它对应无限维的特征空间。一种对高斯核的解释是它考虑所有接数的所有可能的多项式，那接数越高，特征重要性越小，提示遵循指数映射的泰勒展开。
01:16
不过在实践中和SDM背后的数学细节并不是很重要。可以简单的总结出使用RBF和SVM进行预测的方法。我们将在下一节介绍这方面的内容。理解SVM。在训练过程中，SVM学习每个训练数据。M对于表示两个类别之间的角色边界的重要性。通常只有一部分训练数据点对于定义角色边界来说很重要，位于类别之间边界上的那些点，这些点叫做知识向量support，知识向量机正是由此得名。想要对新样本点进行预测，需要测量它与每个支持向量之间的距离。分类决策是基于它与支持向量之间的距离以及在训练过程中学到的支持向量重要性来做出的。支持向量重要性保存在SVC的do Co EF相关线属性中。
02:10
数据点之间的距离由高斯和给出。KRBFX1X2。等于。ESP复伽吗？X1减X2的平方，这里X1 x2是数据点，X1减X2模表示欧式距离。伽马是控制高斯和宽度的参数。虽然说在实践中和SVM背后的数学细节不是很重要。但是。了解一下终归不是什么坏事。间隔与支持向量给定训练样本及D等于X1Y1X2Y，一直到xyy属于负一，一。分类学习最基本的思想就是基于训练基地，在样本空间中找到一个划分超平面，将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多，可能只有一个，也有可能没有。当超平面有很多个的时候，我们应该努力去寻找哪一个呢？直观上看，应该去寻找位于两类样两类训练样本正中间的划分超平面，因为该超平面对训练样本局部扰动的容忍性最好，例如由于训练级的局限性或噪声等因素。
03:29
训练以外的样本可能比训练样本更接近两个类的边界，这将使许多划分超平面出现错误，而位于两类训练样本正中间的划分超平面受影响最小。换言之。这个划分超平面所产生的分类结果是最鲁邦的，对未见势力的泛化能力是最强的。在样本空间中，划分超平面可以通过这么一个线性方程来描述，X乘上W加B等于零，其中X等于X1 x21直到XD是超平面上的某一点，W等于W1 W21直到WD的转置是反向量，决定了超平面的方向，B为位移向，决定了超平面与原点之间的距离。显然，划分超平面。
04:10
可被法向量W和位移B确定，下面我们将其记为WB。样本空间中的任意点X到超平面WB的距离可以写为R等于X乘上W加B的绝对值除以W的模。假设超平面WB能将训练样本正确分类，其对于Xi y属于D，若Y等于一，则有Xi乘上W加B大于零，若Y等于负一，所以有Xi乘上W加B小于零，零。Xi乘上加B大于等于1Y等于一，Xi乘上W加B小于等于一等等于负一。距离超平面最近的几个训练样点能够使第三个式子中的等号成立，它们被称为支持向量。两个异类支持向量到超平面的距离之和为伽玛等于二除以W的模，它被称为间隔marin，欲找到具有最大间隔maximum margin的划分差平面，也就是要找到能满足第三个式子中的约束的参数W和B，使得伽马最大积。
05:15
MAXB2除以W的模条件，Yi乘上Xi w再加B，整体大于等于一，I等于121直到M。显然，为了最大化间隔减去最小化W模的倒数，这减去最大化W模的倒数，这等价于最小化W模的平方，于是。第五个式子可以重写为minimum wb1/2W模平方条件。Yi乘上Xi w加B的整体大于等于一，I等于一二，一直到M，这就是支持向量积support VI模型，简称SVM的基本型。对，有问题，我们希望求解第六个式子。来划分来得到最大间隔，划分超平面所对应的模型FX等于X乘上W加B，其中W和B是模型参数。对第六个式子使用拉克老乘数法。
06:04
可以得到其队友问题problem。具体来说，对第六个式子的每条约束添加拉拢乘阿尔法I大于等于零。则该问题的拉格朗日函数可以写成LWB阿尔法等于1/2W模平方加上I等一的MC阿尔法I乘上。一减去Yi乘上xiw，再加B的整体，其中阿尔法等于阿尔法一阿尔法一直到阿尔法M，令LWB、阿尔法对W和B的偏导为零，可得W等于I等于一到M，西格玛阿尔法I y Xi转置零等于I等于一到MC嘛阿尔法IY将第九个式子代入第八个式子。即可将LWB阿尔法中的W和B消去，再考虑第十个式子的约束，就得到第六个式子对应的对偶问题。Max阿尔法I等于一的M西格玛阿尔法I减去1/2 I等一到M西格玛G等于一到M西格玛阿尔法阿尔法GYJXG转置条件I等于一到M西C嘛阿尔法I乘上Yi等于零，阿尔法I大于等于零，I等于121得到M，解出阿尔法后求出W和B即可得到模型。
07:13
FX等于X乘W加B等于X乘上I等于一到M阿尔法。乘上Y，再乘上Xi，转置，再加B。核函数。在前面的讨论中，我们假设训练样本是先行可分的集，存在一个划分超平面，能将虚拟样本是分类，然后在现实任务中原始样本空间内。也许并不存在一个能正确划分两类样本的超平面。对于这样的问题，可以将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分，令FX表示X映射后的特征向量。于是在特征空间中划分超平面所对应的模型可以表示为FX等于FX乘上加B。其中W和B是模型参数，类似于第六个式子，有mini wb1/2W模平方条件。
08:01
YX乘上反xiw，再加B的整体大于等于一，I等于121，得到M，其对有问题是。Max阿尔法I等于一的M西格玛阿尔法I减去1/2I等于一的M西格玛，这等于一塔M西格玛。阿尔法阿尔法g y YG X Fi xc转置条件I等于大MC嘛阿尔法I乘Y等于零，阿尔法I大于等于零，I等于121大M。求解第15个式子设计计算法Xi乘上法XG转置，这是样本Xi与XJ映射到特征空间之后的内积。由于特征空间的维数可能很高，甚至可能是无穷维，因此直接计算反Xi反X这一转置通常是困难的。为了避开这个障碍，可以设想这么一个函数。卡帕Xi X j等于反Xi，反XJ内积等于反Xi乘上反XJ转置，即Xi与XJ在特征空间的内积等于它们在原始样本空间中通过函数卡帕计算出的结果。有了这样的函数，我们就不必直接去计算高维甚至无穷为特征空间的内积，于是第15个式子可以重写为max阿尔法。
09:09
I等于一到M西格玛阿尔法I减去1/2 I等于一到M西格玛G等于一到M西格玛阿尔法I，阿尔法JYYG，卡法XIG。条件I等于到M西格玛阿尔法IY等于零，阿尔法大于等于零，I等于一啊一得到M。求解后期可得到阿X等于FX乘上W再加B等于FX乘上I等于一的M西格玛阿尔法乘Y再乘上Xi转置再加B等于I等于一到M西格玛阿尔法I乘Y再乘上卡帕X Xi再加B。这里的卡帕就是和函数可方形。第18个式子显示出模型的最优解，可通过训练样本的核函数展开。这一展示一层支持向量展示expansion。显然，若已知映射法的具体形式，则可以写出和函数八。但是在现实任务中，我们他不知道法应的具体形式，那么合适的和函数是否一定存在呢？什么样的函数能够做和函数呢？我们也下面定义和函数定理，因K为输入空间，卡帕是定义在K称K上的对称函数，则卡啪是和函数。当前简单对于任意数据，D等于X1X到一到XM。
10:17
核矩阵K能max k不是半正定的核矩阵的形式大家自己看一下。和函数定理表明，只要一个对称函数所对应的和矩阵半证定，它就能作为核函数使用。事实上，对于一个半真体核矩阵，总能找到一个与之对应的映射。换而言之，任何一个核函数都隐射的定义了一个称为再生和希尔伯特空间reproducing holbert space，简称RKHS的特征空间。通过前面的讨论可知，我们希望样本在特征空间内先可分，因此映射空间的好坏对支持向量机的性能至关重要。需要注意的是，在不知道特征映射的形式时，我们并不知道什么样的和函数是合适的，而和函数也仅是隐式的定义了这个特征空间，于是和函数选择称为，这是相当于最大变数。如和函数选择不合适，则意味着将样本映射到一个不合适的特征空间，很可能导致性能不佳。
11:14
下表列出了几种常用的和函数，线性和卡a xig等于Xi乘SG转置多项式和卡AXG等于。伽马xig转值加上R整体的D次方D大于等于一为多项式的次数。高斯和RBF和卡帕Xi等于E的负伽马。Xi减XJ模平方伽玛等于两倍西格玛平方分之一西格玛大于零为高斯核的宽度，也就是带宽。通过这个看，通过这个可以看出。伽马与高斯和带宽的平方成反比。拉普拉斯和。Comp X等于一的负。Xi减XJ的模除以西格玛，西格玛大于零，西格摩的和卡方X等于tan h伽玛。
12:05
Xig转置加上2t.H为双取正切函数，伽马大于零，R小于零。这里对应的几个和函数的表达式我放大了给大家看一下。回到书上，书上刚才说了高斯和考虑所有接触的所有可能多项式，但是接触越高，特征重要性越小，为什么呢？书上只给了个提示，遵循指数音色的泰勒展开。下面我们首先来简单说一下什么是态度展开。说FX在某一点X0处，无数阶可导它的展开，FX等于FX0加上FX0的一阶导除以一的阶乘，乘上X，再加上。
13:03
FX0的二阶导除以二的阶乘乘上X平方，再加上FX0的三阶导除以三的阶乘乘X的立方，再加上FX04阶导除以四的阶乘，乘上X的四次方，一直加到FX0的N阶导除以N的阶乘，再乘上X的N次方。统一一下泰勒展开，可以简单写成FX等于I等于等于西格玛。FX0的I阶导除以I的阶乘，再乘上X的X次方ZN去无穷，可以得到泰勒级数FX等于。西格玛N等于零到无穷FX0的N阶导除以N的阶乘，再乘上X的N次方。令负的伽玛。乘上Xi减XJ模的平方等于X，高速荷的表达式就可以简单写成卡帕等于一的X，根据它的展开有一的X等于。西格玛N等于零到无穷。
14:00
E的X0除以N的阶乘，再乘上X的N次方，显然可以看出高斯和考虑所有接数的所有可能多项式。如果你看不出来。把这一块代入。就行了。令an等于E的X0除以N的阶乘，再乘上X的N次方，就有厘米的N趋于无穷，An等于零。因为N趋于无穷，阶数也跟着趋于无穷。对应的特征越来越接近零，所以接触越高，特征重要性越小，当接触趋于无穷时，特征重要性可以忽略掉。此外，还可通过函数组合得到。例如。一若卡帕一卡帕二为合函数，则对任意正数伽马一卡其线性组合伽马一卡帕一加伽马二卡帕二也是合函数。若卡帕一和卡帕二为核函数，则和函数的值积。也是核函数。若卡巴一为核函数，则所以任意的GX，卡巴XZGX乘上卡巴1XZ，再乘上CZ也是核函数。
15:07
软间隔与正则化在前面的讨论中，我们一直假定训练样本在样本空间和特征空间中是线性可分的，一存在一个超平面能将不同类的样本完全分开，然而在现实任务中，往往很难确定合适的和函数，使得训练样本在特征空间中先进合分。退一步说。即使恰好找到摩和函数，使训练样本在特征空间中线性可分，也很难断定这个貌似线性可分的结果是不是由于过敏合所造成的。缓解该问题的一个办法是允许支持向量机在一些样本上出错，为此要引入软件格soft margin的概念。具体来说，前面介绍的支持向量机形式是要求。所有样本。均满足约束三，即所有样本必须分类正确，这称为硬件隔hard的马，而软件口则是允许某些样本不满足约束，Yi乘上xiw加B的整体大于等于一。当然，在最大化间隔的同时，不满足约束的样本应该尽可能少。于是优化目标可以简单写成美，你们WB1/2W模平方加上C乘上I等于一到M西格玛L0，一，Yi乘上xiw加B的整体再减一。
16:17
其中。C大于零是一个常数，L0，一是零，一损失函数L0 1Z等于一，Z小于零，零其他情况显然当C无穷大时。第23个式子迫使所有样本满足约束22，于是。第23个式子等价于第六个式子，当C取有限值时，第23个式子允许一些样本不满足约束。然后。L01不连续，数学性质不友好，使得第23个式子不易直接求解，于是人们通常用其他一些函数来替代L01，称为替代损失s function lose。替代损失函数一般具有较好的数学性质，如他们都是连续函数，显示L01的上界。
17:02
下面给出三种常用的替代损失函数性质，损失l in z等于MAX0逗号一减Z指数，损失LXPZ等于E的Z次方对率，损失l log z等于LOG1加E的负Z次方，若采用HY的损失，则第23个式子。可以变成minimum wb2分1W魔平方加上C乘上I等于一的M西格玛MAX0逗号一减去Y乘上Xi w加B的整体。引入松弛变量select克variables切塔I大于等于零，可将第28个式子重写为mini wb1/2W摩平方加上C乘上I等于们西格玛切塔条件Yi乘上xiw再加B的整体大于等于一减切塔I切塔I大于等于零，I等于121到M。这就是常用的。软间隔支持向量积。显然第29个式子中每个样本都有一个对应的松弛变量，用于表征该样本不满足约束22的程度，但是类似于第八个式子。通过拉格朗乘数法可得第29个式子的拉格朗格函数LWB阿尔法塔谬等于1/2。
18:11
W模平方加上C乘上I等于一的M西格玛T塔I再加上I等于一的西格玛阿尔法I乘上一减T塔I减Yi乘上XIW加B的整体，再减去I等于一的M西格玛谬I乘上切塔M，其中阿尔法谬I是拉格朗称。0L WB阿尔法切塔谬对WB切塔I的偏导为零，可得W等于N等于一到MC格嘛阿尔法I乘上Yi，再乘上SI，转至零等于I等于一的M西格玛阿尔法乘YC等于阿尔法I加谬I。将这三个式子代入第30个式子即可得到第29个式子都有问题，Max阿尔法I等于一的M西格玛阿尔法I减去1/2。I等于一塔西格玛，这等于一塔西格玛阿尔法阿尔法JYYJXX转置条件，I等于一塔西格玛阿尔法等于零，零小于等于阿尔法小于等于cii等于一，二，一直到M。
19:08
将第34个式子与硬件隔下的对偶问题11对比，可以看出两者唯一的差别就在于对偶变量的约束不同，前者是零小于等于阿尔法I小于等于C，或者是零小于等于阿尔法I。我们还可以把。第23个式子中的零，一损失函数替换成别的损失函数已得到其他学习模型，这些模型的性质与所用的替代函数直接相关，但它们具有一个共性。优化目标的第一项是用来描述划分超平面的间隔大小。另一项。西格玛I等于一到m l fxi Yi用来描述训练集上的误差，特写为更一般的形式mini f、欧米伽F加上C乘上I等于1MC格玛LFXY，其中称为结构风险structure risk。用于描述模型F的某些性质。第二项西格玛I等于一杠m l fxi y称为经验风险。
20:03
用于描述模型与训练数据的契合程度C对于二者进行折中。从经验风险最小化角度来看，欧米伽F描述了我们希望获得具有何种性质的模型，例如希望获得复杂，复杂度最小的模型。这为引入领域知识和用户意图提供了途径，另一方面，该信息有助于削弱假设空间，从而降低了最小化训练误差的过利和风险支持。像从这个角度来说。第25、第35个式子称为正则化问题，Regular问题，欧米伽F称为正则化项，C称为正则化常数。下面简单了解一下，支持向量回归。现在我们来考虑回归问题，给定训练量的D等于X1Y1X2Y，一直到XMYY属于二。希望学着一个形如第七个式子的回归模型，使得FX与Y尽可能接近，W和B是待确定的模型参数。对于样本XY，传统回归模型通常直接基于模型输出FX与正式输出Y之间的差别来计算损失，当解仅能FX与Y弯全相同时，损失才为零，与此不同，这是将来回归support victor，简称svr。假设我们能容忍。
21:16
FX与Y之间最多FC的偏差仅仅到FX与Y之间的差的绝对值大于C时才计算损失，这相当于FX为中心构建一个宽度为两倍以C间隔大。如果样本落入此间隔带，则认为是被预测正确的。于是svr的问题可转化为。美们WB1/2W摩平方加上C乘上CI等于一的m l if c fxi减Y，其中C是正则方常数，L if s是if不敏感损失if in sensitive lose函数。LZ等于零。Z小于等于1Z绝对值小于等于1Z绝对值。减其他情况引入松弛变量Cha I I hat，可将第36个式子重写为minimum WB。
22:03
切塔I切塔I hat1/2W摩平方加上C乘上I等于西格玛切I加切塔I hat条件，Fxi减Y小于等于。If加切I Yi减fxi小于等if z加切I hat if z I大于等于零。I。A大于等于0A。大于等于0I等于1R1的大M。类似于第30个式子。通过引入拉格朗日乘子谬I大于等于零，谬I has大于等于零，阿尔法I大于等零，阿尔法has大于等于零，由拉格朗乘除法可以得到第38个式子的拉格朗函数LWB阿尔法阿尔法hat切切塔hat谬谬hat等于1/2W模平方加上C。I等于西IgMa加hat减去I等于M西IgMa，另hat I等于另。减去I等于一的M西格玛另。
23:02
塔hat再加上I等于一的M西格玛阿尔法乘上fxi减Y减去IFC，再减去塔I，再加上。I等于一到M，西格玛阿尔法乘上Y阿尔法，Hat乘上Y减去fxi减去X，再减去切塔的hat。将第七个式子代入，再令LWB，阿尔法阿尔法hat China，塔恰塔hat缪u hat，对WB China I China hat。的偏导为零可得。W等于I等于M西格玛。阿尔法减阿尔法的整体乘上Xi的转置零等于I等于一到于M西格玛。阿尔法hat减去阿尔法阿尔法加Y阿尔hat加y hat。将这四个式子代入第39个式子，即可得到svr的作用问题。
24:00
Max阿尔法阿尔法hat I等于大M西格玛Y乘上阿尔法I hat减阿尔法I再减去一阿尔法hat加阿尔法再减去1/2 I等于M西格玛，这于西格玛阿尔法I hat减阿尔法I再乘上阿尔法GH减阿尔法G再乘上Xi，再乘上XJ转置条件。I等于一的M阿尔法X减阿尔法I等于零。零小于等于阿尔法阿尔法X小于等于C，将第40个式子带入第七个式子，则第，则svr的解就可以变成这样，FX等于I等于大M。阿尔法减阿尔法hat减阿尔法I Xi乘上X。乘上X的转置，再加B，能够使第45个式子中的阿尔法X减阿尔法I不等于零的样本即为svr的支持向量，它们必须落在一电隔台之外。显然，Svr的支持向量仅是训练样本的一部分。及其简称，具有稀疏性。
25:00
若考虑特征映射的形式，则相应的第40个式子将写入W等于I等于一到M西格玛阿尔法X减阿尔法的整体乘长Fi Fi的转置。将第46个式子代入第13个式子，则FVR可表示为FX等于I等于一的西格玛。阿尔法hat减阿尔法I再乘上卡帕X Xi再加B，其中卡a sig等于FA Xi乘上FAXG的转置，它是偶函数。点SVMSVC。其中有几个重要参数，简单说一下，C浮点数默认11.0，正子化参数正子化强度的倒数必须严格大于零，采用L2正则化。克隆声明算法用什么和函数？Line poly r BF per comput的一个可调换对象，六个中选一个，默认RBF，如果是一个可调换对象，就会去计算对应的和矩阵，如果是comput的参数X，你就必须是对应的和矩阵。
26:01
克诺等于莱选用线性和，克等于poly选用多项式和，克诺等于RBF选用高斯和，克等于S格的选用S摩和。Degree整数默认三多项式合成多项式的次数，也就是表达式中的参数D。伽马k auto或者浮点数，默认K多项式和高斯和以及S格摩的和的参数伽马。如果伽马等于伽马等于一除以特征个数乘以输入矩阵的方差。如果伽马等于auto，伽马等于一除以特征个数0.2版本默认值从auto变成。Soly。多项式和以及S摩的和子参数二。点SVM.line s VC类似于s.SVM.s vcno等于line。逗号、省略号通过lib line而不是lib s vm进行实现。就这一点而言，它在正则化和损失函数的选择上更加灵活。lib line和lib s vm是基于C语言编写的计算包。
27:04
优化目标函数minimum w b2d W模平方，再加上C乘上。CI等于1MLH，一减去Yi乘上3XI w，再加B的整体。回到书上。下面的代码将在forge数据集上训练SVM并创建。一个图，这个图是支持向量机对于一个二维二类数据及训练结果，决策边界用黑色表示，支持向量是尺寸较大的点。
31:14
我们注意到这里。一个一为数组大于零。它表示的是什么意思？实际上和之前的是类似的。它表示一个与之等长的一为布尔数组，计算其中每个元素的过程可以看一下表，通过表格可以发现对称一的ix大于零的I等于Xi大于零。回到这幅图，在这个例子中，SVM给出了非常平滑而且非线性，也就不是直线的边界。这里我们调节了两个参数，C参数和伽纳参数。下面我们将详细讨论SVM调参。伽马参数是上一节给出的公式中的参数。用于控制高斯核的宽度。准确的来说。
32:03
伽玛与高四和宽度的平方成反比。伽马乘上高速宽度平方等于定值1/2吗？它决定了点与点之间靠近是指多大的距离。C参数是正则化参数，与线性模型中用到的类似，它限制每个点的重要性。或者更确切的说，每个点的。Do Co e属性。我们来看一下改变这些参数时会发生什么事。
34:56
从左到右，我们将参数伽马的值从0.1增加到十。伽马较小，说明高四核的半径较大，许多点都被看作比较靠近这一点。可以在图中看出，左侧的图角色边界非常平滑，越向右的图，角色边界更关注单个点。小的伽马值表示角色边界变化很慢，生成的是复杂度较低的模型，而大的伽玛值则会生成更为复杂的模型。
35:22
从上到下，我们将参数C的值从0.1增加到1000，与线性模型相同。C值很小，说明模型非常受限，每个数据点的影响范围都有限。你可以看到左上角的图中角色边界看起来几乎是线性的物分类的点。对角色边界没有任何影响。再看左下角的图，增大C之后，这些点对模型的影响变大，使得角色边界发生弯曲，来将这些点正确的分类。我们将RBF和SVM应用到乳腺癌数据集上，默认情况下，C等于一伽马等于一除以。特征个数。
36:00
也就是我之前讲到的。伽马等于凹凸。只不过在0.22版本做了改动。所以。为了和书上一样。我会选择改回去。
38:15
这个模型在训练集上的分数十分的完美，但在测试机上的精度却只有63%，存在相当严重的过拟合。虽然SVM的表现通常都很好，但它对参数的设定和数据的缩放非常的敏感。特别的，它要求所有特征有相似的变化范围，我们来看一下每个特征的最小值和最大值。他们绘制在对数坐标上。
40:10
从这张图中我们可以确定乳腺癌数据集的特征具有完全不同的数量级。这对其他模型来说，比如线性模型可能是个小问题，但对和事实向量计和SVM却有极大的影响。我们来研究处理这种问题的几个方法。为SVM预处理数据解决这个问题的一种方法就是对每个特征进行缩放，使其大致位于同一范围。和SVM常用的缩放方法就是将所有特征缩放到零和一之间。我们将在第三章学习如何使用minimum max预处理方法来做到这一点。到时候我给出更多细节，现在我们来手工做到这一点。
41:29
首先，我们去计算训练题中每个特征的最小值。
42:21
这一行是计算每个特征的范围，就是最大值减去最小值。
44:32
注意到这一行代码，以及这一行代码。首先来看到X减去minimum training。X是个二维数组，Minimum是个一维数组。中间是怎么剪的？我们来简单说一下。这里这里写的简单一点，A减B表示什么？A是一个形状为MN的二维数组，B是一个长度为N的一维数组。
45:07
A减B它表示什么？表示一个和A形状相同的二位数组计算其中每个元素的过程，可以看下例子。对任意的IA减B的I等于AI减B。AI减B和数学上面是一样的，表示两个同为的向量相减。接下来是A除以B表示什么？A是一个形状为MN的二维数组，B是一个长度为一位数组，A除以B表示什么？表示一个和A形状相同的二位数，计算其中每个元素的过程，可以看一下例子。对任意的I和J除以B的IG等于AIG除以BG。通过这个输出我们也可以看得出来，最小值全为零，最大值全为一。接下来，我们利用训练机上的最小最大值。
46:32
利用训练集的最小值和范围对测试做一个变换。
48:24
数据缩放的作用是很大的，实际上模型现在处于嵌离合的状态，因为训练集和测试集的性能。非常接近，但没有接近100%的精度。从这里开始，我们可以尝试增大C或伽玛来拟合一个更复杂的模型。
49:03
在这个例子中，增大C可以显著的改进模型，得到97.2%的精度。看到最后，优点缺点和参数和支持。向量机是非常强大的模型，在各种数据集上的表现都很好。SVM允许角色边界很复杂，即使数据只有几个特征，它在低位数据和高维数据。及很少特征和很多特征上的表现都很好，但对样本个数的缩放表现不好。在有多大？1万个样本的数据上运行SVM可能表现良好，但如果数据量达到10万甚至更大，在运行时间和内存使用方面可能会面临挑战。SVM的另一个缺点是预处理数据和调参都需要非常的小心。这也是为什么如今很多应用中用的都是基于数的模型，比如随机森林或梯度提升需要很少的预处理，甚至不需要预处理。
50:01
此外，SVM模型很难检查。可能很难理解为什么会这么去预测，而且也难以将模型向非专家进行解释。不过SVM仍是值得尝试的，特别是所有特征的测量单位相似，比如都是像素密度，而且范围也差不多的时候。和SVM的重要参数是正则化参数C和的选择，以及和相关的参数。虽然主要讲的是RBF和，但S论中还有其他的选择，RBF和只有一个参数伽马。它是高四和宽度的倒数，伽玛和C控制的都是模型的复杂度较大的值都对应。更为复杂的模型，因此这两个参数的设定通常是强烈相关的，应该同时进行调节。

展开

我来说两句

0 条评论

登录后参与评论

作者

不可言诉的深渊

【合辑】《Python 机器学习基础教程》演示视频_已获出版社授权

（13/47）

24分48秒

第 1 章引言（1）

7.3K44

55分54秒

第 1 章引言（2）

6.1K9

6分12秒

第 1 章引言（3）

53分35秒

第 1 章引言（4）

3.4K8

28分33秒

第 2 章监督学习（1）

3K3

52分48秒

第 2 章监督学习：k 近邻

3.4K2

57分13秒

第 2 章监督学习：线性模型（1）

1时8分

第 2 章监督学习：线性模型（2）

37分11秒

第 2 章监督学习：朴素贝叶斯分类器

46分27秒

第 2 章监督学习：决策树

2.2K1

31分24秒

第 2 章监督学习：决策树集成

7171

36分15秒

第 2 章监督学习：核支持向量机（1）

50分55秒

第 2 章监督学习：核支持向量机（2）

1.2K0

30分16秒

第 2 章监督学习：神经网络（1）

1K0

42分38秒

第 2 章监督学习：神经网络（2）

1.1K0

1时1分

第 2 章监督学习（2）

42分12秒

第 3 章无监督学习与预处理（1）

45分52秒

第 3 章无监督学习与预处理：主成分分析（1）

8700

34分54秒

第 3 章无监督学习与预处理：主成分分析（2）

32分42秒

第 3 章无监督学习与预处理：非负矩阵分解

15分55秒

第 3 章无监督学习与预处理：用 t-SNE 进行流形学习

1.2K0

23分30秒

第 3 章无监督学习与预处理：k 均值聚类（1）

1.2K0

15分48秒

第 3 章无监督学习与预处理：k 均值聚类（2）

6580

23分14秒

第 3 章无监督学习与预处理：凝聚聚类

1.2K0

11分57秒

第 3 章无监督学习与预处理：DBSCAN

25分23秒

第 3 章无监督学习与预处理（2）

38分30秒

第 3 章无监督学习与预处理（3）

5分17秒

第 3 章无监督学习与预处理（4）

32分31秒

第 4 章数据表示与特征工程（1）

20分16秒

第 4 章数据表示与特征工程（2）

26分39秒

第 4 章数据表示与特征工程（3）

40分50秒

第 4 章数据表示与特征工程（4）

11分56秒

第 4 章数据表示与特征工程（5）

1.2K0

38分40秒

第 5 章模型评估与改进（1）

18分42秒

第 5 章模型评估与改进（2）

1.2K0

34分43秒

第 5 章模型评估与改进（3）

7分14秒

第 5 章模型评估与改进（4）

37分1秒

第 5 章模型评估与改进（5）

1.2K0

55分53秒

第 5 章模型评估与改进（6）

9660

29分27秒

第 5 章模型评估与改进（7）

29分14秒

第 6 章算法链与管道（1）

16分48秒

第 6 章算法链与管道（2）

27分3秒

第 7 章处理文本数据（1）

16分43秒

第 7 章处理文本数据（2）

7分45秒

第 7 章处理文本数据（3）

1.3K1

15分22秒

第 7 章处理文本数据（4）

26分7秒

第 8 章全书总结

第 2 章监督学习：核支持向量机（2）原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 2 章 监督学习：核支持向量机（2）原创

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 2 章监督学习：核支持向量机（2）原创