00:01
喂,老师。嗯。那。喂,老师现在能听到了吗?要不?要不咱先不管,刘老师先开始。
01:33
没有退出去了,那先那不管咱咱咱开咱们的。嗯。咱首先从那个德化开始说起。呃,智能化有两种正能化方式,一一种是L1正则,一是L2正则,L1正则要拉,然后。呃,它的公式就是这样,就是W是所有的参数。W是网络里边所有的参数,就是就是那个每每一层的可训练的参数,然后把它做一个这个。
02:08
呃,这个绝对值。就是让,就是让这个,呃,让让W越来越接近零,让它的距离度就用这个的方式来来来,呃。绝对的方式,来来啊,然后L2则就是用W。减零,然后就括起来,括起来一个平方,这个叫做式距离,也叫做呃,平方距离量。然后他们两个,他们两个最重要的作用就是用来防止过。他们一般用法就是在这这是我们的那个前面这个是我们那个损失函数,在损失函数后面加上这这么一项,那个项。这正项你看前面有个拉姆DA,有个22M拉,就是超参数。
03:00
套餐就是来控制智能化程度。这个是我们的那个经验损失,或者不,这个是我们的那个目标,目标函数。函数,然后它等于。等于损失函数加上一个增方向。然后我们看一下这个正方向,这个是我们那个WB,它是主要是。嗯,不用不用,没有这个,没有这个W没有这个也可以。正常的时候它是。对所有的这个可训练的参数W进行一个一个让W值越来越接近零,让W值变小,不会让它变,不会让它过大,然后这个是正,然后他现在最常用的是L2,这的话就是左边那种形式。
04:06
啊,这个二就是为了平衡掉这个,呃,这个二它求导时带来的系数。嗯,它这画像就是有效,可以帮助过拟使参数,使每一个参数都不会过于大,你看。嗯。那从这新加一个正能画像,每次更新的时候,它会将这个W参数要嗯向零靠近,然后所以使得W参数不会过大,然后使每个神经元影响都会。变小,然后变有缩网络尺寸,防止这个参数值过大,就以使得。呃,函数值如果非常大的话,这函数值变得非常的尖锐,就造成一种过拟合现象。啊,比如说我们看一下这个这个函数,这一个五阶函数。它的正常情况下是这样,是这样一种,呃,一种形状就比较尖锐,但如果我们对这个参数进行一个收缩,就除以100的话。
05:02
这函数就会变成这样一个比较缓的一种情况。啊,就像这种这种像像这种样子,然后我们一般过拟的情况,就是像这种图上,比如说我们对一个二平面的话,所有一个二维平面上一个点进行一个分类,然后这种这种情况话是一个现象,就把这种这种类似造点的类似造的数据也给弄出来,就这个说明这个函数非常的尖锐,或者是这函数。非线性能力表达太强了。然后这个时候如果我们对它加上一些过,加上这个能画像,就使得函使得W参数收缩在这里边,这个参数应该就是就是就是。AAXAX方加B或者是什么的,就就类似于这里有五四,50 30,这样就看这些参数,对这些参数进行收缩,收缩,收缩它缩到一定程度,它会变成这种这样一种状。就是他这个,嗯,把他过颈和就缓解一下。
06:04
然后他。嗯,它用来止盒的一种,呃,一种直应表现,就种二维整网。只有两个训练参数,然这个大圈,这个大圈是。呃,它它相当于数据,相当于数据的不是相当于,它就是它就是数据的损失函数的一个等高线。就是说如,呃,就是说。没有加画像的话,我们就优化,优化是这个优化是这是是从这里找一个最优最优值。从这从上面找一个最优值,让最优值是在中间这个点上,就损失函数为,在这个点上失函数为零。如果直接跑到这个点的话,一定会造成一个一定会一定会造成那个过拟,因为他对的为零。
07:01
说明它对那个进行有个光,然后现在我们加上了一项正能画像之后,这正能画像一个,呃,这L2正则的一个,那个图像L2正,我们看下它是一个。W就相当于W平方。对吧,因为W平方我们就在知道它是一个,然后他们的点就会交汇这个。嗯,交交在这个W上。教会了这个。这一点就是。呃。两个函数的交,两个函数的交点的地方。这样就会使这个W参数,W参数它不会过于接近这个他们的过和点。所以这个他们不会过分的接近这里,然后提高他们的泛化性。这个是这个是L2正则,呃,这个是L1正则的那个。
08:01
嗯,L1正则的形状,L1正则看到可以是它是一个绝对值的形式,然后绝对值的形式的话也是。就是在二维平面的话,它是属于这种这种菱形,然后在三维,在三维平面的话,它会是一种那个六角六边形的那个零零体。然后这个三个平面的话是一个球形。然后如果它是一个零体的话,它RL正则,L1正则,这个图像会跟这个。呃,会跟这个什么,会跟这个损失函数的图像,他们有很大的概率会交汇在这个坐标轴,交换在坐标轴上,就明这个这个属性,这个这个W。它会不会变成零?变成零,然后这个时候就相当于就是呃。他们最优解,这是他们最优解,不是最优解或者是次优解,他们有大概率交交汇在坐标轴上,这不一定最优解应该是。
09:01
他们。它的解大有大概率会交汇在坐标轴上。大概也会的坐标轴,然后这个时候这个参数,比如说像像这个W参数,这个应该是。Y等于。WX加。W1W2。后面再套一个激光函数,相当于单个神经元嘛,就是就是类似这样的形状。嗯。那就这样吧,然后。呃,然后如如果跟如果使用这个L1L1正的话的话,如果它的性函数是用L1正的话的话啊,那么有有可能这个W1是变成或W2变成零,然后这时候我们的影响主要影响因素就是另一个,然后这个时候就做特征择。
10:14
利用特色特性发展的时候,特征选择,然后这个话是属于特征工程里边的东西,然后给大家介绍一下就可以。嗯,L1的话,它一般是。一般是用的,用于特征选择或者是用于矩阵。还有是。一些其他的一些地方。嗯,用用处的话,他一般会做一些,会有那个会会作为一些,然后不会作为这个。呃,智能画像来使用。啊,然后是out,就是随机失活。神经网络在在前向传播的时候,会随机抛一些神经元,然后就这个神经元权重变成零,然后使用剩下仅神经元洋传播来遏这个网络过度依赖某个神经元,就像这个图片上样的。
11:07
嗯。你回到刚才那个图上去,你看刚才那个图,我刚才我那个电脑一直不行,我重启了,你给我说一下,你这个图O1O2 W1W2,他们是你这个上面那个圆框分别是代表什么。啊,圆框这个这个是啊,对对啊,这个是那个损失函数的那个总包线图。啊,损失函数等高线是吧,中间那个那个黑点表示什么意思啊,这黑点表示这个东西的上面,上面那个黑点,上面那个蓝点。好,这个属于这这个就是那个等高线的最低点,就是相当于损失函数为零,或者是最优最优的地方。你为什么认为那里是损失函数最低呢?你这个投影是怎么设计的?因为大家问我不知道是我看不懂还是说大家都看不懂哈,对我知道对你这里是是设计的,你这是是投影是吧,你要把这个放进去放过去是吧,你可以把这个把这个小小小小,你把对把刚才那个放过去啊,其实你是嗯,把这个等高线相当于从俯视俯视俯视下去的是吧?啊对呀啊,你把这个图画过去,你把这个啊。
12:21
有那个。啊。啊不,你光截光截那个光截那个什么东西啊,也行放对吧,你过你过会你改造一下,改造一下,其实呢,你这个是针对欧米伽一和欧米伽二的,其实你有两个轴是吧,一个是欧米伽一,一个是W,一个是W2,然后纵坐标呢,其实是这个,呃,你的损失值是借对不对啊对啊,所以所以这样我看我就我就知道了,我就知道这个东西,因为刚才我一看到这个图。是吧啊,你其实下边那个圆形呢,呃,你你其实你刚才这个圆形哈,呃,就是那个这个圆形它其实也是一个,也是一个等高线吧,对不对啊,它相当于是一个,它没有那个,那么你这个球它代表的损失是多少呢?
13:08
还是说还是我它就就就不是就不是损失,它的意义就不是一个,就不是一个损失,是不是啊,它本身就不是一个损失,它就是一个,就是说我要在这个欧米伽一和W1和W2的取值就必须要在这个之间,对吧。啊对,需要需要有需要有这个东西的约束。啊对对对对,其实呢,就是说你看那个上面的等格线,其实是一个蓝圈呢,是一个损失值,这个呢,你这个中间的这个就是。L1。它其实是表示呢,你必须要在我这个取值范围之内,是这意思吧,啊对啊,所以他两个要要要要要进行这个。就是两两个函数的相加嘛,两个函数相加,这两个函数的交汇的。啊啊啊,函数相加啊,那那你刚才你讲的过拟合,为什么会过拟合呢。
14:04
啊,郭景和我再说一下郭景河问题,嗯,啊,就是这是我不知道大家有没有听懂哈,我知道大家听不懂,那就就就就就问哈,是吧,千万别不好意思。是吧,那个过拟合我不知道大家有没有是谁,那个大家知道不知道什么是过拟合,嗯。那个。嗯。张云珍?什么是关拟和张云珍?就是就是他。嗯,就像下下面那个图一样,他就把一些,嗯,就是训练的点这样这样。就包括在里面了,他就有可能。嗯,再加其他的那种训练的话,他就就是。怎么说呢?嗯。就是它那个就是他那个非曲线性太太好了,他就你喝就会喝的,你喝的太好了,是不是对他就对吧。
15:10
嗯,他就会把那个就训练的那些就就会就能识别出来,但是你没有训练的那些数据,它可能就识识别的不好,在实际的,在实际的这个认识别的时候,他只认识这个样本是这个分类是分类,因为稍微有点差别,就像树叶一样是吧。我只认识这个长了23个齿的树叶,对吧,20个齿的,20个齿的他都不认识,这叫过拟合哈,咱把这个呃东西呢,就训练下边性能非常好是吧,看似呢。就加其他的就不行了。对,它训练样本性能,那个分类性能特别好,然后就相当于就是。嗯,相当于就是。你喝了?嗯。拟合训练样本的噪声。
16:01
嗯,对。然后对于对一些一些样本来说,我们认为呃,这种形式是正常的,然后这个点和这个点都属于噪点,然后我们这个正样本负样本。嗯,但是但是里边有些噪声,然后拟的话,就我们把这些噪声也拟合进去了,然后把这噪声一个一个都挑出来。然后就形成这个尖锐的函数,然后这种形式就叫过拟合。然后他对那个验证题验证。验证结合。呃,或者说是。没有见过。没有见过的数字。
17:01
效果就很差,然后它造成这个主要原因是。造成这种形式主要原因是那个参数量过多。然后他的解决方式一般都是降低数量。呃,不是对于对于对于那个模型来说,实际上是这样。然后第二个就是增加训练数据。还有一种方式是那个。呃,这上面两个最直观的一种方向,然后就是增加画像。所以你看这个模型数量,模型参数多的话,其实也可能会过拟合是吧。对呀。然后你要判断一个人是吧,你提出来500个特征,说这是一个人。
18:04
那么呢,你可能就会识别错误。自动画像,然后第四的话就是那个。嗯嗯,这个总结挺好哈,这个总结挺好。玉川,你们有什么问题啊,就在群里,就在群里提出来哈,玉超。刚刚才想到四点,突然突然忘了第四点是啥。我还想增加训练数据,降低模型参数。啊,这些吧。增加训练数据。嗯,增加自动方向,意思就是其实就是降低单单个那个。就像一个价格修正嘛,是吧,他本来要跑到那个最低点那个拟合点了是吧。就降的很的,就拟合就就拟合了嘛,所以说你的把这个值往外拉嘛,其实就这个意思。
19:06
降低权重,降低权重降低降低权,降低权重的影响。降低每个权影响,就是变相缩小网络。我看那个,呃,田老师也在群上,田老师,我们今天其实也算是一个讨论会,我们所以说是也不是,我也就乱插言,嗯,你那个田老师,你有什么问题,你你可随你可以随时提问一下,今天那个赵鹏也是我们这个。呃,大四的大四的学生。嗯,讲的挺好的,就跟其实跟我们平时那个讨论会是差不多,都是这个样子,就是我会随时打断他们,然后让他们讲为什么是这样,挺好的,我觉得应该这样,要不然就就那个什么了,要不然就赵本宣科,他说过去之后你觉得理解了,他可能可能没理解,对对对对,有问题啊,随时给我提一下我这个啊啊啊,大家随时听哈,啊咱们今天就是大家千万不要,哎呀,我这么简简单的问题都问啊,会不会被别人笑话,不会,其实我有有的,我我也是大家都是在学习,其实老师也是在学习。
20:25
嗯。刚刚才想到四点,然后然后写着写着,突然忘了第四点是什么,然后写先写点。嗯嗯嗯嗯嗯,然后那个呃,对他最常比较常用的就是这个正画像使用L2正则。然后这个则因主是。呃,这个平方数的这个求导就非常复杂,叫拉,然后在那个在器学习里边有一个专门的专门的一个技术叫做拉回归。
21:09
到回归,然后它的那个优化的方式叫做最小角回归。然后那个计算比较复杂。比较复杂,然后他的数学的数学理论的话,也是比较那个。也是也是比较复杂,所以就。嗯。首先是计算,计算量复杂,然后它就不太适用于这个神经网络。然后另一个方式就是。我没看懂。我没没有很没有看太懂的,对消角回归的那个方式,然后还有一种叫做坐标轴下降还是叫什么东西我也忘了。
22:00
不是不不经常用了,用来优化这个。拉手那个。坐标是下降,我记得有个坐标轴是什么东西。然后也是那个量非常复杂。它发展出来特征选择的话,又是特征工程来选择一些比较重要的特征,这个的话有兴趣可以去了解了解。反正这个正能画像都是为了约束这个,呃,约束这个,这个损失他不会就是过向过度的那个倾向于这个最低点,他会。它会被这个智能给约束,然后嗯,就整个这个W值变小,一旦变小的话,就会就会有这种平滑效果。变就会滑果,就会形成比较尖锐,比较函数就现一个象,然后然后还有一种这个。
23:01
帮助过拟核现象,就是这个这个发out,随机失火,就对这个东西前向传播的时候。啊会随机会会一些经元,经元就是说就呃让个经元输出变为零,就是W,它神经元这里不是有一根线,这根线然后输出到下边,下边这个输输出到下一个神经元,然后让这根线这个W数变成就个网络消失。网络。那么一个简单网络之后,这个时候就会那个。呃,让神让这个神经网络不会过,不会过度依赖某个神经元,因为它可能现在的神经元还在下下下一个那个下下一轮这个神经元权均倾向这权。
24:05
呃,这这应该都有那个相同,不是相同吗,就是。那类类似于相同相同的那种那种那种权重。变相搜索网。然后我们再我们把这个随机释放之后,然后为了不影响这一层,这一层的那个。这一层那个神经元输出的那个期望,就平均值就肯定肯定输出它有一个差不多一个。然后我们要对这个输对输输出值进行一个缩放,就是比如说我们随机了50%,我们这这一层值输出完之后,我们要对这个值进行放大50%。这里是那个,呃,那个原文吧,这。那个吴文达说所说的原文。A3A3就是这一层的输出,这一层的输出向量。
25:00
这层输出向量要除以那个,除以以个还元的那个那个那个那个那个叫百分,比如说他举例是百分之10%对个这一层的输出要以分之八十,要除以那个0.8,然后去做一个,去做一个放大变化,然后让他们期望值不会不会变,就也就是期望值不变,也就是那个。让他那个输出分布不会不会不会偏移。这个话应该能听懂吧,其实也不也不理解,那么。不用想那么那么那么深,就是说就输出的时候除以一个0.8就可以。就当于呃,本来这个本来这个值它输出是输出一,这个值输出是一,但现在这个这个这个值没了,然后它要包含就是这个值,它要包含这个值的那个,呃,这个这个神经元的那个大小嘛,就相当于他一个人要顶两个人顶两个人用,所以说。
26:03
要要除以0.50乘以二。就是这么个意思。你主要记住这一点就可以,然后其他的话就非常简单,就然后那个或者是直接就一就可以实现这个效果。那这个说话呢,非常简单。然后下规输入是那个,也是里边讲的那个规,我们输入如。嗯,比如说我们输入一个人,判断他是不是一个,假如说判断一个人,他是不是一个好人嘛。然后他这个人假设,就用身高体重来判断这个人是不是好人,是不是是不是健康人,或者是有病人啊,身高和体重。因身高和体重这这两个。呃,这里两个那个。来判断。
27:00
然后假设我们的身高。用的是。正是厘米。那我们启动的是。然后一克一斤。嗯。用的是。你看这样这样的话,这两个这两个属性他们的量高就不一样,那这身高平均都是那种就是一七。180。都都会是一百八啊,一百七这样的,然后这千克的话。就变成了。克好像就变成了50啊,或者是60这样的。啊,这个好像还是不太。不太那个不太明显啊,那我用用用毫米吧。就变成1800。
28:00
1000起量的,还有一千八一千起量的,他们量钢就不一样,就他们他们那个。嗯,他们他们度量方,他们度量这个这个尺寸就不一样。是吧,你看一千八一一千七。这个这个50的稍微动一动,50稍微动一动,就会影响,就会比这个。比这1000多要要重。那他们的。呃,他们的那个损失函数就没没有方函数会呈,它会呈现这么一个狭长状,形状非常长一种形一一种一种一个形状。啊,变成这非常长的一种形状,就是比如说这个B,这个B就是那个。是。体重,然后这个。就W这些这一栏,它就是那个身高。你们身高可以拉这么长,然后体重这么这么短,然后体重稍微动一动,就会就会造成那个损伤,还会就会造成那个损失,还会变。
29:05
差别大。啊,这个时候就会造成那个网络一个一种震荡现象,因为它往它稍微往这个,这个是个影响比较重的地方,重一动,它损失函数就会变,就会变得很大,函数一旦一旦变很大,它就会进行一个惩一惩,它就会大量的回归,大量的往这个往呃就是很长,往这个比较短的这个方向移动。就会突然跳到这边来,在这个比较短,比较那个比较短,这个这个这个方向移动。然后就跳这边来,然后这样就。很厉害很厉害,这样。一直中去。啊,不准之类的情况。然后如果我们把它把它做一个规划输入,就是平衡量高嘛,就是除以他们的。入有很多方式嘛,就是去中心化,有那个各种各样方式,一般的话一般会用那种。
30:04
就是减均值除以方差那种形式。减均值差那种形式,然后再说他们量就大,不是不是差就是最大值。呃,就是最大值归一化归归到零到一之间。把他们归到地方一家。然后这个也是归到零到一之间。让他们的量纲变得变得差不多。都是都是零到一。然后呢,量刚变的差不多,然后这时候再再进行训练的话。会向这种差不多是一个状形状,他们各方向那个或者是那个属性的影响一种差不多形式,然后往中间。最后他比较。比较那个比较稳定,训练比较稳定。嗯,这个是规划书,一般的话就就是我们输入一般都需要做一个规划。
31:04
对,图片也是图片的,图片数据也需要做规划,就是每个像素。对那个每一层的像素进行一个对比化。呃,一般我们像素都是二,都是255255的。然后对相关进行一个规划,然后他们对像素进行规划,好处还有就是那个。可以也是他们全职。不会,不会变得过大。这个话没没有没有详细的解释,但是就直观上来,肯定是把它归到零到一之间是比较好的。
32:02
然后这个梯度爆炸和梯度消失的这个这个网络那种直观性,直观的一种感受,就我们经常会说网络过深的话,所以会有梯度消失,然后或者是怎么情况下梯度。啊,比如说用那个。用那个什么。因为C末作为作为激光函数的话,它有可能会造成梯度爆炸的情况。也有可能会消失。然后我网络过时可。嗯,或者是梯度,或者网络过深。为什么会有梯度消失啊?什么叫梯度梯度消失啊?他这个啊,他们这两个这两种,这两种情况的话,它其实都是一种一种现象就是消失,消失的概念是什么,就是和误差有什么关系,它这个东西啊。
33:05
啊,稍等一下,他这两个概念其实都是那个。梯度异常了,都是异常。都属于梯梯度异常,不管是消失,不管是消失还是多大,都都属于异常。嗯,然后,然后直观的理解一下就是。就以这个,以这个网络为例,这个网络它不止这么多层,还有后很多很多。然后假设每一层的参数,它是一个W,一个。呃,一个W一个矩阵。呃,不是矩代,是向量啊,矩债矩代是矩WR的一个矩阵。然后他这呃,这这一层的,这是这这这个什么。这里是一个W,是一个W矩阵,就是W1 W2 W3 W4 W5。
34:05
然后这个这个两个,这两个神经元输出是那个。呃,假设是这个假是,然后假设我们用的那个函数,线性函数。就是没有计划函数。就个函数,然后一直一直到一直到Y1撇啊,这应该是,这应该是撇外。一直到一直到外贸,它的输出哈,就是就是这种形式。个子。一直到一直到它的输出的话,它一用这样形式,这就W矩阵不停的连成,然后对,然后。呃,是这样的,就是忽略掉那个。是这样,然后前前多少层,前这些层如果是对于这个网络来说的话,前多少层,前前这些层的话,他们的维度是一样的,都是二乘二,那就相当于是一个大的W矩阵乘以最后一个。
35:01
一个向量啊,一个。一乘二的矩阵,然后变成这样,就是前面这几个权重矩阵合并,合并成这个形式。然后这个W矩阵里边,这个大W矩阵里边每一项就相当于是。嗯,这个矩阵元素里边。啊,这个矩阵元素里边,它是呃就是呃,这个每个矩阵元素那个。L1减一次。就是这个这个决定元素,它不是就是那种那。怎么说呢,它每每一个每一个每一条线上那个权重假设都是嗯点五,我看有一张来着。那那那。爆炸。
36:08
我看是这张图啊。呃,如果假设说每一个每一个权重矩阵,它都是都是一样的值哈,都是都是类似这种值的啊,都是一样的值,那它最后它最后的值。那最后它最后这个每一个值的话,不就是相当,就是相当于它的L1减L减一次方,如果说他一开始初始化的时候,这个值是小于零的。是小于一的话,那么L减一次方这么这么高下去。它只要小于一。只要小,只要小于一的话。就每一层的那个。每一层G,每每一层那个传动小小于,然后。经过这么多次四方之后。它就会趋向于零。但是不是倾向零,那是几乎就是就是零。那如果是大于一的话。
37:10
就会趋向力无穷大。嗯,它它趋向于无穷大。你这个位是什么,你这个为为就是权重,这个权重上每根线上这个值。那不是W吗?W是权重矩阵。我我再我再想一下。W等于。权重矩阵,那个权重不就是那W吗。
38:02
啊,我再换换个那个。放在那个那个东西。你上面写的W1W2,你这个下面写的V。不是,这个W是W是作为一个矩阵,然后矩阵里面每一个值是。没有吧?啊,就是我我给他一个。你。你看你前面写的好像都写的WWG好像。啊,这W前面写的每个W都都是一个矩阵的形式,然后啊,这里这里这里写的是W矩阵写写的不就是写那个什么里边的值吗。的话,这里我这里的小写我用作是每一个矩阵,然后大写用了一个合并,作为合并的矩阵。你这样说行,就你仔细看看吧,你等着再你再再再找一找吧,我我觉得可能嗯,我没有这么写的啊,你自己再再测试一下,你看看,嗯,找找书上是不是大写的就用W,小写的就用V。
39:09
这个就是个人想法问题,我要改,我改一下,改成这样你得统一啊,你个虽然是个人写法,行,你不用写,你看你这个找的这个编辑器。真,真丑。这样就可以,这W就是就是这样话就就好就好理解了哈,对啊嗯啊嗯对啊,就是程和建程的连接嘛,就是这R表示什么呢?是第二哪一层的。大二是哪一层下面KG就是这一层的哪一个参数。就是比如说是这个。嗯。明白这么这么我就改两个明白,明白不用改了啊啊,然后经过这么一长,这么一长个网络下来之后,这个每个W就相当于每个它都是一个N个接。
40:07
N个W一个乘这N个W里边,如果每个W都小于一的话,啊,都小于,就是直接假设它每个W都都相等,都是都是都是0.9。然后它0.9的N次方就直接变成零了吧。这时候就叫梯度消失,如果是一的话,比如说1.5,然后1.5的N次就变成这个变成了,然后上情,上面这种情就是。就是气消失,下面这种情况就是气爆炸。然后梯度消失的话就是。那W。到后边这W趋近于零了,他们那个梯度就肯定是零,就他们的反向传播效果就非常差,就几乎不就停止了。然后它W大的话,梯度话就是直接就超过范围了,就网络直接没了,就直接就崩溃了,就相当就那。
41:00
就会报那个叫什么错那个。那个叫数据异常错误。数异常错误,然后这个爆炸调爆炸一置图,然后这个这个话。呃,梯度消失,这个要记一下,因为它经常会出现这个梯度消失的情况。然后可以可以那个一下怎么他会解释,会用这个东西来解释那个为什么为什么有用。嗯,这个是这种一个直观感受,然后下面是一个学习率衰减,这个就比较简单了。非常简单。学习率衰减就是就是训练的过程,我们一开始先用于学习率来训练,然后训练到一定程度之后。我们降低下学习率,然后帮助我们更的到那个。用这个截图的方式。
42:06
怎么说?然后我们一开始训练的时候。假我从这个点开始,从从哪个点。啊,就先就先不管,先不管下边这个东西。我们从这个点,从这个点开始。从那开始训练。啊,从点开。嗯。然后我们正用使用正常学习率,使用正常学习率来学习的话,它会是。怎么这么难用?
43:00
从这个点开始训练,然后正常他会这么略微震荡的那个往下往下来找。然后,然后一直一直走,一直走到这个地方。这样不停的来回震荡。不行,这样来回震荡。啊,一直不停,一直不停震荡,然后取决于这震荡幅度,取决于学习率的大小。是吧,率就不长嘛,这么这么多长,就是学习率长度,然后就不不停来回震荡,来回震荡,来回震荡。然后这时候我们降低一下学习率。降低一下学习率的话。降低学习率,它本来荡幅度这么大。是吧,增长幅度这么大。然后我们这时候突然降低一下学习率。它就不会那么大,就幅度就会缩小,然后变得这么小,这么小,这么小这么小。
44:01
就这段数就会变小。然后这时候我们就更接近这个最优值。然后,然后如果它到这个增上,再缩小,再缩小,再缩小,就就会无限逼近这个最优。所以这个是持率下降的一个非常必要的一种一种手段,一般会有。会练到会练到某一个轮次之后,然后手动下降,或者是根据轮次情况下降率。然后降学习率,从咱们从网上了那么几个学习率下降方式,一是什么?逐步下降衰就是。呃,根据一些学习,根据一些因素降低学习率,就是每过几个周期学习率减少一半,或者是每过多,每过多少,每过多少周,多少个周期之后学习率降低,降1/10。再然后一个指数就是。呃,就迭代次数,根据迭代次数。根据次数来进行每每个每个迭代都减小,然后还有这个什么分减,就是这些用减方式嘛,只给出几个。
45:04
方式。他的主要就是来自于那个推算法。退款算法,模拟退火算法。模拟除法算法,它那个一个基本的思想就是。那。啊,这样。我们最优值的这个点。然后一旦我们到了一次。到41的时候,我们都有一定一定概率接受它继续往上走,一定概率接受它继续往上,一定概率接受它继续往上。然后他越往上接受概率越低。越往上进货概率就越低。然后我们这样就有一定几率会跳出这种最优,比如说我到这一直接受,一直接受,一直接受,一直接受,然后跳这里来,跳这里来就可以名正言顺的往下往下滑,往下滑滑。
46:09
后还会率接这个优,他每每一次那个接概率都非常低,然后到里一看概率非常低,概是100%分百分之零点了,然后百分百分之接概率,然后然后不行不行就回回退回回退回到最低点。方便。变成了这是好的那个思想。啊,它有就是就是就是一定概率接受不好的值,一定一定概率接受这种上升值。它会他有可能会跳出局部优,然后这种形式。然后就是学习率成这种形式来进行荡。是不就有一那种,是不是就有那种退的感觉了,这种震荡,然后这个是这种平均式的震荡,然后现在一般都。
47:04
随着量增加,就就是变成这种形式。就像这个后,这个震荡期变大,一开始这种震荡震荡荡,震荡荡可会跳出各种优点,然后荡到那个不多的时候就会,就会我们理论上就会认为它陷入那个陷入一个比较好的那个解的那个范围,这个上这个是不是忘了说。这个我们找到最优点一般都是一个点,就是它不是最优点,但是它是一个一个低一个点,就像鞍点,然后这个值就足够用分。嗯。然后它这个这种的话,它会找到一个比较深的一个点,就是它这个较深的点,然后到最后这种,到最后这一个周期,我们看它是一个这一个下降下降下降到下降下降到这里之后了,然后最后这一个周期,就相当于是一个这个叫指数减的一个情况,指减这种相结。
48:05
呃,结合推广和那个制度衰减这个学习率。会点。然后来回震荡。训练太慢。这个算法在。如果V4里边使用这个算法。使用。嗯,它相当于就是一个指数衰减,前面用了一些用用了一些震荡,它对它最差也是一个指数衰减学习。所以它的效果会一般是比较好,就太慢了。啊,这学习率的一些一些方式一些那个东西。然后下面就讲一讲这些这个边长。
49:03
啊,这个BN层也叫那个normalization,就是P。就是每一层只在经过这个,能不能拉一个拉一个网络图过来。呃。一。在输出的时候,呃,在输出之前。不,在经过函数之前,它都要先经过一个标准化。经过一个标准化的那个东西,这样这个标准化就等同于概念论上面那个正概论时候,那个标准化就是去中心化,应该是要去中心化,就是减去均值和方,减去均值除以方差。然后这样,就比如说,呃,我们不是有一个有一个批有一批样本吗?我们比如说那这批样本是32,然后我们会用这三这每一批样本32去进行那个求这32个样本的均值。
50:12
然后每个样本它的输出,每个样本它的输出值就是这个ZZ就等于这个。No。那就等于W。或者说有B没有B都都一样,这个B只是一个偏加,加不加B都可以。影响,影响非常小。然后最WB就是就是这个跟这个相乘得出来这个。这个就叫Z。然后先求出这个这个Z。这个这个Z的那个啊,这个Z它是它是一个向量,对于单个样本来说,这是一个,这是一个不对,这是对于对一批样本来说,这是一个矩阵。
51:00
这是一个那个,呃,行行是那个。没行,还是列没列。每一个样本。刚才刚才找那个科长。行。每行是一个。每样本每行是一,每每行是一个。要有这种量化思维,然后这个我就我就不再说了,就是一个量,一种一种量化思维。因为这个Z在经在输出在那个这个这个Z,它会对Z进行一个统计。这个这个均值和方差是一个统计量。统计这一个小的一个一个均值方差,然后对这个Z进行一个去均值的一个标准。
52:01
均值标准化,然后到这里,到这里之前都挺正常,到这之前都挺正常,这个加一个F就止,方差为零加一,非常小于个大概。十的负五次方,四的负次方,他会一般都会都会设定好的。不需要这个这个多大值都都影响不大。然后然后到最后到了到了标准化之后,然后我们还要对它进行一个仿射变化。或者叫做平移缩放。这个WW和就加入这么W和伽来对这个normal进行一个偏移和缩放。我们现在前面做这些这些这些式属那个,让那个均值为零方差。对吧,他不一定,他不一定适用于这个数据。不定用这个数据的话,我们就用这个伽马和贝塔来让,让这个网络来自动寻找就适合这个数据的一个标标准,就看它到底是中心在哪方,是多少比较合适,所以加入一个射变这个这个参数,那我们用这个就。
53:11
输。经过这么一个变化。呃,就是那个自营的那个一个东西,但是它的统计量,它的统计量就是这个。个均匀方差统计量来自于。就对里边每个样本这些做这个统计,你这个这些变换目前在PY里都已经实现了呢,还是说啊都有在camera边都都都会有这个东西。都会有这个变化。嗯,也就是他默认就提供了是吧,对你甚至可以单独把这个和给单拎出来这种。这种呢,就用统计量的方式叫做非非条件的话。
54:05
无限级的。安慰。情况就是说我们这个伽马和贝塔经过这个神经网络训练之后,伽马和贝塔就固定下来了,就会就会依据这个这个什么依据这个。训练样本就固定下来了,它的所有来都,所有的这个伽马和贝塔的影响因素都来自于这个训练样本。住宅的训练样本。保持变化函数。来样本啊,没有没有外部的响叫非条件,然后还有一种,还有一种条件话就简单一下介绍。
55:03
它的这个变化函数,它会它会依赖于一些标签,一些一些标注,会依赖于一些标注。依赖于每每条样板标注。然后好就是好处,就是这个变的话,它会针对个会对个样个样做一个变,然后那个叫什么或者。就更更准确,然后这个上面这种非正的话的话,它就是比较比较通。这个反射变化,然后这个伽马和参数,它是一个可学可学习的参数,就是在反向传播的时候,对它对伽马和贝塔也进行一个。梯度那个下降就可以。嗯,然后就现在常用的有五个。
56:03
标准就刚才介绍这个ization,我们对有数据做个这形式处理,一维是一维是那个道。就这个map一个通道后是那个像样,就是每每么一个样。每每这每这么一个东西是一个样本,这种东西是一个样本,然后这个高度就是W和H,就是空间属性W和H的一个拉伸。拉伸,比如说这是一个,这可能是一个三乘三的一个,一个一个图像,三三图像样本那个通道是六。那一共有。啊,一共有六个六个样本,我把这个写下。就就图上这种形式来说,它是一个。六个样本。没有通道。当成三的那个三的图像。
57:24
嗯,这样这样一个这样一个维度,然后我们BN它的统计的统计信息就是。统计了这个。对所有样本的每个道,对所有样本上所有样本的个道,对来对来,每个道上统计,每个道都单独统计。就每个通道上。对每一个通道上的,对所有样本的每个通道做一个统计。那这这这是对第一通道做统计,第二对第二通道做统计。啊,然后。呃,然后这个这个叫什么LN。
58:01
他对这个。对一个样本上的所有通道做统计。就是统计,就是我们单拎出来,就是它不依赖于这个的大小了,他就他就是拿出来一个,拿出来一个样本,然后就这一个样本上的那个所有通道哈,所有通道去计,计算一个值,那计算一个值,然后去加做加减做加减乘除。是LN,然后然后现在还有比较常用就是这个这个instance就是实例化统计,这个叫实力实例的话,这的话。他是对这个。对,每个样本,每一个通道,每一个通道。就在每一个通道,在每一个通道,就在一个通道上对他所有的元素做一个统计,就是就拿一张一张图,拿出来一张图进行进行统计。嗯,然后还有一个就是这个。就是相当于把这个lay给分成很多组啊,分成很多很多个组。
59:04
呃,对,这个通道分成很多组,然后每一个组统计,然后现在听说是这个这个效果比较好。但我没有用过。最开始这个是是那个谷歌提出来的,是那个谁的是那个。嗯。提出来了。然后他当时是。叫什么无心无心插柳,然后他本来是只是想做一个智能化统计,然后。然后没想到后来发现有有很多好处,然后发展出来这么多的话。这个四个写错了。他们统计这个他们。他们区别就是就是统计的,统计的维度不一样,其他的话都是一样的。然后对层解决问题,就随着网络加深嘛,这训练越来越困难,越来越慢,然后好处。
60:03
防就网络,网络训练,然后控制爆炸和防止消失,防止盒。这些好处都是。射出来了。我们看他那个一个智能化之后。这个图像都会变成这种形式,所以说它会是比较好。那它的坏处的话,就对对于咱们图像来说的话,它可能会充一些语音信息。呃,对于这个。对于这个叫什么。对于生成,对于生成模型来说可能不太好。对生存来说可能不太好,然后就是模型标准的,最常见的就是干了,干里边它会对这个能化上做很多的一些一些一些一些工作,比如说加入随机,加入一些随机值,在伽马和贝塔上加加随机值,或者干脆就不用那个统计量做那个伽马贝塔了,或者是用那个。呃。
61:00
就反正就对这个伽马维达做了很多很多的工作。嗯,对运行分类的话,它的影响应该是不大。呃。这个是智能化,智能化层这话很很重要,嗯,经常会重要。然后下面是激活函数。啊对,金华还应该在前面就说了。嗯,精在这就提一下有常见的,常见的这么种精华吧,然后这种精都都有变,这最常见是以前最常,现在就几乎不用。把。它的坏处就是你看我们每一层输出之后,它的。分布都会都会偏移。所以就不用了,然后所以说他就根就根据这个根据贸易改进。双与且双与斜正,怎么怎么念忘了变成这个函数,然它的均值在,它不会造成那个偏差,不会造成偏移。
62:07
但是他们两个都有一个共同的缺点,就是。在这么在这一段。在这一段梯度接近几乎为零。成消失,或者是爆炸,或者是饱和之类的一种现象。一般在一般平平均分输输入这个Z。那么那个散布在这个整个纸上,散布在整个整个图像上,它效果会比较好,如果它。集中在这么这么一块的话,就是梯度就会。就会非常就会可能会消失啊或怎么样。就就不太好,然后这个也是。治标不治本。嗯,这个指标这边,然后现在最常用的是这个。的函数,乍一看这不就是个线性函数,但实际上非线性的数学定义就是。导数不导数不为导数不为常数。
63:11
导数数的话就就是一性的函数,然后像这个的话,它就是一个单侧一致修正线性修正单元,小于零的时候就变成零,那大于零变成。然后这个时候我们导数,导数就是要么是。呃,大于零一小于零是零。就这两个值会提供一个比较比较稳定一个温度。啊,这是软让软进。经过这个。这个这个函数,它因为单侧一直往这个零,它相当于就这个神经元就死了,然后后来发展出了一个叫。你。它的它的形状就是在这个地方加了一个小小的斜率,一个阿尔法斜率。这么一个斜率。
64:00
然后让它就算就算为零也不会让,也不神经元死掉。然后跟这个如果有有点继续同了一个,然后叫Miss。叫幂函数。就是也是这这一套也是差不多。对于正对于正的这一侧都差不多,然后它的下,它的负的这一侧就会有一个小弧度,然后诶这样来。就这一侧还有还有一条直线,然后这里啊有一个小弧度,然后这样。就做了一个小弧度,然后可以找找个图片,也很也很简单。应该是很简单一种方式,然后这个。好像是非常现在是比较好的一种函数,但虽然这两个效果理论上都比软好,软它还是最常用的一个函。就是说。
65:04
然后度的话,我们我们看一下它那个直观上看,它就是一个现象函数,它它是它表现在多维高维上,是怎么一种怎么一种形式哈。嗯,可能我们用。可能我们用那个用那个sig,或者用那个双切双正切,它那拟合出来数一这种。这种光滑曲线。那我们用软的话,它可能会是这种的折线。是的一种一种直感受,能是纵观整个整个网络,它是一个一个折,然后表现出一种性。嗯。对吧,如果如果没有这种非线性的激光函数的话,那个不管是多少层网络都相当于一层,就就是我。
66:02
这里写的如果没有分线性的话,这里边每一个函数相当于这L东西就相当于只有一个。相当于,相当于只有一层。所以说需要加入非线性函数来那个。呃,来增强表达。然后这个是这是比较常用的,呃,这个不常用,这个C函数现在最常用的是做在最后一层做二分类。用的用的网络最后一层做的二分类。然后这个的话还是有这这个函数还是有一个,还是经常被用到。那个。生成对抗网络,它一般最生成最后一用这个常常用这个软弱就不用说了,就是最常用就是。不知道用什么好用的那个。
67:03
啊,这个。然后下面这个是,呃,是那个中间用的激活函数,然后还有一个最后用的函数叫这个soft max就是。最后一场。呃,最后用成用的二层列用到多。恢复于同用于多分类的一个计划函数。然后他的他的那个。公式就是这种。这个这个应该不叫,不能叫,应该是叫。啊,写错了。
68:03
是是是这样一就是用E的这这这这这次方。来做了这个,呃,把它归到把它归成一个概率,你看比如说对于这对于这一个三分类的网络来说,它输出的是三这个这己输出的是313这个,这是没有经过函数的,就是没有经过没有经过函数的值。然后经过对它对这个每个Z。取它的那个这个指数的那个这个这个这个E的E的指数啊。然后得到这个加一的指数,这个东西是20,这是2.70.00.05,然后对他们进行一个就是除以他们的。总和就变成了,这概率是0.880.12啊,这就等于零。啊,这就是那个最后一个分类,多分类,然后这边每一个每个就代表这个一种分类概率,然后比如说像这个话,它它的预测结果就应该是这个第一类,第一类概率最高,第一类然它叫soft ma就是软软软最大值,然后跟它对应的叫做。
69:09
对应叫做hard。这个这个只是一个概念哈,没有没有没有实际应用,就类似于那个类似于吧。68号。应该是60,然后呢,那个hard ma什么意思啊,就是我们的max,它每一个值它都有一个概率最大,最大概率为那个。为为那个为那个,然后就这里是就是零。嗯。啊,这个是一。因为了解挺好的,然后一般用装回来就是一个结果。然后多分类,呃,这是一个多多分类结果。
70:02
这max的一个用法。这个应该也都没啥问题啊,然后下边就介绍一下这个所学函数。一般用于二分类。这个二元交叉伤。这个是用于二分类。它里边这个Y,这个Y是网络的那个。标签。Y是标签,比如说这个Y是零或一,一或零,零零或一。然后这个P,这个P神经网络输出值。嗯,神经网络,神经网络输出值就是二分类的话。二分类最后一层,最后一层那个Y,它要么等于,呃,最后一层是,最后一层是一个神经元。然后这神经元输出的值是真,是为真的概率。他拿着。这个就是一个是这个。
71:00
这个程序就简单20列。呃,那么这个最后这个神经元输出这个外外外撇外外貌,它是这个样本为真的概率,样本为真的话,它样本为真的概率这个Y,然后这个这个P都行,这两个值其实。都都可以吧。我我们假设这个吧,我们假设Y是输出值,然后这个P是标签啊是标签,那我输出这个Y就是这里,然后P是标签,P就是这个样本对应它真实,它真它是属于一还是是这个标签,然后这个Y是这个。啊是是这个是这个概率,是这个概率。然后用这种形式。如果是真的,如果是如果这个样本。嗯。那还不对。
72:03
啊哦,他这个P应该这个P应该是输出值,这个Y应该是标签,那这个啊,这个这这应该是P。这应该是T。啊,这种这种一个形式。那他这个做经叉商有什么好处哈。我们可以先看一下这个。看一下这个这个叫什么,这个log函数。一种正往形式。这个叫做非。非连续函数啊,不对,非一致性函数,它的值大,这个梯度就越小。值越大梯度越小,然后它值越,它的值越小,梯度就越大,就是说它的它的概率越测越越假的话,呃,就是说它的就对于正样本来说,对于正对于正样本来说,他给的正样本概率越小。那个对它的梯度,对他梯度惩罚越大,对于正样本来说,它那个越大,它梯度罚越小,就会倾向于让他倾向,呃生成更就是做更正正确的判断。
73:02
然后前面这个Y。这个就是这个标签用来控制说我选我使用哪一项,我使用哪一项是对的。啊,比如说比如说我们有一个,比如说。有样本,它的真实标签是样本。这一。对吧,第一,然后我们看后边,后边这一项。后面这一项就没了,一一减500就是零这一项就没了,然后我们就主要优化是这一项。对吧,主要主要优化就是这项主要优化就是就就的输出,然后输出。然后优化这一项,就是这个P。趋向于一。这个P就越这个P,那个P的就越小,然后越趋向于零,P的乘就越大,知道吗?如果他如果直接等于零的话,它乘就不穷大,就直接完了。把它给。这叫啥啥?
74:01
嗯。然后还有一个就是军方误差,这个就是欧式距离吗?距离。然后没什么好说,就就式就是真实标签,真实的标签减去这个真实的,呃。这就是标签和输出之间那式距离,那这个二也是用来平衡这个求导来这个二。然后这荷叶,这荷叶丝它一般在神经网络里用的很少,它一般都用到SVM里吧,但在这些年来,它会在用到用到在干里。用作那个稳定训练,配合那频谱规划来稳定训练的。这个了解一下可以哈,就是。就是这么一个形式,然后下这个叫软软。下面这叫转风格,上面是硬风格,应该是这样叫的。有比较少,就大概看看长个样可以。然后还有还有一种是最常用的,就是多研调杀生,就是用于多分任务。
75:03
这个是输出值,然后这个是Y标签。嗯,啊对,说到多到分类任务的话可以。做一个那个。啊,比如说我们有一个多分类。呃。有多类任务,比如说我们要分三分四,分四类,那么里边我们对每类会。这样来,这样来给他打标签,第一就是一。然后第二列。这,这是第一类哈。然后第二列是,这里是000100。然后第三类就依次往下排。零零。一零。
76:00
0001。会这样进行进行进行打标签,然后这样一种形式叫做编码。八号编码。也叫。又混又混关。号的编码,然后我们输出的输出的输出的输出的Y1撇。经过。他会给出一个值,比如说刚才那个。呃,是0.7。零点。二。0.0。
77:01
嗯。205。这个这个。上面上是我们打的标签,然后下面下面可能就是我们神经网络输出,然后这样一看这个有别,我们就认为这个类属于第一类个对应,然后我们那个。求求解,交叉商的时候,交叉商的时候就是。呃,这个Y就是这个一,相当于怎么只优化这,只优化这这一个,优化这个函,这这个函数。对吧,其他都是零。就是Y都是零。嗯,就是这么这样一个形式,其实印发商二研发商是一个东西。就是就是一个东西。二经销商是多少是多少研发商的一个销售形式。嗯,然后这种类似公式之类的东西就就几乎没了吧,然后。迁移。
78:01
前学期。最近他。最简单的一种。就是最简的思他思想就是如果原任务与目目标任务比较类似,比如说我们区分不同物体,比如说呃任务,原任务是区分不同的动然目标任务区分猫类。相似性。那这时候我们就可以用。在原任务上的那个训练的方式,在原任务上训练。那原任务肯定是有大量样本,就在原任务这种大量样练出一个权重,经过微调之后用于目标任务。然后微调就是微调就是对,就是使用使用他们之前过这个权重作为初始化权重,然后去练新的任务。就用新的,用用目标的那个图片和标签训练的任务。哎。一般会修改一下最后一层,最后一层话,如果是三分的最是,然后二分,最后一是一,要修改下最后层。
79:03
下最后一层,然后实行输出,然后微调,有两种方式,一种方式就是这个。使用非非常小率,不是小非常小率。用非常小的学习率来调整来训练整个网络。还有一种方式是冻结强层上只训练最后的M层,就是就只训练最后那么几层,然后来适应它的输出。然后它那个,因为它的原理就是。啊,这这些话比较那个,这是我从一个论文上下来的,就是说这个网络浅层。不是层。比如说里,比如说对于狗来说,狗腿里。
80:05
就非常符合语音信息这么这种一种这些一些一些东西。然后,然后我们这些第一层或者是中间的,中间层的前多少层是可以是有一些普适性的,然后我们可以就直接把它迁移过来,所以这叫迁移。那一般是。坦学习这个具有广泛性的一般特征。然后中间疼。中间多少层用于学习高级的语音信息?当然这个高级信息也不是我说的就是狗腿或者是狗狗图之类这样的。直观的一些,一些语音信息,可能是机器自己自己理解的一些语音信息。
81:03
那说狗说那狗头狗腿,他只是为了咱们人能理解。然后最后一层。对。应该是属于那个组合信息。就是它适应适应于网络,适应于适应适应于特征任务的一个信息。然这个就迁移学习的一个基本的思想,就是在大数据,在大数据集上训练之后,拿小数据来用,它也是效果比较好,也是一小样本的一个解决方式。然后它下面是一个叫多任务学习,就比如说我们这个网络,它完成的任务不止一个,比如说系列就是经典的多任务,多任务模型,那ma的话,它也是一个多任务模型,它多任务体现在哪?体现在一个。
82:02
目标,目标回归就要找出正确目标位置,一个判目标中类,这一个任务是一个任务,就不光有目标框回归和分类,还有加上一个分割,目标一分割。这是咱们经常触个任还一种例子出来,例子系统,比如是否。每个法损失就四个损失,个损就是四个交叉损失。四个交叉。啊,然后这多任务,呃,这四个,这是四个任务,然后这多多任务之间,它可以共享一些参数嘛。就是你们这直接直接直观理解共享一些参数。
83:01
就是说浅层语义我们都可以,比如说对于汽车的一些浅层语义,我们也可以适用于那个,也可以适用于这个停车标志,或者停车或者行人这样的东西。一任四个识别。这个这么任务,然后每个图片它只有1000张图片,或者说是只有100张图片,然如果单独只别的任务的话,那样只有1000个。这明显属于小样本图像,对于图像样本1000,样本太小太小。小样本,那精度肯定不会很高,但如果把100个任务同时同时同时做的话,那么训练样本1万个样本。就万样样。
84:01
这是一个多任务学习。然后下面这个是这个端学习,这个就比较非常简单,这个也是最后一个就是输入图片,比如说图片语音什么的输是然后我们直接构造出这个Y的映射。然后像那个不是学习的,就是就是我们常规说一一般式的那个数学模。不是端端的,就类似于建模,我们先用先用一个算法处理数据,然后再用算法处理出来一个中间数据,然后再用中间数据再去。做做一做变化,然后再再说一个。数据模型。做到一个算法。然后得出数值,得出,得出了数据之后再到一个算法里。
85:02
然后再输到这个算法。找出我们想要的结果。张老师不是不是张老,然后我们端端的话就是。数据。算法。好,直接找书吧。动一动。然后的话。呃,九点半正好我做PPT里边就是就这些东西,然后他大概也没有,大概包括反正就是。挑了。这是第一门,第二第二门,还有第四门的一些,第三门的一些一些一些内容。啊,这三门很少啊,这三门我感觉都都都是一些理论上的东西,一些一些经验上的东西,我都没看过。
86:01
然后第四门是卷积神经网络,卷积神经网络第一第一门这些基本的东西我都没,我都没写。因为我觉得这个都太简单了,就没往上。然后。下面这个有一个是目标检测,目标检测当时是我看的时候是面试的,面试那天上午。就是非常快的看完了,非常看完也没有,也没有去做笔记,没有嘛,就大概一下,什么意思也没讲。理解不够深刻啊,做目标检测的话,应该是发发,应该要好好看看这这个部分。然后下面这个部分是。就这模型。这话我当时我以为他只做那个自然语言处理。然后我也就没看。但现在好像对视频也可以用视频,然后话那个应该会仔细看这这个部分。
87:02
嗯,其他的话就就没有了啊,对,还有一个,还有一个部分就是这个。深度神经网络里边的。这么几个,这么几个网络。啊,就是Lin。就是比较简单的一个网络,它的那个没有使用po。就是不停缩小,不缩小,缩小之后,但是那个卷网络一个开山鼻祖。提出了卷积的这个概念。然后下是那个这个al ne al就是之前al ne,他就用了一个叫po的技术,Poing最大最大,但当时提出来,提出来好像是用平均尺。啊,也是比较简单,好像是几乎没有什么,没有什么那个。里边下来可能是多少层?
88:01
有有挺高层。然后这个ne他一提出来之后,有个最大,然后然后这些东西之后,他是直接直接当年的那个什么。嗯,他当时他还提出了一个叫做这个局部。局部什么?呃,这这个局部响应硅一层,但后来发现这个层其实没什么用。就现在就几乎没用,几乎没有了。嗯,所以说他这个就只剩一个网络结构比较。你就值值得说了。然后也不是那个。然后V16的话,就之前讲过,我也就不太细说,它主要是用小卷积来代替大大卷积。嗯,然后下面是这个W16和19,它们的性能基本上是一样,它们性能几乎就一样。然后如果再加深的话,那个。
89:01
呃,这家的话可能就就不好了。然后这残差网络就是我们现在最差最火的一个残差网络。他网络就是基本上一个特插块嘛,就是我们输出和输,输入和输入之间要做一个相加,然后他问他为什么有效,它有效就是。啊,对。就是怎么来说呢,找一下那个公式。用这个吧。对吧。我们个输出就是在哪在就原来如果没有跳,没有跳接的话,我们就直接输出就是经过函数这个ZZ,就我们的那个没有经过函数这这一层。就是就是这么。这么个东西啊。这个个接这个对,要加上这个一层的输出,就是加上这里这个出。
90:01
这样。嗯,就是作为作为作为下一层的输出。就是就L1层要L层输加自身做一个,为什么好话。嗯,这里应该也有解释来着。要解释就是如果说。嗯,如果如果对于退化情况来说,刚才我们讲到退化,退化的时候不是这个W,它不是都成都成零了吗?W1成零的话。嗯,对。这个Z它就成零了,对吧,Z就成零了,然后这话我们还有还有留下这个al。对吧,我们就可以让他梯度就至少至少不会退化,至少会保持跟上一层一样,就是如果说在退化的话,就相当于网络就网络收缩了。就是相当于中间这一层没有了,就我们就至少会有一个,至少是不会变成零。那当然也不会,它也不会直接变成零,就所以一般情况下都会比这个都会都会比较好。
91:07
不知道这个能听懂吗?哈,反正就至少会,至少会变成就下一层输出,至少是上一层输出。就是这么这么一种形式。这个连接。嗯,Block补充就是刚刚我们说的这个。然后这个这个就是exception网络,Exception网络。它的特点是两个分支。这两家就是相当于。不相上下。两家的那个不相差,然后然后有第三方把结合起来,然后发现效果也好。二。然后inception v,然后inception inception v,好像ception v还是V,效果差不多。啊,它那个就是有个一乘一的卷积。
92:00
最主要就提出一乘一的衔接。然后。他的网上的它的那个基本块是一个这种形式。嗯,有po,就这这一个卷卷积出来这个东西。啊,不是这个不是讲出。呃,这一这这一非常。做一个一乘一的,然后再做这个三,再做五五剪,然后再做一个,然后一个一个拼接,然后作为一个输出。那这这样的。这个直观的来说,就让网络自己选择哪一个,哪一个更好。啊,这是一个它那个,然后最重要是提出一乘一卷积的这个用。然后他的他的那个被人诟病的情况,就是说他的人为。呃,就是人为设计的,人为设计的那个比较严重,人为设计痕迹很严重,比如说这个为什么是这个一乘一,为什么是69啊,这个三乘三乘三为什么是128,这个为什32,为什么32这个情况他解释不来。
93:01
那个就。所以那个设计的比较严重,属于那个大量实验出来的结果。嗯。应该是。没有啊,还有一乘一的卷接,一乘一卷接的话,它是它通常是用来。那压缩用来压缩这个,这个叫什么,用来压缩。压缩通道了,比如说我们这有个192的一个。一个特征,它通太高了。我们用一乘一卷到十。再再做简介,这样可以大大缩小那个。俩缩小那个网络参数,像那个mobile ne,它里边还有应该是反正是小小剂量小的那种。就以那个速度的些网络,它边都会用卷来做,这个来做,来压缩那个,压缩那个数量,然后这个东西叫做平这个包。
94:01
一。啊对,就是就是这个一乘一的话是什么呢?它就是这个转机就是一乘一是吧,就是。一盒就是就是一个值一乘一,呃1192呢,192个短接盒,192就适应前面这个192个通道。啊。呃,然后压缩完之后呢,怎么变成28乘28乘16了呢,用了十六一乘,然后把192通道压16。啊。然后它的它的特点就是压缩通道,然后还有什么。啊,1921924,这是192个转机盒吗?一一乘一乘192是什么概念。就一个选集核的大小,一个一个选集核核的大小是吧,就一个选。
95:03
他的这个这个话。也有人研究过这个会对性能造成影,然后发现话,只要是一般不会造,一般不会影响。一般话它那个性能不会有不会有很大下降,就压缩之后不会有很大下降。所以说他这个就非常非常有用。什么啊什么,反正性能以速度著称,都会用这个,都会用它压缩那个。然后这话就是。可以看看他们的,他们他们网络形状。网络结构。没有。啊,没没,没有放松的结果,那就是。这个是这节课那个。大概所有东西。就是晚上。
96:01
那有同学有问题吗?嗯,赵鹏,我问你个问题吧,就是你翻到你那个PPT的12页。啊对的啊,你能再给解释一下,这这四种标准化层是怎么标准化的吗?就是第一个是他那个叫什么。嗯,好,需标准化,嗯。啊,第一个的话就是。对,那我还要找个。嗯。就是我们有,比如说我们特征图,我们那个非常map,或者是不是非常map运行,就是有三有三张map。张一般三张作为认为是那个输入图片。假如说我们图片经过一次卷积之后。呃,变成这种四张变成一个四个特征图。
97:02
然后我们一开始输入,比如说输入32张图片。比如说这这个这种四个特征图。有32个。啊,也就是说这里还有一个,还有这样的,照这种。然后有一共有32个这个这么个东西。啊,然后我们现在需要现在现在做做那个做批处理的话,就是我们取出来每一个每一个样本,这是这是一个样本32个是每一个样本的第一。商家经常出现,然后对着商家出现。就求着32 32张图片的那个。这个叫均值和方差。啊对,32张图片里边每一个元素都会都会去均值和方差。
98:04
不走。就是这样,然后然后对,然后对于第二个非卖法,就也是这32个去做一个统计啊。都会做一个统计。这是这是normalization那个。那个统计量的方式。嗯,然后。加这个就是那个,你看下面不是写着个CN,然后HW,这都是什么意思。比如说CN是。这个是。嗯。通道可以吗?什么?可以想象成是多少个点集盒吗?不通道是非常map的层数,就是就比如说我们一开始输入图片一个三通道R嘛,然后经过经过一个卷积和卷积之后变成四四通道成四个通道。
99:08
就是四张map,四张那个这个。这个这个意思。然后这个N就是那个这一批样本的数量,这一批样本的数量就是这边。这话就应该是六个样本。然后这个WH,因为WH的话,我们我们正常来看的话,一张图片是一个正方形的。对吧。然后但方形W又宽又高,这个图像宽又高,但实际上这个W它们叫做空间属性,他们的这个位置关系啊。嗯。呃,他们都是空间位置关系。其实。在那个语上才才有用,然后它那个作为统计量的话,它其实这里边这每个都是一个像素值,就是直接把它拉认为是W乘以就可以。只要相对一,我们对还存在。
100:11
所以说我们就直接把W作为作为一个维度,否则把它把它作为两个维度,这个展现不出来。这就相当于是空间维度,这是通道维度,这是这个是样本维度。这样的话可以那个理解吧。嗯,这样就说做批处理的话,我们是在,嗯。对所有样本每一个通道上来进行做统计,就说你选就是这个BN层,它应该是不是还有一个批处理的一个。叫什么叫那个参数嘛,就是你你每次选。啊多少个,他可能不是说你每一个通道都做一次这个这个吧,是吧,那那样的话,他这个小B就是一,相当于是是是这样吗?然后你如果小B是十的话,它是不是就是每十个通道做一次。
101:01
就是。啊,你你现在写写的这个B是六是什么意思。就是小B是就是better是六就六个样本,每一次输入六个样本。啊,每次输入六个样本啊,那我知道了,就是说他不是做找找所所有的样本都做,找其中一部分样本做啊对,因为所有样本会很大很大,然后他会。1818CPU会重做也做不了那批处理的,这个好理解,那为什么就是那个,第二个是LN是在通道上做,想做统计。这个是。这样的话,它是它会有一个,它会依赖于这个better大小,如果better太小的话,假如说就网络很大,我们我们每一次只能是一,这种情况会非常非常普遍。如果是一的话,那我们对做统计,它就没有那个,没有那个统计的意义,没有统计意,然后这个时候我们就不能再用这个了,或者是一般话是32或者16,这特有意义,然后123那样的几乎没有什么。
102:04
没有偏大意义,它的偏差太偏差太大了,然后这时候我们就要用一种那个,呃,不赖于不依赖于统,不依赖于样本数量的一种。就是这种后边后边这三种。这个normalization就是。就是怎么说呢,就是就拿出一个样本,就不再看所有样本,我们只看一个样本这一个样本这个这通道所有元素做一个统计。嗯,这个怎么说呢。啊,这个这个维度比较比较那个我也有点。嗯,不好看,就没有样本所有通道啊,你这个也能控制梯度消失吗?你和那个产产网那个有什么区别,产网用到这个技术了吗?啊网,它用的技术是另一种技术,它的消失就是让网络至少至少不会退化。啊对啊,那你这个我看也是不让网络退化嘛,你这不也是这个一样的意思吗。
103:03
他这个他一开始提出来的时候,他没有想那么多,他一开始提出来的话,他只是为了,呃,咱们目前在哪个网上用这个标准了。现在用的很多啊,现在基本上都用这个。层。就是他一开始初始权重的时候,他都会用一下,就是那个那个就是批处理好像用的比较多是吧?对一般批处理那个批次比较大的时候会用它。每一个像素同等像素做统计。你相当于相当于求平求平均了是吧。啊对呀,就是就是求求它本身就是那个叫什么,你要相当于一个拜次六个样本,你把这个样本啪一下给他求了个求了个平均值,或者说做一个一个不不管你采用什么,就类似于什么的,这不是对吧?啊,然后再再进行训练,是这个意思吗。他除了均值,它是求均值和方差。
104:00
就是他选其中一部分批处理的话,就选其中一部分样本啊,对他的这个理论依据的话,就是那个叫叫什么大数定律还是中心极限定律了,就是就是N次取样,它那个值就是是是是这个意思吧,我忘了。啊对对,是那个N次啊那个。中心极限定律就是。我也忘了,反正是那个概率,那个具体的是什么我忘了。就是每次取样,每次取样均值,他们会成一个正态分布,还是会成一个什么形式?啊,你往前走,你看我看上一页PPT,我看上一页。非条件的话。每一层的字都要做一个标准化。
105:06
嗯。好。嗯,也可以看拿解释吧,他说的是他的解释比较那个理化,就是说嗯,不会不会破坏什么,不用去让,让上一层,不用适应上一层的分布变化,然后什么的,我觉得让说话可能大部分人都不懂,要么平均和这个。Z啊,都减去均值除以方差,对啊。但这个这种减修你是处理方差,这个叫做标准化嘛,他那个那个田田田老师,他这个有点类似于咱们输入样本的这个最低层的那个标准的话,它相当于每一层他就要做标准化是吧,对他应该就是在每一层他都做计算一下,样本的话,都要做一个标准化,相当于两个针对那个图像都除以255是吧,就这么一个。
106:02
概念,然后呢,他现在又针针对这些样本来做一个标准化。啊,防止这些样本之间是不是差别太大,或是说。他那个意思是说王子这个分布的,哎,也也是好像也是吧,然后他他其实最难理解的是后面加入了那个伽马和贝塔。我的理解就是用来种标准,我值差是零,零标个输,输出一定是好的,所以伽和贝塔行移,然后去一个合适的式。我认为是这样。一。可能他不会分,他可能恢复不了。除非是刚好把那些东西才能恢复,以找种合适标式。
107:08
那个。网贝塔也是一种训练,也是一个训练参数。这个是的,其实。对于这种这种全链接和那个这个这个标准它有些不同。链接的话,这个非常简单,就是每个样本做一个统计,做一个统计。对于图像来说就不一样了,图像来说它不能它有好多维度,所以说它发展出来这四这四种那个的话。现在好像常用是这个吧。你都用过吗?你用过用过这个,用过这个。嗯,哎,这个instance这个标准化是什么意思,就是把当前的当前这一列这个样本的每一维,它都做了一个聚值和方向,我就不为什么要这样做啊,这个就是把这就这一个样本,这是这这是一个样本,这那这是一个样本的一个那个特征图,然后单独拿来这一个做标准,单独拿出来这一个做标准化。
108:23
啊,就是把所有样本的其中一个特征拿出来做标准化是吧。为什么要这样做呢?也是。就是他只拿其中一个特征,它其他的特征就还是每一个特征我都有做标准化,还是说我只拿其中一个特征做其他。啊,每一个都都做,每一个都拿出来做标准化。标准化统计,统计的那个维度就只在这一个里边,它会有这四个统计维度。有有有四个统计量,四统计量。嗯。
109:01
那不是他不是只不是不是只只做一个,但是都都做,然后他只是统计的这个范围不一样。嗯。还有那个其他的问题,他这个的话只是只是做了一个统计维度的一个一个一个表示。还有其他同学有问题吗?那我提问一个吧。啊,好。看这主持人做什么?嗯,卢宝辉学长有什么问题吗?那个就是我想那个再看一下,就是那个我看一下。
110:05
就是嗯,激活函数那个它下面下面那个在在下面的,对,就是这个它,嗯那个比如说就是它不是一个0.88和0.12嘛,但是就是有时候他如果要是出现都是0.50.5的话,他如果训练的时候,它是怎么去一个就是那个怎么去,就是重新。他们在哪里?怎么重新?就是它的权重,就是它不是之后会训练那个交叉吗?就是重新计算它的交叉吗?啊。他是再怎么计算一次呢。就是说零点就二分类不怎么怎么0.50.5。那那个就是我我们算交叉商的时候,不是把那个只是算那个,就是概率最大的那一个吗。啊,他那个看他标签你都是0.5的话,他肯定一个一个011个正一个负,负的那个直接就就没了,然后就只优化,就优化那个正的那个。
111:10
哦。好。那这个明白了,如果说这个都是0.5的话,它那个那个零,那个0.5就就会被就会就会没有,就就会没有了。陈晨问题。应用一些标准,就是比如说文本的。啊。他是。陈谁,你提个问题。嗯。我我就想看一下那个迁移学习那个部分。啊,学习部分啊,只是列了一个基本理论。
112:06
那我下一步重点讲一下迁移学习这一块。学习。没有没有太深入的那个研究啊,没有太深入研究,我只是知道那么个东西,对啊,我觉得下步咱们可以把这个方向,这个天天不在研究这一块吗,晨晨。哦,对,我想看一下这个啊,下次你来讲一下那个。迁移学习吧。呃,我老师。啊对你啊啊行行啊,他在讲讲的也不多。是吧,学习还是一个很好的一个东西,应该说是。至少我们通过迁移学习吧,先别说创新,先做出一个可用的能用的网络来,是吧,我觉得这是第一点。嗯,对,现在有基于前期学习学习,叫做终身学习lifelong learning。
113:03
啊。学习。只有数据来就。就那个什么就往里放。就能学习什么概念,所以有一个有一个任务序列,就是有不停有不同的任务,然后就同就以就序列顺序,然后不停就挨个学这个,学这个东西具体的我也不太清楚。他是模仿人,就比如说我们从小从小到大学会了骑自行车,学会了认字,学会了干嘛的,但是我们学会了,学会了那个啊,比如说我们学会骑自行车,学会了开车。所以说就提出一个终身学习,就是迁移过来之后,原来认为还行。是这样一个,那个具体怎么解决的话,我也没有去。
114:02
看论文里提到了一下。鱼叉。你得主动提,别让我。老师,我没什么问题。都听懂了。嗯,差不多。问啥了?嗯,老师就是那个,就是后来那个他那个文档,您说的那个那个那个16那个地方我还是没明白,就是16。嗯。就是那个。不是就是最后那个学习笔记里面那个那个28乘28乘16,最后那个那个地方啊,那个东西在哪在哪来着。
115:02
一点。对吧,这个地方。嗯。这个就是使用卷积乘卷压缩缩十。嗯。它怎么压缩的就是嗯。就就每个卷积盒是一乘一乘192,就为了适应它这个东西,个卷是这样,然后一共有16这样的卷积。来卷,然后可以变成28 28乘16的那个。弄了。谁有个卷机盒?啊,每个点镜盒不是会减出来一个传层吗?
116:05
嗯。嗯,长征转接,这是转接的操作吧,这个。就比如说我们一开始有一个三,一开始输入图片是三三乘三个图片是是个三三层的图片。啊,那我们这个卷积盒就是。卷就是一个小的三乘三的。三乘三乘三的一个图片就是三个。三个正点去合。然后没,然后这三个圆盒。分别对,分别对每对每个通道进行卷接。然后卷出来这个,卷出来这个图,它不卷积之后,它会出来一个稍微小一点的图。你要变成一个稍稍微小一点才能图。啊,再给他画这个,给大家画个动态图。动态图怎么画?
117:02
嗯,你看我那里边儿有,你看我那PPT里有。哪一个?往下走,走到那个神卷集神经网。使劲走。在不在?再往下使劲走。走走走走走。再往下走,因为这都是原理。
118:04
这里面其实写的很清楚。哎,快到了哈。啊。嗯,讲迁移学习嘛。哦,他说的是那个,他说。合作就整成这个样了,好好往下整。他说他说的是那个卷,那个一乘一卷积是怎么,我知道我知道。我当然知道。之前学习啊。对。代表什么?嗯,这是A。关系可能。
119:03
哎哎,没了,我当时专门写了,自己搜一下吧,哎呀啊,我这我先画先画这个图吧。嗯,这这不是三个卷积盒吗?三个卷积对每个通道进行一个卷接,得出三张小图,这三张小图会做一个相加。一个相加,然后得到一个图。这是一个通道,相当于这一个三。三乘三乘三的一个接乘对乘三电,那最后得到一个,得到一个特征图,然后他要有十有16个,然后就会得出来一个16个特征图。一乘一啊,一乘一乘一的只是三乘三变成一乘一而已。
120:05
你知道吧,它那个192就是这里,这里有192,然后就是一乘一乘192个,然后这这里也是192个。然后去卷一卷,然后一共有16个这样的。一共有16个这样的卷。这个东西。嗯。非常厉害的地方就是不会造成性能下降。他的地价。总共是六个。是每个都转一个28乘28。总共是192个是吧。啊,对。嗯,一乘一的卷积一般步长都是一样,它不它不会跨步长,因为一跨长话就会损失,损失很多信息。
121:06
啊,一接又可以当成那个全链接来使用。那那我有点明白了,那。嗯。还有什么问题吗?我给你画了个图。那个赵鹏,我给你画了个图哈,我发给你。画那图总感觉到差点意思。啊,那是用鼠标画出,很难受。的话看是这个意思吧啊。啊,到到哪了。
122:01
我发给你了,嗯。微信。微信对。等下我转过来。没有微信吗?微信微信。啊,电脑上没有。没事儿我再跟你。发你微信发你QQ了。然后我自己没画好,刚才也想没想好怎么画,看到了吗?左侧是左侧是28乘28的最左侧,最左侧。啊,这是192个对不对。
123:00
就192个特征嘛,每个特征不都28乘28的吗?是这意思吧。右侧的话,这中间这不是六个,这不是六个转机盒吗?192的是吧,幺乘幺乘192的是吧。啊,16个。对吧。嗯。然后每一个每一个转接盒是吧,每一个。也就是说。它相当于每一每一个一乘一的都和左侧的这192个28乘28的进行这个转机是吧,就生成右侧一个28乘28的转机盒嘛,对呃,生生成一个特征嘛,对吧,嗯,对。对吧,左侧不是192个吗?所以说它那一个转机盒是幺乘幺乘192对吧,这192个,这这这不是一一百九十二个吗?192个和左侧192个分别去转机是不是。
124:00
转出来再加的加和,加和之后呢,就成了右侧一个28乘28的对吧。啊,对。他这个加和就是那个叫什么。他反正是吧,你们里面中间那不是1192的嘛,一层一层192嘛,说是192个,就是像那1192个神经元嘛,相当于。是吧,他们和那个每一个呢,都和那个28乘28的分别转接是吧。转移出来也是192个,他就把它给加加加合起来了。然后生成右侧一个28乘28的。嗯,对,就是主他中间是不总共是六个嘛,对吧。你自己再找找吧,最好把这个东西呢,按我说的这些把它给画画出来,网上应该有这类似的,但是呢,你刚才讲的那些东西呢,你们有一个这样生动形象的东西吧。大家都搞不明白。
125:04
那好,那那个其他人还有什么问题吗。其他同学还有问题吗?那要不我们就本次会议到此结束,感谢赵鹏学长的分享。那就。不错。那我就结束会议了啊好。
我来说两句