00:13
我们接下来,接下来过那个线性代数的内容,很熟悉的线性代数是吧,我现在看以前的线性代数书觉得很可恶,因为他那个书呢,上来就给我们先讲那个行列式啊,讲那个矩阵啊,非常可恶,但是呢,大家当时学肯定都是学到最后学到二次形,甚至学到后面的时候,我就觉得线形代数到底有什么用,肯定都是这么想积算算体积是吧,对,所以算体积是一个作用,几维就是几维体积,对,这是行列式的一个那个作用啊对,所以我们今天给大家说的线性代数呢,不是书本上的线代数,就让大家知道线性代数到底是什么,那么我们为什么要都做新息代数呢?为什么它这么重要呢?联系实际来说,还是那个还是那个问题,今日头条呢,给你们每个用户做了一个建模,用户呢有ID12345,你们有特征对吧,男性别男还是女,年龄是多少,后面一堆特征,哎,形成了一个矩阵。
01:14
这就是一个信任代数的问题了,对吧?之后的问题就是说我怎么对你做信号推荐对吧?这里面就涉及到举证,各种各样的技术,如果你们这五个人喜欢的东西全一样,比如打比方啊,这有很多格。你们这个位置上全是1111,其他位置上全是零,就像淘宝商品一样,你们在其他位置都不买,就买这些商品,你们五人都这样。那可以说你们这五个人的用户画像就是一个人对不对,就像一个对,所以说这种情况下,这个矩阵假设它是五的,我们说它的这个维数维度就绝对不是五。大家能想到就这个维度,绝对不是什么意思,什么叫五个维度呢?我们说你们这五个人有五个维度,意思是说你们其中的每个人都很独特,其他的四个人不可能代替你,他们怎么加和不能代替你,对吧?现在你们五个人全买一样的商品,至少从我来看,你们之间是互相可代替的,所以你们的维度肯定不是你们相当于一个人,明白吧,这就是矩阵的质的意义,质就是这个意思,以前我们上学的时候学啊这个矩阵的质,大家都不知道是质是什么东西,质的意思就是说你在这个人群里边,或者说一个数据里,它这个数据的不可替代性,这个矩阵里边就现在有个我中国比如说有14亿人,但是呢,在我这个网站上买商品,他们只有20类,20类人就要么他们买A,要么买B,就反正就总共只有20类人,那我就认为它的质就是20,就不是14亿,明白吧,质是20的情况下,这个矩阵就很好算,因为我总可以通过一些初等变换把。
02:56
这个矩阵变成只有20行的东西,我只有把这20行求出来,剩下都可以拓展就OK了,这就线性代数的作用,明白吗?嗯。
03:04
然后呢,我们再回来讲啊,线性代数呢,它的基本研究的是旋转和推移,讲的是一个线性变换的一个事情啊线性变换呢,是什么呢?概念我们不讲那么多,没也没什么意义,要么是旋转了对吧,要么旋转了,要么是推出去了,推移了对吧,这两种,那么我们为什么研究线性变化呢?为什么不研究非线性变化呢?其实也有研究飞行变换啊,但用的没那么多,研究线性变换的根本原因是这样的,大家可能知道我们还是说刚才那个问题,就镜头条一个矩阵推荐。比如12345。有人有男女什么的,我现在要决定对你推不推一个商品是吧,推不推他前面肯定有个权重吧,肯定有系数对吧,不管你这个后边这个值就你这个X,因为3X加上什么,4X方加上5YX立方,不管你这后边这个X立方是什么,这个东西都不是系数,我们要求的是系数对不对,系数永远是线性的。
04:14
明白吗?系数永远永远是线性的,我们从来不会求非线性的系数,因为它永远是线性的,所以线性代数才能重要,因为我们要求的是系数,而样本值是已经已知的,它不管多少次我都可以认为它能算出来啊。然后呢,嗯,线性变换呢,这里边首先要说的第一个就是矩阵乘矩阵的和乘法矩阵就很简单,就是我们可能不用说那么多了,就是一个矩阵是吧,有方阵也有不是方阵的对吧。那讲讲一下乘法,矩阵的乘法大家应该还记得啊,就是第一行乘第一列,第一行乘第二列,第三行乘,对吧?乘第一列第一的就放第一位,乘第二列就放第一行第二位,对吧?那如果再有一行呢,那就是乘法,它放第二行第一列第二列对,对吧,就这么乘对吧?矩实乘法的本质是什么呢?
05:05
本质是什么?能想起来吗?大,大家面面相觑,矩阵乘法的本质是线性变换,乘一个矩阵就等于第一页的。旋转或者是推移。要不我们研究矩阵乘法干什么呢?乘法的目的就是因为它能变进行变换,就打比方啊,我们看第一个矩阵是一零,呃1001,那就是呃一对吧,就是这个东西对不对。就是一嘛,就是一这一没画出来,它乘上一个这样的矩阵,还是它本身对不对,所以说乘这样一个矩阵是没有任何改变的。
06:03
对吧,这个矩阵也就是这个坐标系的一个单位阵,单位矩阵对,因为它每一个轴上,它假设你这是X轴,这是Y轴,每一个轴上,你看啊,X轴上没有Y的扩展分量。Y上没有S扩展分量,并且他们自身的扩展分量都是一。所以升官之后,他还是本身。明白吗?这是一个线性变换,我们再看第二个X轴上呢,还是没有Y的扩展分量,但是它自身的扩展分量是二对吧?Y上呢,还是保持不变,所以乘完全变成了2XY是什么呢?就是把X轴拉伸到二,拉伸一倍,Y没变,明白吗?那就相当于你把这个平面空间拉了一倍。就拉了一倍,明白是吧,这是一个线性变换对吧,然后呢,还有第三个稍微复杂一点,X轴上呢,这个这个自身的分量没了,但是呢,变成了Y,就Y的分量是一。
07:06
Y上自身分量也没了,变成X,这是什么意思呢?XY互换。对吧,还在互换,所以乘完之后什么是YX?明白了吗?这就是线性变换。所以矩阵乘法是有很实际很实际的意义的,但是以前书上的不知道为什么都不这么讲,可能觉得这么讲数学就没什么意思,大家学的太容易了啊,老师考试也没什么难度了,但是线性代数通篇都在讲一个事儿,就是线性变化。那咱们看一下这个矩阵是翻过来了是吧,我们刚才说过矩阵乘法一种就是拉伸,你看这个地方就是拉伸,要么是Y轴拉伸,要么一起拉伸。一种就是旋转,就是你把它转过来了。就像上一页我们刚才说过的那个这个这个地方旋转,什么时候是拉伸,什么时候旋转呢?我们现在可以这么说,如果对角线上有元素,对角线上有元素啊,不管它是零还是一,并且除了对角线以外,所有的地方都没有元素,它肯定是一个拉伸矩阵。
08:11
对吧,这肯定的对吧,但是呢,如果其他的地方有元素的话,那这个就就不一定了,其他地方有元素就不一定了,并不是说它肯定不是拉伸矩阵啊,规定了,为什么呢?它这个矩阵可能看起来很复杂,但是它是变换到了另外一个空间,就它是另外一个空间的另外一个坐标轴,你可能最开始看不出来,对吧?那我们接下来就就说一下什么时候是旋转矩阵。我们看一下,假设现在有这样一个向量,它旋转了一个C塔角。是吧,那那这个时候我们有些基本的一个向量乘法啊,大家不用想那么复杂,就是op这个向量乘上Co s op向量乘上S是吧,就是一个一个基本的一个,它这个后边有两个基本的公式,用的呢,就是这种坐标系的这个映射啊,就很简单。
09:02
我们可以看到啊,就是用cos s和cos这个矩阵去乘一个向量的时候,它保证是一个旋转矩阵,而不是一个拉伸矩阵。上面这个公式可以推出来。用这个矩阵去乘的时候,它肯定是一个旋转矩阵。100%是这样的,对吧,大家可以下面乘一下,可以看一下这个公式是绝对满足这个条件。那么这里就提示我一个一个问题啊,我们刚才说过,如果一个对角,这上面有231,这上面都是零,这都是零,它肯定是拉伸的,它肯定拉伸的,但是现在我这个矩阵就这个这个矩阵它没拉伸,那说明什么呢?它旋转对它说说说明什么呢?说明只要把它化成对角阵,它的对角阵元素肯定是一。100%是一。只要把它化成对,它对角线的元素肯定是一,只假设它能画成它的话,它的对角线元素肯定都是一,因为它没有发生任何的轴的拉伸。
10:07
是这样吧,对吧,所以说在这里边我们就该再补充一个说我们说了缩放矩阵,缩了旋转矩阵是吧?然后我们我有行列式,大家可能还记得啊,这个行列式二阶行列式很好,求我们求一下它的行列式cos y的平方减是吧?加上SY的平方等于什么呀,等于一,所以我们看到行列式是一个矩阵变换的一个缩放系数。大家可能还记得,如果是对角阵的话,它的行列式是什么?这这这个斜线相乘,乘起来吧,是吧,一乘二乘四对,如果你乘完之后这行是变成八的话,那就意味着你这个行经过这个变化以后,你不管哪个轴,反正总共你要变换八倍明吧,那这行全是一,那就意味着你经过这个乘这个矩阵乘完之后就没变明白吧?那这行如果有一个维度是零的话,意味着什么呢?意味着行列式是零,这为没了,对吧?所以为什么说行列式为零的时候,矩阵是不可逆的呢?
11:21
因为行列式为零的时候,这个矩阵的某一维是没了,你相当于把就假如说你现在三维世界是吧,你给它来了一个降维打击是吧,体积没了,第三位没了,剩个平面了。对吧,你你无论如何再恢复不回去了,对吧,无论如何哪怕你得剩0.01,它也能恢复回去,但是你先把这边直接变成零,就相当于把这个三维功率压扁了,再怎么也回不去了,对不对,这个信息没了,所以说当一个矩阵它的行列式是零的时候,意味着这个矩阵它一定有一维是搞,搞丢了,它就成这个矩阵之后,这肯定回不去,回不去也就是说你不可能通过任何一个逆矩阵再把它乘回来,任何矩阵也不行,所以这个矩阵就是没有逆的,行列式为零的矩阵就是没有幂的。
12:11
明白吧,好,这就是一个直观理解。嗯。真正跟我们有用的是一个叫做特征值分解的技术。那特征值分解是什么意思呢?刚才我们说过啊,特征值就是我们说过啊,特征值呢,就是你比如说一个对角阵,它特征值不就是这这里边对角线上的元素嘛,对不对,这就是它的特征值,这个大家如果记不住,可以回去看基形代数的数啊,但是这已经是一个结论了,我们通过矩阵的变换,通过矩阵的相似变换,可以把它变换成一个对角阵,这样的话呢,我们就知道了,它的特征值都是什么,对吧?我刚才说了特征值是什么呢?是拉缩,是那个拉伸的一个重要度,对不对?个重要度,那么如果Z维有100 Z维只有0.1,我是不是有理由认为第二维没什么用?
13:07
对吧?我对这个矩阵变换,那第二维没什么用是吧?为什么呢?打个比方说一副图像,这个图像里有很多种很多种云信息,我们知道图像是非常冗余的,因为相邻的像素点你有和没有都无所谓,对吧?你可以把图像删除一半的像素点,看起来还跟正常一样,对吧?你可以再删除一半,看起来可能还跟正常一样,对吧?时针不是很高,这个时候我要知道哪些,就是说这个图像图像是个矩阵吧,对吧?图像是个巨大物比的矩阵,对不对?就是这是假,假设20图像的法力1011,我现在就要知道,在这个图像的背后,它肯定是一个高维空间,这个维度就是它的质。就打打比方,如果这个图像啊,全是这样的,0101101011。就这个图像就就是这样的,上面这这这一列全是黑的。
14:02
这一列全是黑的,这一列全是黑的,剩下都是白的。那么这个图像的质就是一对吧,为什么呢?我我怎么压缩它呢?我只要把这一行提出来,然后再乘上一个行数就压缩了吗?对吧?那它的质就是一对不对,但是因为一个图像往往很复杂,它不会这么规律,所以说现在我压缩不了它,对吧?它的像刚才我们说这个图像,它的这个简单的黑白图像,它的维度就是一,它就是一维的图像。就是一排嘛,对吧,一排点对吧,那现在一个图像很复杂,我们这个图像呢,就是你通过行各种行变换,你只有能把它变成一个0123,或者01445,或者是0101是这样的,这是一个一把它变化成这儿下边全是零,那么我就认为这个图像它的。这个维度是三维的。明白吧,这个维绝对不是说这个图像描述的是三维世界啊,不是这意思是这个维可以成百上千的,就是讲你有多少个行是互相不能替代的。
15:00
明白吧,这个情况下我要再对它进行压缩,它肯定有些围是不重要的,对不对?我就对它做变换,变成一个对角针。对角阵里边肯定有一个值或者几个值是不重要的,是0.1或者0.2代表着它们的权重不大,或者换句话说,你把这为这个这个轴变成零,你再乘回去,这个图像还是原来那样,这就是很重要,重要的一个叫SVD分解。SVD分解在控制系统,推荐系统和文本相素里,图像压缩里用的比较多,下一页我们能看到啊这个图,大家看这个图特征值不断的降低,大家能看到这个图像是不断的模糊,对吧,就剩三个特征值的时候,我们可以看到这个图像还是能差不多看出来。对吧,所以说。你给我们一个数据,包括一个图像,也是一个数据,里边有几个维度是最重要的,对于我们来说是非常重要的。
16:02
明白吧?啊,就比如说这个图像线36个特征值,它可能是100KB,那我弄100个特征值,那可能就得是一兆了,其实你这个36~100这中间是没什么用的,或者说它符合八二原则,这二你可以不要,那八都在前边,你看这三个就已经成这样了,在这个12个的时候就经基本可以看清楚了。对吧。然后我们说到这里边,现在数学我们总结一下啊,我们就可以思考变换和逆矩阵的意思,变换和逆阵的意思啊,什么是逆矩阵的。逆矩阵就是原来这个矩阵的一个逆变换,这矩阵我就是线变换嘛,对吧,逆矩阵就是逆变换,那么什么情况下有逆矩阵呢?刚才我们说了行列式必须得怎么样不等于零对吧?行列式等于零就变没了,一维度就变没了,然后P与P的幂的乘积是什么呢?E吧,对吧?为什么呢?单位也知道,因为你相当于没变吗?对吧?没变不就是E吗?
17:04
对吧,每一轴上都是一,就是幂,然后现在最后面呢,说了一个相似矩阵的一个,就是我们刚才一直在讲的一个A等于P乘一个对角阵,轴上P,只要你这个A那个是这个特征值,行列式都能求出来,然后你就可以用这个后面一个式去表达啊具体我们就不推了,因为大家不会去真正去接受这个东西,只是在含含义上我给大家简单讲一下,就比如说你去电影院看一个屏幕,你在在这个位置上就是斜着看,对不对,这个时候你看到的矩阵呢,就是到处都有值的。你看到就是到处都有值的一个矩阵,一点不清晰,然后你发现看不清楚,你就跑到了正面去看它,正面去看的时候呢,这个矩阵就从这个矩就从全全是值的地方,变成了一个只有对角线值的一个矩阵。有有。就他俩本身是一个东西,只是你看的角度不一样。可以理解是吧。这俩本身就是一样,打个比方,就最简单的比方,比如说一零啊一一这个矩阵是吧,我现在是这么看它,我我看不清楚,这矩阵全是十乱七八糟,我把第一行从负一加到第二行去变成1001了吧,刚才那个矩阵和现在那个矩阵就是相似矩阵,或者来说他们从数据分析的角度来说就是完全一样的。
18:21
为什么呢?因为你刚才你刚才做了一个初导和变化,相当于成了一个矩阵上,成了一个逆矩阵什么的上去,你乘的这个矩阵呢,它一定是个旋转。一定是个旋转的,它不会对你这个不会对你这个行列式造成影响。明白吧,这两个行列式肯定一样的,它俩行列式一样的对吧?好,那线性代数这块呢,我们就并且就讲完了这个简单给大家过了一下,大家这个又我觉得大家可能呃,可能记得也不是那么清楚,但是从这个方面,大家可以说从一个新的角度去看新代数,包括大家学那个以后做算法工程师也是一样,就算法工程师并不是要求你数学基础特别特别牛,然后你能写公式,你能推导公式,能做很好,而是要求你对这个。
19:14
嗯,还剩一点时间,我们把概率论简单过一下,就概率论就相对来说内容很少了,嗯。概论大家可能了解的时间就更长了啊,首先我们先讲一个大数定理,是个原理对吧?大定理,以前有人做过这实验,你现在抛硬币,抛1000次和抛1万次,那最后肯定是什么样,正反各一半吧,对吧,这是个大数定理,大数定理呢,是有一个详细的理论证明的,但是我们是用不上的,是吧?我们只需要知道一件事情发生的足够多,他就可信,对不对?比如今天那个,比如说我们现在我去南极旅游,去南极突然间看到一个冰山掉到海里去了之后,我就认为现在去阶段了。对吧,这是不合理的,对不对,这是不合理的,但是呢,如果我每年每天都去南极,我就在南极科考队工作,每天都看到平常掉掉海里了,跟去年完全不一样了,我认为今年气候肯定有异常了,这是合理的,对吧?对,所以呢,这是机器学习里的两个学派的一个分歧。
20:17
前面那个呢,叫做呃,频率学派,频率学派讲的事就是呢,我找这些事情,看到1000次,看了1万次,他就是真的。对,他就是真的,但是呢,后边还有一派人叫贝叶斯派,贝叶斯派讲的是呢,你抗日千斯看尔伊万斯肯定是在你那光泽条件下看到的,你不能代表所有人,他讲的是你一定要乘上一个你观测的条件。比如说我每年去拿第一次,这个概率是三百六十五分之一,对吧,那么你看冰川掉进去了,你要把你这个冰山掉进的概率乘了三百六十五分之一才行,那平均学派认为就是我看一次就是一次,看一次就是一次,对吧?这两个学派频率学派的建模很好见,因为就看多少次就是多少多少次,概率是多少,这很好见,贝叶斯派,贝叶斯派呢不好见,所以呢,现在我们用的比较多呢,还是平率学派。
21:04
然后概率计算,它里边有几个简单的一个公式啊,第一个是A发生就等于A发生概率就等于一减A不发生对吧,很简单啊,第二个是A和B同时发生的概率,就是A单独发生概率乘上B单独发生概率。可以理解吗?可以理解,第三个是A或B发生的概率,就是A的概率加上B的概率,再减上A和B同时发生概率,对吧?为什么要减一个呢?对对对对,因为多算一份对吧,这份都算了。接下来要讲一些稍微复杂的一页。条件概率。条件概率呢,理解起来就没那么就没那么顺利啊,第一个什么是条件概率,PAB同时发生的概率呢?就等于B发生的概率乘上B发生的条件下A发生的概率。
22:08
就可以理解吧,对吧,B现在已经发生了,然后在B发生的条件下呢,A又发生了,那A和B同时发生了吗?对吧,就很很简单,然后呢,因为B肯定不是一件,就我认为B不是一件事,就打比方说今天这个A发生了,但是它不是由一个路径发生来的。它有B1 B2 B3 B4 B5 B6,各种路径发生都可能导致A发生。对吧,所以呢,我说A发生的概率就是这个A这个事现在已经发生了,我可以给他跟B强制绑定。对吧,我会认为是B,所有B发生的概率都乘上它强概率并求和。对吧,就打个比方说,今天我我在这讲课,然后你们全来了,那么我在这讲课,这个概率就等于你们每一个人来到这里听课,并且我在这讲课的概率加和加起来对吧。
23:00
就加起来就就对了,对吧,这个公式现在看起来也很简单,但是再往上讲B公式的时候,大家可能理解比较困难一些。在A发生这件事情下面呢,有各种各样的来源,有B1 B2 B3 B4对吧?现在A已经发生了,就是A已经发生了,它可能由B到BB10都发生了,我们把它作为分母,那我现在怎么求在A发生的条件下,它是由B1这条路径过来的概率的?大家知道,就是我之前说条条条大路通罗马都是条道路,对吧,我现在已经在罗马了,你怎么知道我是从第一条还是第二条,或者说第一条出来的概率是多大呢?其实也也很简单,既然全部的概率都已经在这了,那么每一条路的概率除上全部的概率就是我在这,并且是由那条路过来的概率,对吧?
24:01
可以这么理解吗?就我现在我比如下边啊,我已经到罗马了,有十条路会加一半的,可能有0.5是吧,那现在PP,因为我上面说了这公式,那PA可能就0.5是吧,我还有一半的概率是罗马,一半概率是巴黎,那现在下面就是0.5了,上面呢,我是从中国来罗马的,怎么算这个从中国来罗马这个概率呢?就是看你从中国再从中国来到罗马的概率是多少,对吧,比如上面是0.1,我觉得我现在现在在中国,在中国的概率是0.2 0.2,然后呢。在中国概率0.2,去罗马的概率是0.05,啊,不是0.5。一乘完之后得0.1了,就我现在在中国去罗马的概率是0.1对吧,那总共的概率0.5,那加起来是多少呢?0.2倍对吧?我从我在在罗马从中国来的概率就是0.2。有点绕这个地方明白了吗?大家用用路径的这个观点去想,就我现在在这个位置,我有十条路径过来,那么每条路径的概率是多大,其实你就除一下一条路径,出什么路径就完事了,明白吧,就是这样的,对,但是要说一个事儿,就是大家经常在时续问题上搞不清楚,就大家总会认为是必先发生的,并且再发生A,其实不是这样的,B和A同时发生的,并没有谁先谁后,这是一个条件概率,并不是一个先后的一个概率。
25:22
就是概率这个地方呢,是你最开始看公式呢,会觉得它并不难,但是呢,真正你去理解题的时候,我理解一些这个真正的一些现实的问题的时候,就会困难一些。然后接下来这个期望和方差,咱们简单过一下,期望就是求平均数对吧,很简单,但是有的时候那个比如说123求平均数很好求,但有的时候它这个不是123这种值给你的,它是个连续值。比如大于方,Y等于X方,让你求期望,就是在那个X大于负,负一小一这个地方让你求这个期望,这个时候你就求不了这个平均值了,对吧?那值是无无穷多的,对不对?这时候怎么做呢?这就是第二个公式里讲的事,就求积分密度函数乘上这个FX这个地方会求积分的话,下面就不用了,对,直接求积分就可以了,对吧?这个密度函数是怎么定义的呢?那完全看你自己去定义,这个你要要你给他。
26:17
明白吧,那你给他。接下来是一个方差,方差也很简单,就是呃,每一个样本的平方减去它的平均值是吧?平均值的平方是吧?再加加权是吧。呃,强调一点就是,呃,平均值表征了这个数据的一个平均,平均的一个高度,而方差表表征了它的一个波动程度,如果你做出一个数据,结果它的方差特别大,这个时候即使它平均值很高,你要想想这东西能够用是吧?呃,变量的分布大家简单过一下,第一个是那个伯努力分布,就是零一左扔一个硬币,要么是一,要么是零,这叫伯努利分布。可以吧,是吧,很简单。
27:02
然后呢,这个伯努利分布重复了N次呢,就变成了二项分布。明白了是吧,扔十次硬币是吧,然后呢,你可以选择哪十次扔扔到正面,哪十次扔到负面是吧,然后十十次硬币里边,比如说你扔了五次正面,五次封面,那扔正面是0.5,零点五五次方是吧?0.5的五次方是不是?79对不对。就这样对吧。可以理解吧,是吧,这很简单是吧,然后下面那个方差和这个我也不详细说了,它这个方差和这个均值就按那个正常去算就行了。关键我们讲一个高斯分布啊,正态分布,对高斯分布的公式呢,可很可能大家谁都记不住,但是你都不用记住这些,你要记住它是这个型的就行,就记住这型,为什么这个型这么有用呢?比如说噪音比说那些不常发生的事儿,知道吧,都是在这个分布式控制之下的,比如现在这是我的一个声音的分贝,比如说十分贝是吧,10DB。
28:06
然后呢?如果我发生了噪音,或者说我这个我这个声源在波动,它可能降低,可能它可能降低是吧?呃,也可能也可能升升升高,反正我就不知道它是什么了,反正它肯定有一个集中的分布,对吧?这地方假如是十分贝,我写错了,应该写在X轴上,它可能,然后这个函数是它的密度函数,比如说现在我以十分贝这个机现在以十分贝发生,突然间变成了负100分贝,这基本上不可能发生的事,对不对?所以它的概率就非常低,但在这这个这个地方它的概率就很高,对吧?突然间变成1万分贝也是不可能犯的事,对吧,包括人群身高是吧?一米七五的最多,在这个位置最多,对吧?一米七四的少点,一米七的少点,那一米二的时候基本就不可能有了,对吧,那三米的也不能有对吧,它就是一个高斯的木。非常简单的高斯分布,高斯分布是我们建模用的是里边用的最多的一个,就是那个分布啊,因为高斯分布可以很好的描述噪音的这个,呃,噪音的这个分母,所以说当我们见文的时候,我们就可以说我们这个模型是准的。
29:10
我们这个model是非常准的,但是呢,上面有噪音,我噪音满足高斯分布。明白吧,我让早已满足高层布,我认为他俩加一块得出了我现在所看到的一个数据。看到了我的data。明白吧,所以说我假设我的model是准的,然后现在有一个高note是高斯分布,得到了我的date,我就可以根据date和高斯分布去拟合我的model。听完了吧。我们都是这个形象的,说了一下。最后一个非常非常重要的东西叫做山,非常非常重要,虽然最后说,但是特别重要。其实还是刚才我们说那个问题,商是什么东西呢?商是信息,这跟那个化学里的商不一样,就是信息量,就你一个字典,比如说你一个新华字典,对吧,你压缩到100K 3000压缩也化不了,为什么呢?因为它的商就是100K。
30:07
这是一个基础。我们以一个形象的例子来说啊,世界杯比赛呢,现在有32支球队来参加。现在有一支球队获胜了,但是我不知道你要把这个信息传递给我,你至少需要几比特呢?五比特对吧?你必须得告诉我是五比特对吧?因为你是要每一个每个去二分相当于二分查找嘛,对吧,你要看对,当然这是用比特去表示,如果你这一个位一个位上啊能表示三种值的话,那可能就不是五了,对吧?那就是log什么三落个以三为底,32对不对,这个值对吧。那这个我我就是他的商,就是他的信息量,就这件事儿,你至少要五个比特告诉我。
31:01
有。至少五一个,那真正他的公式是相同提出来的,怎么算呢?每一个队伍他的获胜概率都是1/32,对吧?那再乘上它的1/32。然后再求个和,因为你32个对呀,求和。求来的就是什么。就是。是吧?相同给了这个公式,这个公式的形象解释是这样的。我先比如我在说话啊,我说那个,嗯,今天是。你后面你会觉得我说的肯定是某某某日对吧,所以我今天我说今天是或者某某日这个事儿基本上不用我说你也会知道对不对,所以这个时候我说后边那个那句话概率特别大,甚至概率是一,比如我现在打个比方再说啊,国家总理。那你肯定要说李克强对不对,后边李克强我说不说都是国家总理对不对,所以这个时候他的后边的概率是什么呢?是一,所以呢,我说国家总理。
32:06
这是OK的,但是我说李克强对这句话来说,没有传达任何更多的信息。明白吗?后面这个概率是一,如果关利李克强后面概率是一,那为什么没有更多的信息呢?因为后面的概率是一,所以LO1等于零,所以不管前面是什么,S都等于零。所以信息量是零。明白吗?那如果我说这上回谷学校啊,成立了100年。这明显是一个不可能的事实,对吧?这个概率就是零对吧,所以我说上回我学校成立了,我后边说100年没有传达任何任何有用的信息对吧?所以不管后边这个LI0是负无穷啊,对吧?但是前面是零,他城也还是零,所以一个事不管肯定发生还是肯定不发生,它都是没有任何信息的。
33:02
是吧,球队也是一样,这32个球队里有一个球队他100%要获胜,就现在不用看了,所以说现在我就不需要我比特去猜这事了,对吧,那德国肯定都肯肯定夺冠,所以这个东西信息量就是零,因为你看啊,其他球队就不可能夺冠,对吧,所以他们都是概率都是零,对不对,而德国肯定是夺冠,它的概率是一后后边又是零,对吧?所以这事加一块整个的信息量就是零,这事不需要任何比特就可以确定。然后呢,总结一下就是人工智能这个数学呢,其实大家看到啊,都是高等数学里边的东西,主要是掌握常用的思维方式,那我再加一条呢,就是说大家能否活学活用,就是现在大家可能已经学到了很多知识,你的知识体系是这么大一块,但是你在工作里边真正能用的话,你可能觉得这一块我熟悉,我能用起来,但是呢,当你在工作的过程当中,你要想往职业生涯往更高的地方去走,你必须得尽可能多的把你会的知识都用起来,然后再一个就是练习推导。
34:04
就是推导,我跟大家说你不需要你掌握,但是呢,你平时没事要要练一练,要写一写,呃,你要保持你这个公式的这个敏感,这样的话你去做一些优化,或者别人说东西的时候,看论文你能很快就看懂别人在说什么。
我来说两句