00:14
接下来我们再看一下这个R和LTM这块的内容。这块内容呢,呃相比CN来说呢,更难一些,但是呢,呃用起来是更好用的,这可以说是嗯,现在自然语言中里边最核心的一个技术。我们先先说一个引子啊,然后然后一会我们再说那个主题,说一下正题,CN能不能解决语言建模的问题呢?大家想这问题是,是不是刚才说过说不行是吧。因为语言是时序的问题,对不对,你对这个你就对这个图片做卷积,你解决不了语言这个这个顺序问题对吧,不是这个图像一样,就是你直接这个做这个卷积就OK,而且卷积有一个关键问题是他没有什么记忆,对吧。
01:02
你记不住它,我们刚才说过语言模型是有记忆的,对吧?但是语言模型最多的记忆不大于三,对不对,不大于不大于三,如果你用四的话就已经记不住了,那么我们就需要用一些model去适时的去选择我该忘掉哪些信息,而留下哪些信息,对不对?那么最开始呢,人们都没想到这么多,人们想的就是一个叫做循环神经网络的东西,叫RN,什么叫RN呢?呃,跟它对应的还有一个叫递归神经网络,但是现在不怎么用,我是没太记得啊,主要是RN就是循环神经网络,循环神经网络的意思就是说现在我有一个神经网络,循环的接收你传过来的信息,不管传的是语言还是语音,还是文字都一样,对我来说就是循环。是吧,循环多少步呢,也无所谓,你你给我一个新的一个值,我就产生出一个新的值,你给我一个新的一个文本,我再产产生一个新的值,是吧,这样。
02:03
那么循环神经网络呢,呃,他的想法最开始想法比较简单,但是从大家来讲呢,最开始第一次理解的是非常困难的,我们简单的来说啊,循环神经网络呢,就是这样一个。一个神经元。或者说它是一个不能说是一个神经元,是一组神经元,但是这一组神经元呢,就是包含在一个节点里面的。它是一个节点,明白就有一次,比如说我我我说了一一个词,比如说我说你好,刚才我们不说了吗?你好不是可以做inbing嘛,是吧,可以做磁嵌入嘛,对吧。是吧,磁线数可以嵌成256维对不对,或者是128维没问题吧。对,我把它变成一个256个向量可以吗?刚才我已经做到了是吧,最多我们是降,我们给降维降到三,降到三维啊,不管是多少维,反正是他有个数的,那么我们现在有256A,就是有256个数字。
03:04
我们有二,我们同时在做256个神经元,256个神经元跟这256个数字对上。明白吧,我就相当于这个256个神经元是一组,就像一个细胞。明白它是一个细胞,明白吧。就并不是生理学那个细胞啊,我们可以认为它是一个细胞Excel。这个赛L里边有256个神神经元,它正好能跟这个,你做这个磁磁向量正好对上,因为你磁向量不可能这个是256维,那个257维对吧,大家肯定要的全是256维,要不全是128对吧?我这个细胞也是有一个属性的,就是我接收的是什么样的一个向量,我现在这个细胞吸收是256维的一个向量,接收到了以后,我这个细胞内部是有状态的,明白吧,我接收以后内部会把这个状态存下来,这个存的绝对不是我们说存到磁盘上,不是这样的,它是通过一个数字去存的,就通过运算去存的。
04:08
怎么去存呢?其实很简单啊,打个比方说,神经网络就有记忆能力,对吧,大家想想我们上午说那个,呃,这个先就这个卷积神经网络,它是不是具有记忆能力,对吧?你让他看了1000张图片,它这个网络变形了。网络变成了能识别哪只猫,哪些是狗这样一个神经网络,对吧?那他为什么会能识别呢?因为他把这些参数记住了,这个参数就是他记忆的一部分,对不对?所以说现在这个细胞也是一样,它里边也有很多参数,当他收到了这个你好这个这个词过来的时候,它内部的状态就会发生改变,而且它内部还会有一些记忆的一些状态,对吧?简单来说呢,就是给他一个词,然后呢,它输出了一个向量,有一个输出对吧?同时呢,它还有一个对自己的一个内部状态,这个内部状态再回送给自己。
05:04
明白了。有一个内部状态,内部状态为什么要有呢?如果内部状态没有的话,你这个细胞就没有办法把自己的状态传传传给后面。那明白这意思是吧,就就比如说现在我是一个worker,我是一个工人,我不断的接收这个信息,然后呢,产生新的信息,那么前提是我每次接收完信息之后呢,我得把这个信息传递给我我自己的下一时刻,要不然我自己就忘掉了,对吧,就忘掉了,所以说简单来说呢,就是你给他一个输入,然后呢,他首先去做了一次输出,做了一个激发,同时呢,要把自己的状态传递给下一次自己。然后自己在内里边呢,在内置一个门,这个门呢,专栏专门用来选择我究竟这一次是要呃上一次的就这一次选择上一次的这个状态更重要呢,还是这一次新进来的状态更重要,打个比方说啊,我现在在这在这在在我们说自然语言处理,我突然说了一句漫威,漫威的电影是吧,大家听到漫威的电影以后呢,就把我刚才说的话全给全给忘了是吧,为什么会忘呢?因为你这边有一个什么遗忘门。
06:21
在漫威这个新词出现的时候,你把上一个时刻传来的信息全给丢掉了。简单来说就是乘了一个零,乘了个矩阵零。明白吧,但是如果我一直在这说自然语言处理,自然语言处理你就不会忘,而且你会记得我刚才说的话,为什么呢?因为这个地方这个成的一个矩阵不是零,就这么简单。明白了吧,OK,然后呢,这边是它的展开的一个形式,展开的一个形式就是从这个呃,从这边再往那边不断的这个发展哈,然后他这个这其实只是一个啊,只是一个这个细胞不断的接收这个信息,然后输出接受信息输入,接受信息输出对吧。
07:03
这就是一个序列学习的一个问题,知道这是啊。
我来说两句