00:16
然后呢?嗯,我们简单讲几个例子啊。呃,在循环神经网络里面呢,用的比较多的一个东西呢,叫做encoder decoder结构。什么叫结构呢?这个用这个东西用途的非常非常的好泛啊,打个比方说,现在呃呃,我们看那个推荐的那个文章上面都有配图,对不对?配图这个图不能乱配,那大家想到最简单的办法是拿人配对吧,人每天都在读文章,读完文章理解这个文章的意思了,然后开始给他找图,给他配上去,对吧?所以一个人一天能配20个文章,我觉得就已经还行了,还不错了吧,对吧,如果配的质量很高的话。那么机器要怎么给这个文章配图呢?
01:02
大家能想到吧。首先我们刚才已经知道了第一点,呃,图像是可以in bed定成一个向量的,对不对?图像这个向量是,这个向量是可以清晰的描述这个图像是什么东西,它是狗还是猫,还是什么水果还是旅游沙滩,它可以清晰的描述这个图像是什么是吧?好,那现在图像有一个in bedding。我现在刚才给大家讲了,文本也有一个音白丁,对不对,文本往这个循环神经网络里不断的送,然后所以它它不断的出现各种各样的H是吧,当然这是一个展开图,它实际上只有一个一个一个cel。输入了好多H,这些H呢,最简单的做法就是把它们怎么样加一块,除个平均,另外一种做法呢,就是把最后一个H拿来说事,为什么呢?最后一个H如果有有问题了,前面都得跟着更新,谁也跑不掉,对吧?所以呢,你把每个都拿出来,和你拿最后一个其实从训练角度来说都差不多,你把最后一个答出来,它也是一个什么阴白丁对不对?
02:08
好了,这就一判定了,所有在网上存在的文章,它的配图,你都可以认为它是什么匹配的。对吧,就人已经已经很多编辑已经做这个工作了,已经做的很匹配是吧,所有在网上出现的图你都可以让他匹配的,你可以把所有网上的文章全爬起来,把图片抽出来,文本放一边,然后把他们两个分别送入。是吧,两个编码器里面去。两个coder里去。刚才给大家讲过,你刚才大家大家刚才跑的那个就是一个inding的那个图,就是手写数字分类的一个inding嘛,对吧,你把图像送到那个模型里去得到一个向量对吧。然后呢,我们现在就有一个RN嘛,这不有个RN嘛,对吧,不管你把只有一个状态拿什么,拿出一个状态,反正是有一个状态,是不是有一个状态,对吧,那现在一个H11个H2对不对,我们认为它们是匹配的,怎么说它匹配呢?就说它俩的cos值。
03:10
是非常相似的。就是近似于一。为什么说是cos值呢?什么值都可以,你说它是欧式,距离它也行,你你不管通过任何方式去优化它,只要你优化它后面就会跟着动,然后他们俩就会尽可能相似。明白了吧?这这个思想能明白是吧,所以呢,特别是图片,特别是文本,你就可以做一个model,它就匹配上了。当你训练出来这个model以后呢?你的老板又跟你说了,我们来了很多新的文章,没有图。你会怎么办呢?你会把文章扔到因这个RN里边去,这个RTM里去,得到它最后的一个向量,对吧?然后呢,你就从不知道的地方挖出来了100万的图片,但是都没配的,把这100万的图片挨个扔到这个model里去,他们是不是也有一个向量对不对,然后呢,挨个算相似度。
04:11
谁最相似,谁就是这个文章的配图取TOP3。知道吧。这样的话,你一天至少可以提升这个工作效率,我估计比人至少可以提升个几100倍不成问题。明白了,这是这是这是非用了非常常用的一个技术,非常非常常用。这是这是这个图文检索,还有人就比如说网易云音乐里边,你用文本去检索,或者是用留言是吧,网易音乐下面大家都很有情怀嘛,是吧,对一个乐下面留了一堆言,但是呢,大家这个情怀都是因为这个音乐触景生情而导致的,对吧?所以我们认为这个留言和这个音乐一定是强相关的,一定是强情绪匹配的,对不对。
05:00
现在假设你要上线一个新的假设,你你你写了一张,你写了一首歌,你要推到网易云上去,现在没有人留言,然后呢,你去把水军,让水军给你留言,水军听不懂你的歌,不知道该留什么,对吧?这个时候就出现一些问题,假设你要是了解神经网络的话,你就可以通过机器人去给你自己留言。怎么留言呢?跟这个道理是一样的,首先你把音乐,音乐是一个持续信息对不对,先做一个音扣Ding融进来了,我们先把网易云音乐上面所有的那个音乐和评论全趴下来,认为他们是匹配的,是这样的,训练出来一个model,然后呢,你再把音乐,现在就没有评论的音乐,把你自己写那个歌扔进去,嗯,神经网络反正也是一视同仁是吧,也能学上一个向量啊,可能这个向量可能不那么好听是吧?啊,也是个销量,然后呢,你从网易音乐里边,或者从任何一个地方,甚至从亚马逊的评论,甚至从淘宝的评论所有地方,你可以抓上100万条评论,对吧,这100万条评论里边肯定会有人就是说的这个话,就是似似是而非,就他可能在这个淘宝网上留了一个什么,哎呀,这首歌真的很不错是吧,虽然你也不知道他为什么流上去的啊,但是他肯定会有这样的话,对不对,你可以把这个句子都扔进来,一般100万的句子,我估计就。
06:24
用不上几十,十几分钟也就都算完一次了。然后呢,都扔进来之后,两边做匹配,看看哪得分最高,找人TOP100,然后刷到我们音乐里面去,对吧。你就可以自动刷评论了是吧,所以现在大家动辄能看到那个信息流下边有一些评论,清一色的全是那种,特别奇怪啊。对吧,就好像一点一点其他的声音都没有是吧,都不知道是怎么出来的。这个东西可以立大功啊。明白吧,是吧。
07:00
而且还可以怎么做呢?还可以去删帖删评论,每天大家都会在我这个,比如说在一个淘宝或者在一个京东上留很多言,对吧,京东上全是各种赞,没有说人家基本上很少有人说这个这个东西不好是吧。这个肯定他们自己也可能也删了对吧,有删了对,但是你要用人去挨条看的话,就非常辛苦,非常累,完全可以通过机器自动去做,怎么做呢,也是一样的,但是呢,你需要再额外标一些数据,因为现在你的正样本不是所有评论了,所有评论里有好有坏,对吧?你先通过人去把正样本标出来,标出来哪些评论是好评论,哪评论是坏评论,你也可以去做情感分类,就这个人他情感不好,他这里这个话里边肯定会有一些很奇怪的一些话,一些句子,或者骂人呢,或怎么着,你可以把它作为负样本,然后去学成一个二分类模型,这个二分类模型呢,你就可以什么呢把二分,既然你已经学了二分类了,那么凡是情绪好的那些高那个点赞的那些评论,你认为他正样本,不点赞那些你认为是负样本,在优化的时候呢,你让点赞的样本和你的这个商品这个相似度尽可能的。
08:13
Cos值为一,而那些骂这个商品的,尽可能cos值让它为零。然后之后每来一条你就掉一次,你这个模型,这个人一评论掉,你这模型,发现他的分基本0.1,于是他的评论就失败了,是吧,这个就是很好很好用的一个过滤系统。明白吧,这个模型呢,是在现在在多媒介搜索里面用的非常广泛,而且在这个呃视觉问答里边应用,比如说爱奇艺和这个优酷,还有像那个爱奇优酷土豆,你搜了一个query对吧,你搜了一个,比如说我说搜了一个叫什么,嗯,有类似于鹿鹿鼎记之类的哈,搜了快手鹿鼎记在哪里看是吧。他有假设他现在有数,数据量里边有1000万条数据,非常多,跟601相关的,他不知道给你推哪个。
09:06
这个时候怎么办呢?也可以通过这个model去算得分,哪个分高就推哪个。明白了是吧。对,这应该说这个东西就是现在。嗯,现在所有的这个搜索和推荐里边用的比较多的,嗯,一个model。啊,但是理解起来是并不难,对不对,理想不难,在这个里边呢,我还要给大家再简单简单讲一个啊,我们现在是用一个两个模型去接收到了我的一个媒介,把它转换成一个向量,对吧。我也可以让它去生成,我可以训练出来一个生成模型,这个生成模型是什么意思呢?大家听一下。生成模型是这样一个意思。
10:00
我们现在呢,仍然是这一边正常的扔进去。仍然是正常的扔进去对吧?扔进得得到一个向量对不对,一个媒介进去得到一个向量,现在这个向量呢,无非就是呃,我我另外一边本身应该是把什么把文本扔进去对吧?现在我假设我这个图片是图像,右边是文本,右边本来应该把文本扔进去对吧。但是呢,我现在觉得扔文本这件事对我来说太low了,或者我不喜欢把一百二文本全扔进去打分,我想直接生成专业最好。怎么办呢?就把这个向量。作为它的右侧的输入的向量。直接连起来。明白吗?直接连起来,最开始生成的文本肯定是错的,错误不堪的,肯定是有问题的,但是好在呢,最开始你用的是什么呢?是图片文对吧,图片文本这样一个训练的一个数据,对对不对,图片文本,所以你知道生成文本生成错了的话,跟他这个原来的文本是产生了什么呀,损失的呀。
11:10
对吧,比如说你这两个本全是五个字或五个词,那么其中有三个词一样,那你就知道了,这个现在生成的有问题的对不对。生成有问题怎么办呢?生成有问题,我的优化目标我没有任何根据,但是我可以知道,我生成就是接下来给你的这个文本,只要我能生成它肯定是好的,肯定没错,对吧?虽然语义有很多相似的,语义从表面上来看字不一样,可能语义也一样,但是我生成这个文本是肯定没错的,对吧?因为这已经存在了。大家明白吗?我再说一次啊,刚才我的做法是把图片扔进来,把所有的扔进来算匹配度对不对?现在我要生成它,那我最开始怎么生成的,我唯一有的根据就是我图片的invading,图片的销量,对吧?
12:01
唯一的东西就是图片向量,那我把图片向量就当做像一个新的图片或者是一个新的文本一样,扔到第二个模型里边去,就直接扔进去。扔进去以后呢,它因为它因为你正常一个词扔进去也是一个向量,对吧,反正也是向量,肯定会出来一个向量对吧,这个向量呢,你你这个向量,假设你这个候选集啊,你这个所有词的候选集是10万个。你这个向量呢,你就让它乘个矩阵,然后出来是10万,得出来10万,10万个分。看看哪个词高,你选哪个就下他下一个词。就是作为他生的生成的词对吧,就那么做对吧,但是最开始他肯定是肯定是不够好,毫无疑问他肯定不够好,怎么办呢?因为他现在生成的文本有错,跟你这个数据标记你这个数据的level是不一样的,对吧,你数据level这个文本你可以认为它是没问题的嘛,是好文本嘛,对吧,他人说的话肯定是好文本,对你机器生成你要相信人吧,对,所以说他跟这个文本有有区别,有有出入,那么怎么样呢?你就要更新这个神经网络,让这种情况下你生成的文本和他说的这文本非常相似。
13:13
只要不相似,你就更新损失就更就你就把这个损失算梯度,然后往回传传递就OK了,明白吧,最后就能得到一个什么模型呢?一个生成模型。一个生成模型,为什么Google现在的翻译做的比以前好这么多呢?就因为他们用了这样一个model。这个model可以学到,不仅可以学到翻译的问题,而且可以学到人什么就是什么样的人,就是比如中国人或者日本人,美国人,他们这个语言习惯是不一样的,他可以把这个习惯也学到,所以就不会再出现那种说你以规则去写这个翻译的时候,它那种语法很生硬,或者说你这个词汇去翻译的时候,这个问题明白吗?这就是一个什么模型呢?就是我们刚才说的encoder decoder结构这样一个模型。
14:07
先编码,再解码。对吧,比如这边说are you free tomorrow啊,这边说是yes what's是吧?这不是一个翻译,这是什么,是个对话是吧?那对话和翻译是一样的。对吧。对话和翻译是一样的呀。从这个模型上来说,对话、翻译完全是一样的事情。啊。市场上。大家能看到以前那个小黄鸡是吧,这个好像还是当时人网比较火的时候,跟小黄鸡聊天是吧,当时做的时候怎么做呢,是一种搜索的方式。你问了一句话,他从所有的回答护理去搜索一句话,你发回回来是吧,当时大家还觉得说,哎呀,这东西做的还挺有意思的,没事,大家都艾特他是吧,但是现在的生存模型呢,已经做到比那个时候强很多了,他可以做到很多这个就你意想不到的东西都可以生成出来。
15:03
尤其是现在的神圣模型,还可以生成你没见过的古诗词。对,古诗词当然。大大我给大家把这个这个模型这个已经揭秘了以后呢,大家也知道哈,这个模型本身不具有,就是说有多么高阶的一个智能,对吧,这个模型本身就是一个概率模型。这一次我说了,呃,我是是吧,假设现在我给打打个比方啊。他说are you free tomorrow,咱们这么说大家可能都看不太懂,比如说。我是工程师对吧。那对应的一个英文,英文翻译可能是I,你就念是吧,后面我就不说了啊,现在他学东西不是有多多大的智能,他学东西是这样的,在我假设我们现在就是说解码啊,解码写到第二个位置上,因因为你把我是工程师,后来你是要让他右边那个是解码对不对,让右边是解法,他现在学的并不是说多么很智能东西是,而是第二个字上的一个条件概率。
16:11
是一个条件概率啊,在我是存在的情况下,工程师翻译成engineer的概率最大。明白吗?他学的是这个东西。所以说现在的这个智能问答,总是出现这个问答不匹配的情况。因为他没有办法真正理解你这个东西,所有的东西都是靠猜,现在昨天早上我给大家讲过,现在神经网络所有的东西都是在靠猜,都是在靠概率极大化,知识还没有很好的融入进来,但是仅仅是靠猜呢,已经可以解决很多问题了,因为咱们人类这个活动是符合这个客观规律的,对不对?对吧,以前有人说就是汉语是最经典的语言对吧?说这个汉语中那个商特别小对吧?那汉这个语言和通信的编码是非常相似的,汉语之所以他这个语言非常精简,也跟他成立的成熟的非常早有关系,对吧?古人当时只有一个这个什么竹简能写信息对吧?他只你看古人都非常经典对不对,基本上就一个字,就是一个意思,对吧。
17:22
为什么会这样?因为他没有纸。就那么简单,我再给大家打比方,假设你现在手机啊,一秒钟只能说你,你跟别人打电话,一秒钟你就能说两个字。你们的交谈肯定会变得特别经典,对吧,你你们会发现一种新的语言,一个字就代表了一个很很大的一些事情,明白吧,所以说我们这些语言,这些东西都是有些科学原理在里边的。对吧,所以说呃,所以说现在这个这个模型呢,在求的就是一个条件概率的这样一个东西,就我是存在的条件下,工程师发译成安全性它的干预。
18:02
明白吗?当然了,其实再稍微多一点的不仅是我是,而且是我是存在的条件下,工程师翻译成安全件,并且我是翻译成I'这两个条件概率,工程式翻译成这的这样一个概率,明白吗?这个概率呢,如果从我们以前去实现的话呢,这基本上就是不可求解的,就你说没有办法用一个网络去描,用个图啊,或者用什么去描述它,但是呢,这个东西在现在来看呢,是可求解的。就至少可以模拟的,这就是神经网络为什么这么火,和他的这一个,呃,很很大的一个用途啊,就他可以把这个事情解决很好。
我来说两句