00:01
大家好,我是智纯科技的叶晓培,很高兴为大家带来这个大模型公开系列课程。对,然后我们这个课程主要是想聊一聊现在大模型的,呃,一些业界的进展状况,也就是大模型的前世今生,就是大模型出现之前,我们业界是怎么样的,然后大模型出来之后,然后又是经历一个怎么样的发展,希望就是这个课程对大家会有一些小小的帮助,好能让我们一起来看看。都有哪些部分,我们今天这节呢,主要是讲预备知识,然后他准备主要分为三个部分,第一个部分就是基础概念,我们会聊一些,就是我们常见的一些跟深度学习模型有关的名词,然后第二部分的话,我们快速过一遍我们经常会遇到的一些模型算子。第三部分的话,我们会说一说这个AP常见的网络,以及它的一些特殊的结构。
01:07
好,先从基础概念开始,那么基础概念的话,我们先从机器学习开始。什么是机器学习呢?机器学习其实就是一门多领域交叉学科,它其实就是用哎,我们文字上面的各种。哎,学科去专门研究,然后,然后计算机怎样模拟实现人类的学习行为,然后以获取新的知识或技能,对我们注意机器学习,它主要是通过对已有数据的学习,然后去提炼数据中的潜在规律或模式,这个很重要,就是说它是通过对我们已有数据的学习啊,不是说凭空学习。对,下面看这个一句最下面的一句话概括,它其实就是用数据以往的经验,然后以此来优化计算机程序的。
02:02
好,那我们接下来看第二个我们经常遇到的名词,神经网络。什么是神经网络?神经网络是一种受到生物神经网络。启发的人工智能技术。它由大量的节点,就类似于我们生物学到的那种神经元相互连接构成,然后每一个节点它都会执行特定的运算。就是这种结构其实是模仿了我们大脑中神经元网络的分层和连接方式,然后使得信息可以通过这些连接在节点之间传递。然后我们会对我这种连接,呃,就是神经网络,我们会进行参数调节,也就是我们俗称的一个训练网络,或者说学习的过程,我们在这个训练过程中,我们会调节各神经元之间的一个权重,然后以此来改进它的性能。然后接下来是一个名词,深度学习,深度学习是什么呢?深度学习它是机器学习的一个子集,哎,对,机器学习就是我们最先出现的那个名词。
03:08
它通过使用多层人工。神经网络来模拟人脑的分析学习行为,以实现人工智能。然后深度学习它的主要特点的话,它它其实也是,呃,就像前面说的,它是通过学习样本,然后去学习它的内在规律和表示。对,然后,然后它一般有很多很多的层,要不然他也不会叫深度学习,对它的深度学习其实首先就是。要了解前两个字深度,也就是说它它它这里的深度是跟是跟那些浅层的神经网络对应的。对,就是我们比如一两层的神经网络,我们一般称之为浅层神经网络。而深度学习其实它指的就是一个神经,就是就是神经元数比较多,层数比较深的一个神经网络。对,我们看这个一句话概括,机器学习就是其实就是很多种方法和模型的总称啊,就是这就不仅仅是我们这里提到的呃神经呃,神经网络深度学习,对它也有统计学习啊,或者其他之类的各种各样的方法,然后这里面非常火的一种就是是深度是神经网络。
04:21
对,也就是神经网络,这是机器学习模型中的一种,对,也是目前最火最火的一种。然后深度学习,它其实就是使用了层数比较多的一个神经网络,对,然后他们的包含关系,其实也可以简单看一下业务图。对,然后我们一般在日常交流的时候,就不太会去区分神经网络和深度学习这两个名词。因为其实现有的神经网络层数都不会很浅,对,一般都是蛮深的,所以我们很少再去区分这两个名词,神经网络深度学习可能接下来的课程里面我们也会就是混用这两个词。
05:02
好,那么就是我们标题中提到的大模型。什么是大模型呢?大模型是指包含有超大规模参数,通常是在11个参数以上的神经网络模型,它具备下面的四个特征,第一就是说巨大的规模,这个规模指的是它的参数量,一般是往往包含数十亿甚至百亿、千亿以上的参数。这种巨大的规模会为其提供强大的表达跟学习能力。第二就是说多任务学习。大模型通常一起会学习多种不同的任务,比如机器翻译、文本摘要、问答系统等。对,他通过各种各样的呃任务,他可以他可以学到一个更广泛的呃,以及更泛化的一个能力,第三就是说他需要非常强的一个计算资源。对云的,不管是从训练大模型还是去部署大模型,好像是需要。
06:01
呃,就是非常庞大的一个运算资源,才可以把它跑起来,而且训练往往因为数据量也大,模型也大,往往会花几周甚至几个月。那么第四个特点就是丰富的数据,我们经常听到一句话,就是人工智能或者说深度学习,它其实是由数据去驱动的。对,也就是,也就是大模型是需要一个大量的数据来进行训练,这样才能充分的发挥它的一个体量巨大的参数优势。好,那么NLP,什么是NLPLP?它其实就是自然语言处理,对,简单来说它就是,它就是人与计算机之间用自然语言进行通信的各种理论跟方法,对,然后我们我们大模型,其实呃,最开始的应用领领域就是以ARP,就是对或者说语言模型为主。后面慢慢也是扩充到了各个领域,这个后面我们会慢慢聊到的。
07:01
对,那么这样的话我们聊对,再聊一些LP里面的一些,呃,基本概念,我们就是就是token,还有这个word embedding, 先说这个token token是什么呢?它是文本中的最小语义单元。呃,就我们先看下面这个例子啊,我喜欢跑步,那这个的话,我们我们人类其实很容易就把它分割成3部分,最小单元就是3个token,分别是我喜欢跑步。对。那么token我们知道是干嘛,那么这个word embedding是干嘛的?它其实就是把上面的token,然后再转换成一个一个的词向量,也就是也就是这个word vector, 然后再输入给算法。呃,对对,就是换言之,其实其实我们。比如这这一句某句话,不管是中文还是英文,我们输入给算法的输入,它其实并不是你的原始看到的这种文本,而是说我们把原始的文本。
08:06
就是先分解成如那个token,然后每个token通过一定的关系,然后把它转换成一个词向量对,对就说白就是一个很长很长的一串数字对,我们一般把它称为向量对,也就是我们其实是把原始的输入文本转换成这么一长串向量的形式输入给模型了。对,我们再看这个例子啊,就是token,我们已经分好了,我喜欢跑步,好,那么那么这三个token之后,我们再分别通过这个em inviteedded, 再转换成下列三个词向量,比如说我的话,巴拉巴拉巴拉,诶,转换成10个数,喜欢哎,这这一整个词,这一这俩字儿作为一个ton也转换成了一个项链跑步,它也是一个整体的词嘛,然后也是转换成另一个,呃,明白一点,那最终其实就是每一个token转换成了比如10个数字,那么最终。
09:00
我们送给算法的输入,它其实就是上面的一个三乘式的矩阵。好,那么。这个word to vector, 它是什么呢?它其实是骨骼于13年开源的一个计算词词向量的工具,哎,词向量就是我们是上一章刚提到的,就是很长的一段数字,嗯,就是我们的,对我我们必须要建立这个概念,也就是说算法的话,它是不会直接接收我们原始的英文或中文,它接收的一定是。就是就是转换成了这个词,向量就很长一段数字的这种形式,他才能接受。那那么这为什么单独要提这个what do VE呢?它具有下面的特点,第一是高效,它可以在百万数量级的词典和上亿的数据集成,然后很高效的去进行一个训练,然后第二的话是它有相似,相似性度量。它可以很好的度量词与词之间的相似性,这个相似性要怎么理解呢?它其实是这样,就是说我们我们不管是中文还是英文,就是当它被转换成哎,就是就是一个词向量时候,那么其实它的维度是很高的,也就是远超三维空间了。
10:18
那么这个时候,那么其实在高维空间里面,呃,他们不同次之间的是,那他们他们也可以度两个距离嘛,距离也同样可以用这种呃呃距离公式去算欧式距离或者其他的。的一些距离,那么那么这个词跟词之间,那么我们whether word to whether, 它有个特征,就是可以把意思相近的词,然后在高维空间里的距离会离得近一点,然后意思差比较多的词。就会在高维空间里,他们离得远一点,什么叫意思相近的词呢,就比如说这个就就这个积压额,哎,它可能在这样空间里就比较相似,哎,但是这个,但是比如这个鸡,诶,它跟汽车那么在。
11:07
这样你就会离得比较远。哎,对,所以说就是它,它通过这么一个相似,相似性的特性,它可以等于就是天生对这些词去做了一些,就是就统统计学方面的一些统计处理,就是它分布到高维空间的时候,他已经。已经做了一定的这种算法处理,就让让比较让意思比较接近的词,它可以离得近一点。对,那么当我们在说这个word to vector算法和模型的时候。其实指的是它背后用于计算这个呃,这个子向量的呃c bow模型,或者这个skip gram模型。然后这样一个模型的话,我们这个PPT上也解释了,就就大家可以简单看一下,其实他俩他俩的计算差不多是反着的,就是第一第一个CPW,它其实就是。它根据前前后N个连续的词来计算某个词的出现概率,那么那么skip gram是上面相反的。
12:07
对,它是根据某个词来计算前后另外一些词的出现概率。好,那么第二第二小节的话,我们看一下常见的一些模型算子啊。对,我们先说这个标题,什么叫模型算子?然后我们上神经网络中的算子,通常指的是神经网络层,它所用的一些基本数学运算,它是神经网络的基本单位。对,我们做个通俗的比喻,就是其实算子就像积木零件,然后我们挑各种各样呃不同的积木,然后然后根据你自己的经验或者业界的经验,然后最终把它把它拼在一起,最终就成了一个网络模型。好,那么我们先看一些常见的算子,呃,就是先看这个,呃,DNA还有Lina dn的话深,呃,深度神经网络由若干Lina层构成,那么Lina层的话,也就是全连接层,也叫密集层。
13:10
其特点的是特,特点就是说每一个输入跟输出都会相连,就下面这个图也可以展示,你看它是。对,他他其实他这边其实就是有好几个零点零点填的密密麻麻的。对,这个是最早提出来的神经网络结构。呃,然后他很快就被后面出现的一些算子取代了,是什么算子呢?就是CNN跟RN。CN的话大家也是大名鼎鼎,应该都听过卷积神经网络,对它的话,在图像领域。呃,用的是非常非常广泛的,在其他领域也是蛮多的,比如语音语言处理等等。对,它的计算过程其实就是一个窗口滑动,就看我们下面这三幅图啊,呃,就是最像,呃,像最上面的,最上面那个绿色的,它其实就是卷积层的输出。
14:04
而下面那个。蓝色的它是卷积层的输入,然后那个3×3的灰色小窗,它其实就是我们的,就是我们的CN,也就是卷积神经网络,它其实就是在输入上进行一个滑动的过程,像我们这个示意的话,它其实就是在往右滑动,每次滑动一下对吧。然后它等于就是呃,每就是每每运算一次,然后往右滑动一次,然后滑动之后,然后再把它覆盖,覆盖范围内的这些个小蓝点运算运算,然后再往右继续滑动,就以此类推的一个过程。接下来是我们说一个循环神经网络,也就是我们啊,一句话概括就是说它的单元输入不仅包含了当前信息,还包含了历史信息。对,这个这个历史信息的话,我们其实可以想想前面的这种CNNLDNN,它其实每次输入的就是只是当前帧,而RN这边的话,它我们看下面这个图,其实能看到它有两个输入,就是就一个是X,一个是HX其实是当前帧,而H的话是。
15:14
是这个GRU,呃,就比如呃是GRU,或者RLSTM,这两个是比较常见的in结构。对,就是,呃,就是我们这边以GU为例,你看它每次输入是有两个部分,第一个就是XT当前帧,那么第二部分的话就是这个HT,就是加自己上一次算的一个历史数据。对,他经常用来处理一些与序列先后有关的任务啊,比如这种语言模型啊,积极翻译,我们分类音视频等等,为啥?因为因为这些任务它其实都有一个特点,就是说他们的输入都是连续的,哎,就比如说我说今天天气真好,那我就一个字一个字的往里面输嘛,然后我就每每个字都转换成呃词向量,然后往里面输,也就是也就是词的先后顺序,其实是对,就对整个意思是有很大的影响的,对那这种任务,那我们我们就容易想到那这种。
16:11
In循环经网络,它它既有,它既有当前这个字的输入,它有之前,之前的若干字,也就是所谓的历史信息的输入,那么它是更擅长处理这类任务的。好,那么第三部分的话,我们讲一讲这种ARP的一些常见网络。呃,对,我们我们先看一个这种inco的deco的结构,它是怎么理解的,它其实就是由若干的RN构成,然后一一部分RN,呃,作为这种我们所谓的in扣展就是编码部分,另一部分的话。但是是作为呃抵扣的,也就是解码部分,它就是由这种编解码的。呃,这种结构去运行,我们先看一下这个视频。
17:00
可以我们看到,诶,我们我们的include部分输入了输入了三个。这个应该是法语。好,然后然后这边in对一个一个往往后输入,然后他做了个翻译任务,翻译出来的,把它法语翻译英语就I'MMA student, 我们再看一遍。对,你看输入,然后这边RN加历史信息好,然后又是RN加橙色的历史信息好,然后这边没有输入了,只有只有只有上上一个R的信息过来。对,也就是换言之啊,我们可以看到就是inco部分,它其实就是接受的是原始就是输入加历史信息结合的部分,接受的是就是就上一个RN部分的输入,或者说就只接受历史信息。那么接下来我们再说一个就是attention的概念,对,它是什么?它其实就是注意力机制,让模型聚焦于关键输入啥对我们我们人类其实呃,对,我们天生就很擅长这个东西,比如说下面两句话。
18:11
今天天气棒极了,我感到非常,嗯,好,今天天气真糟糕,我感到非常,那么这边如果是一个呃填词的任务,那么我们我们人自然会把注意力聚焦到我们呃,红,对,就这种红色字体的部分就棒极了,或者真糟糕啊,这个是很强烈的感情表好吗?我们我们一眼就看到,那肯定是根据呃这几个词去填后面的对,那么那么对这句话,对理解整个任务来说,那么最重要的其实就是。我们画红的部分,棒截的或震增高,那么模型的话,其实我们也希望它拥有类似的能力,就是它。对,他做任务的时候,他把。对,他把他的注意力也聚焦于关键的输入部分。
19:03
好,我们我们看一下还是前面的那个例子,如果加上了attention会怎么样?好,还是这个翻译任务输入。第二个输入。好,第3个输入好,这些橙色的都是历史信息哦,但是你看这次诶,我们把前面所有的历史信息都拿过来了。然后你看,然后然后他翻译的时候,他I'm a student, 它其实后面每一个翻译的时候,他都可以参考前面的这三个历史学习,然后由他去判断,就是这他应该更聚焦于。也就是这三个历史信息中的哪一个?对,我们我们我们再看一个例子啊,比如说我们这次是中文翻英文,就比如知识就是力量,翻译成knowledge is power.我们可以看看过程,看这现在include的部分接输入知识就是力量,好,那么那么然后做翻译的时候,Knowledge technology的时候,它可能更聚焦于知识。
20:05
然后然后is的时候它更聚聚焦于就是画的时候更聚焦于力量,就是它是用线条的粗细去表达这个,呃,就是他的注意力的,我们可以再看一眼。知识就是力量,你看织织的时候,前两个很重,就是这中间两个线条,力量最后几个线条。对,这这个就是把注意力机制用在模型上的一个效果。好,那么我们概括一下我们前面说的这些,那么我们可以已经可以大概勾勒出那么在大模型出现之前,我们的旧时代做ARP任务的一个途径,我们可以通过word vect, 我们可以把呃输入,然后只,然后处理成词项量,然后通过这个include底的结构,它其实是一个。
21:05
网络的主干,那么再加上强大的attention注意机制,那么就能构成一个完整的任务。对,我们就以谷歌翻译为例,比如说他在16年推出的这个基于8层include include.的翻译系统GMT跟他十年前自己的系统比,它的翻译错误率能下降了61%半多。那么一切都平稳有序的发展着,直到那一天他横空出世,那么它是什么呢?我们下节课程再揭晓。好,谢谢大家。
我来说两句