00:00
爸爸,爸爸,Hello,大家好,我是总米墨迹到12点多才来录这个课,每次都是特别的晚,那今天呢,我们来给AI芯片里面的AI的计算体系做一个整体的总结,什么叫做计算体系?其实呢,这个内容别说你,我也觉得讲的确实有点分散,而且不聚焦,但讲到后面呢,可能你都不知道自己听的到底是一个什么样的事情,或者我给你汇报的到底是一个什么样的连贯的内容,那现在呢,我们今天对他进行一个串讲,简单的几分钟过一过我们之前所分享的内容,那第一个呢,我们之前所分享的是深度学习的计算模式,去看看深度学习有哪些不一样的计算的范式和计算的模式,还有它的计算的内容,接着呢,我们去看一看AI的计算体系,那计算体系里面呢,最重要的计算就是矩阵运算,所以我们会从深度学习。
01:00
开始入手,然后再到具体的计算的这个过程,那现在我们打开深度学习的计算模式这个内容里面呢,我们发现其实我们在一开始的时候会讲讲AI的发展和它的范式,接着呢我们去看看AI的非常经典的网络模型结构,了解完这个之后呢,我们看看一些模型的量化和减脂的技术,这些所有东西呢,都是围绕着AI去发展的,AI有三大方式,一个就是监督学习,无监督学习,还有强化学习,而最热门的属于监督学习,监督学习里面呢,就有AI它发展的非常多的网络模型,而且网络模型呢变得越来越大,随着我们的箭头所子,在AI的经典模型里面呢,除了CNN网络模型,还有STM呢全了,还有RNN这种经典的网络模型结构,接着呢,我们去看看模型的压缩和量化。通过不同的。
02:00
手段呢,是对我们的矩阵,对我们的计算呢,其实是有非常大的影响,针对经典的网络模型结构,还有模型量化与压缩呢,我们对AI的计算模式提出了一些思考,这思考就是我们的AI的计算模式对硬件有什么依赖,对硬件提出什么新的诉求。接着呢,我们在第三个内容里面呢,去看看深度学习的计算模式里面的轻量化的模型,还有一些大模型,分布式并行对计算模式的一些改进和思考,那这里面呢,我们去分享了或者回顾了一些CN系列,还有全缩本系列的非常多的网络模型,特别是so,然后呢,我们看看ma LM大语言模型,我们叫做LM language large model或者large language model,这种做了很多不同的张量并行的,Paline并行呢,还有sequence并行这种很多的并行的模式,了解完轻年化的网络模型,还有一些并行的模式之后呢,我们对AI的。
03:00
计算模式也进行了一个回顾和思考,到此为止呢,我们已经了解完了整个深度学习的计算模式,深度学习AI它有哪些不一样的计算的特点,那基于这些计算的特点呢,我们引申出了下一个内容,计算体系,还有矩阵运算,这里面值得注意的就是一个呢是计算的模式,一个是计算的体系。现在呢,我们简单的过一过,计算体系里面有哪些内容在AI的计算体系里面呢?我们去看看AI芯片的关键的设计指标,就是我们之前已经讲过了很多深度学习的计算的模式,这些模式呢,对我们的关键指标,对我们试剂的指标是有非常大的牵引作用的。然后呢,我们去看看矩阵的运算,就是我们整个AI计算体系里面最核心最关键的计算,有了这些计算之后呢,我们可以看一看比特的位数。
04:00
针对不同的应用场景呢,它可能会使用不同的比特位数,针对不同的运算也会使用不同的比特位数。接着呢,我们进入第一个内容,就是AI的关键指标,那关键指标里面呢,有两个非常非常的核心,一个就是带宽bewi,一个就是我们的P1执行引擎,P跟执行引擎之间会决定我们的峰值算力,不同的P1,不同的带宽之间需要找到一个很好的平衡配合点。有了这个基础的了解之后呢,我们就会对整个AI体系的关键的设计指标有精度呢,吞吐率呢,食盐,还有一些额外的指标,就是能耗呢,系统的价格,还有易用性。可能前四个呢,跟我们的硬件非常相关,那系统价格用性这个两个事情呢,就比较玄学了,或者比较有大的浮动性,然后了解完关键的设计指标之后呢,我们看看矩阵的运算,矩阵运算是整个AI计算体系里面最核心的运算的方式,不管是CNN还有NANA,就ma这种计算模式,全连接的,我们都会把它转换成为具体的矩阵层,通过矩阵层的方式去代替传统的卷积,因此呢,我们会说矩阵层是AI体系里面最核心的计算,于是呢,基于这个最核心的计算,我们会去思考,关于软件上面我们应该怎么去设计我们的硬件,关于硬件上面呢,怎么去符合关键设计指标,接着呢,我们去看看最后一个内容,就是比特的位宽,我们知道矩阵的运算呢,是基于最基本的数据。
05:45
单元去运算的,而这数据单元最基本的存储单位呢,就是我们的bit,我们的位数,所以呢,针对不同的数据呢,我们是有不同的位宽,不同的存储格式,而在具体的芯片设计场景里面,我们到底拥有多少IP30,多少BF16,多少PF16呢,是跟我们的芯片,跟我们的应用场景相关的,如果我的芯片的主要是针对训练的场景,我们可能会提供更多的FP32,还有FP16,但是我们芯片呢,更多的可能是针对推理场景,那这个时候呢,INT8跟FP16可能是更好的一种选择。最后呢,我们对整个AI芯片的设计,特别是位宽呢,做了一个整体的回顾,接着最后呢,来到一个最后的内容,我们来一个summary大串讲,把刚才讲的知识呢,再重新的回顾一把,那首先呢,我们去了解。
06:45
的整个深度学习的计算模式,包括我们的经典的网络模型,结构类轻量化了模型的量化压缩,再到大模型去理解什么是计算,计算对我们的硬件需求是什么,我们需要什么来去更好的计算。接着呢,我们通过AI的芯片的关键指标去了解一款芯片如何更好的支持我们的计算,需要关注哪些重点的工作呢?这种呢就是关键的设计指标,从而引出峰值算力,我们的PE和带宽之间的关系。最后的我们就去了解一下深度学习的计算核心矩阵成这个内容来看看我们对实际的计算有哪些需求,那为了提高我们的计算性能,降低功号,还有满足训练不同场景的精度和要求,我们对计算呢,会引入很多复杂的,非常多样化的比特的位宽,下面的这两个呢,是跟我们的A。
07:45
AI计算体系相关,上面这个呢,是跟我们的AI计算模式相关,从算法倒推到我们的软硬件,应该怎么去设计,应该怎么去做牵引,好了,今天的内容呢,就到这里为止,谢谢各位,拜了个拜,卷的不行了,卷的不行了,记得一键三连加关注哦,所有的内容都会开源在下面这条链接里面。
08:12
拜了个拜。
我来说两句