Serverless数据湖存储在AIGC场景的架构与落地原创

2023-05-302023-05-30 10:44:27播放3.3K

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
各位开发者朋友大家好，我是腾讯存储崔健，那个在线上呢，我跟很多开朋友是线上的网友啊，然后那个今天这个机会非常珍贵啊，就利用泰国都今天这个机会跟大家可以线下见面，然后有一些问题可以当面交流啊，然后今天利用这个机会呢，我跟大家带来的是什么样的分享呢？是最近比较火的AIGC业务，大模型训练业务这块，其实他用到很多云上的算力，用用到很多云上的解决方案，我站在我们腾讯存储团队的视角跟大家分享一下，我们是怎么思考这件事的，我们当前在做什么，未来还会做什么，来去帮助国内的AIGC相关的公司做好大模型训练这这件事啊。那个大模型训练这个这个呢，呃，我想各位开发者朋友们都是发烧友啊，肯定也都学习过，了解过，甚至用过，然后我还是先做一个这个比较这个初级的普及吧，就是说他到底是在做什么事情啊，分为两块，一块是训练，一块是这个，呃推理啊训练呢，基本上可以理解为啊，高度抽象的这样一个流程，这个做AIGC的团队，他会从各地啊，从各处各个网站拉取各种这个带训练的物料啊，这些物料都是一个拉过来的，或者也有自己生成的物料，拉过来以后就是瑞基于这些初始的物料要做一些这个，比如说初始的一些清洗啊，然后清洗完了做标注，标注完以后然后投放到GP跟这个，嗯，这个这个g po卡绑到一起来做这个，呃，训练啊，这个就是高体能训练，然后训练完以后呢，把这个训练结果这个投放到这个神经网络里面，让这个。
01:34
大模型训练的神经网络越来越聪明啊，基于这样的前期的训练结果以后呢，然后来包装这个推理的应用，呃，推理的应用就是我们常这个了解到的纹声纹啊，纹身图啊，这个纹声视频啊等等是吧，然后就有了这个终端的用户去用这个应用，用这个推理应用，可能这个终端的用户会去给一个这个呃，Pop，然后给一个就是这个输入吧，就是我想要一个什么什么东西是吧，给一段文，然后生成一个东西，然后呢，这个输入进入到这个推理系统以后，推理系统基于神经网络的积累，然后它的服务端返回一个结果，可能生一张图片，可能生成一首古诗等等是吧，然后这个这个形成一个闭环，当然在这个过程里面还有很多旁流的模块很重要，比如说这个内容审核。因为这个。
02:18
这个内容全部是由机器产生的嘛，是吧，这个太恐太可怕了，这个这个可能涉政，可能涉黄，可能涉恐，所以说一般这个目前啊，这个各家这个平台这块都投入了大量的这个审核的这个资源，机审人审等等是吧，然后再有呢，就是这个推理的产物，可能有TOC，可能有To B是吧，如果他这个下游使用这个东西的，这个是To B的平台，他需要把这个推理的产物管理起来，那可能还有一些下游内容，内容管理的相关的解决方案。啊，大概这样一个流程啊，然后呢，这个腾讯云啊，整体在AIGC这块，其实呢，这两个月，然后我们内部充分讨论，然后充分挖掘，有一套非常全面的解决方案，包含计算，包含存储，包含网络，包含刚才聊到的容器，云原生等等的调度的能力，呃，今天时间有限啊，就是可能只有20分钟，然后我就先仅仅站在存储的视角来讲一下我们存储团队在这个整体的腾讯的整体的I方案里面做了什么事。
03:14
大概是这几件事啊，就也是高度抽象啊，就是第一件事是在生成阶段，就是在训练阶段里面，我们存储团队有义务也是有责任就跟计算团队一起把整个环节这个做的尽量紧密，把效率尽量做高，来让用户的这个训练的效率更高，训练的产物更加精准啊，这是在生成环节啊，然后再有是审核环节，刚才也提到了，然后在这个推理的产物的生成和审核环节呢，我们提供了这个比较全面的内容审核的解决方案，帮助这个我们这个平台方做好质量的把控啊，再有就是治理，这个是智，这个智能的质啊，就是说智能治理的意思，当产物出来以后，我们要帮助我们的这个下游的客户，不管不管是C还是B啊，做好这个推理产物的管理，对大概是三块，这三块呢，我会分别这个来说一下。
04:03
按步骤来吧，就按照我们整体站在一个开发者的视角要做这块事，做一个平台方来讲的话，按照哪几个步骤把这个东西搭起来，用到哪些云上的资源和解决方案，第一个环节呢，就是所有事情的这个开始，这个数据，数据集的下载和预处理啊，这里也就是这个，为什么这一步很重要呢？就是也我也问大家一个问题，就是大家觉得大模型训练啊，就是国外拆的gpt。Mid journey是吧，然后国内有又分大厂小厂，就是我我我讲一下我个人的，就是说这块其实有差距，这个差距我觉得是两方面，一方面是这个算法啊，就是这个拆的GBT他在。偏偏古典偏古典的几个老版本里把算法公开出来了，但是他新的几个版本没公开，他认为是他的一个核心竞争力之一是吧，这是其一，还有一块就是可能大家忽略的，就是说到底这东西出来质量好与坏，其实还与他这个标注能力有关，其实这个标注可能大家认为很简单啊，就是说就跟我们经典的AI标注一样是吧，一个图片过来以后，我这个有可能这个有有机器或者人去做标注，就是说一层一层嘛，首先问是说这是一个人还是个风景，是人，是人的话，他是男性还是女性，是男性是吧，他是什么肤色是吧，就这样的，这个一问一答，这个做标注其实很简单的，但是呢，这个到了这个这个大模型训练里面啊，因为他对这个结果的这个。
05:18
对结果的精准度要求太高啊，然后并且他这个复杂度太高，所以说在标注环节其实是很吃这个技术的，而且这个技术呢，不在于是说我能不能把问题回答好，而是在于我提问题的人围绕这个事我提一个什么样的问题，然后让下游的这个人来回答，问题提的好不好，决定了这个标注的这个结果和水平怎么样。呃，然后这个标注，标注这个数据集的这个质量啊，然后直接决定了我这个训练效率和最终的产物的效率，呃，所以说呢，这块其实也是一个核心竞争力，而国内的一些公司呢，因为这个积累时间也比较短啊，因为人家做了好几年，我们做了几个月，而国内的一些公司呢，在第一步数据及下载这块呢，可能当前啊也这个也分好几步走吧，可能也会自己基于自己的一些垂直领域的积累去做自己的标注，也会呢，去从国外的一些这个网站啊去拉取，因为国外是有一些网站，这个主体是在北美啊，还有一些欧洲的网站提供这样的服务，就是说像这个这个这个huin face呀，像这个这个common Korea，就这样的网站，我们账号登录上去不花钱，直接就能把它那个已经标注好的下载集拉下来，都是已经标注好的半截化数据，也都不大可能几十T几百T这样的样子是吧，最多国内很多公司他第一步迈出第一步的时候呢，是从国外这些网站去拉取数据，但这些这些网站架设在国外就有一个问题，怎么把这个数据拉回来，而且需要快，呃，我。
06:40
如果比另外一家快，我就能尽早投入训练，我可能比他就走的走的更好，是吧，所以说我们在这块提供的解决方案就是说，呃，我们也我们有很多套方案，就是腾讯存储在数据迁移，数据搬运这块有很多方案，离线的在线的这个存量的班，增量的数据的班都有，但对于这个场景呢，就是从国外的一个网站里URL拉，其实我们有有一个专门的产品叫MP。
07:06
呃，腾讯腾讯的这个数据迁移平台。通过这个偏通过这个平台可以它这个pass平台，呃，可以简单的通过这个界面化的操作来把这个这个目标测的一些UR数据拉回来，直接拉到国内的一个cos的一个存储桶里面去，这就完成了第一步，这个原始的这个带训练物料的积累的一个汇集的一个作用啊对。做完这一步以后啊，第二步就是开始训练了，这个训练呢，其实大家肯定也都知道啊，就是训练这块，其实存储不是消费的大头，消费大头是g po，而且而且很多情况下呢，不是说我有钱就能训练，而是说我得去抢这个卡是吧，所以这个卡是很珍贵的，呃，也是因为这个卡他有这个核心竞争力，所以英伟达前段时间前两天这个股价不是这个又有一个爆发式增长是吧，所以说就是所以我们存储呢，在这里怎么去配合好大家的训练过程呢，就是说卡很珍贵。算力很珍贵，我们一定要在存储这块做好数据的这个拉取的加速，为把这个数据更好的喂给这个G算GPU这边别耽误时间，然后能尽快的把数据喂过去的话，就能减少GPU等待的时间，提升GPU的算力的利用率，对这其实就是帮用户省钱，呃，所以说如果想做到这个目的呢，我们就得剖析一下他这个整体的这个训练的流程是怎么样子的，这个这里我没有细化啊，就是我可以口述一下他这个整体这个训练的这个IO模型其实还是蛮大的，呃，整体来讲呢，它这个前面一页提到的用户的这个汇集过来的这个原始的素材啊，存在云上对象存储里面去某一个存储桶，然后呢，上面架的GPU，呃，GPU呢，它这个就是它它这个模型这侧呢，他会去做一次高带宽的拉取，把这一批带训练的物料先拉到他本地去，然后便于他本地，呃，这个对于这个训待训练素材进行一些，比如说这个向量化的压缩，然后跑本地的这个模型，但是它这个读上。
08:58
在做本地模型的这个算力的过程当中呢，会不断的回血checkpoint，大概呢，就是可能这个checkpoint不同的这个模型，不同的厂家，这个执行的方法不一样，可能这个一小时，可能这个五小时，可能一天回写一个checkpoint，这个checkpoint会很大是吧？然后呢，会对我们存储测有这个相呃比较高的这个写带宽的要求，所以说所以说整体来讲呢，就是说读带宽也高，写带宽也高，而我们怎么应对这个用户这个这个带宽IO这块的这个这个比较高的这个性能的要求呢，是吧，我们提供的这套方案呢，简单来讲呢，就是说呃，底层是对象存储，就是靠就是cos这个产品，我们腾讯的对象存储，对象存储里面汇集了这个用户的全量的这个素材，类似于这个大源站是吧，然后呢，这个要拉哪些数据，可能每一次的这个，每天每周的这个待训量的任务是不一样的，比如这周我要拉一批数据，从cos里面说某一个桶的某一个前缀要拉上来，然后可以通过我们这个。
09:53
呃，Disri build的load的方式去load到本地，而本地呢，我们提供了一个产品的方案叫故SFS，可能很多开发者熟悉腾讯的同学可能也知道，故SFS是一个部署在用户计算进计算端本地的一个文件系统，它利用的资源是GPU本地的SSD，因为现在这个大家用的常用GPU啊，不管这用的卡，不管是这个A800A100，它搭载的GPU本地一般提供这个三三块四块这样的这个7.68T的sidd盘啊，这个盘可以利用起来，我们就是利用用户这个多台GPU本地的这个sid盘，把多台多机多节点去构画成一个统一的一个文件系，文件系统啊，全局的这个name space，然后用户可以把这个底层cos统里的数据拉到这个GPU本地的这个name space里去啊，通过分布式拉load的方式拉到本地以后呢，然后用户在GPU本地做他的训练，然后呢，这个训练过程当中回血的插炮呢，直接写到cos里面去，对大概是这样一个方案，然后为什么我们希望在这里。
10:53
加固FS呢，因为就是如果直接读cos的话，可能就会这个性能上会有一些会有一些瓶颈吧，比如说从这个绝对的数据面来看的话，其实这个cos的这个OPS啊，可能就是呃，Cos这个各家的，包括S3也是一样，是按照单逻辑桶来给一个OPS的单筒可能只能给3万OPS单筒可能只能给2G大B，也就是15到16G小B的一个带宽，这肯定不够的，所以说如果能提前的一次性的把这个数据漏的到这个GPU本地，然后去跑本地故事FS释放本地SSD的带宽的话，故FS可以达到tbg的吞吐的，能够充分的满足这个GPU本地这个训练框架的这个性能要求，对，然后其实我们整体的这个训练加速是三级加速，就是我我可能重点只提到了，故SFS这一级，如果还如果需要的话呢，其实可能还有这个，比如说有A的级别的加速和元数级别的加速，也会为整体的这个过程提供这个。
11:50
呃，提供这个效率增强的效果。呃，做完加速以后呢，这个就进入到推理阶段，因为做训练是为了做推理嘛，是吧，然后做推理的时候呢，其实我们在服务的一些厂商里面已经走到这一步了，就是可能走的比较快，已经开始去考虑这个商业化包装，去做推理的商业化产品化的事了，啊做到这一步以后呢，就非常重要啊，就千万别直接这个，因为一些这个内容内容不合规的问题啊，就直接被这个被被被叫去核查之类的，是吧，所以我们提供了这套这个内容审核的方案是吧，整体来讲这个流程也比较好理解，这个用户他首先在他的那个平台这个这这个这个AIGC这个产品的这个客户端，可能会输入一个就是说，诶请帮我干一个什么事。
12:35
首先用户输入的这段文字可能就得先得过审，因为这个文字可能本身它里面有一些就描述的是可能是不太好的一些东西是吧，所以说首先第一步他这个呃，Pro这一步可能就先得做一个text的input的一个这个审核，去看他这个药的这个说的这个话本身有没有问题，如果没问题的话，就往下推走到了这个呃模型，模型那个话就是大脑这里，然后大脑这里去基于他这个输入进行分析和理解切词，然后知道用户想要什么，把用户想要东西给回去，给回去之前呢，先要在就走到第三步是吧，就那个第二步第三步去这个第第三步，第三步产出产物还要再送回到我们的腾讯云的数据万象内容审核的这个，呃，中台这个这个服务端这里来对我们这个大模型推理产物进行一轮审核也没问题以后，哎，OK，那到四到五把这个东西直接给到这个用户手里，对其实这个是必必不可少的，就是可能这个。
13:30
别觉得麻烦，就是这个是很重要的一步，而我们其实在这里也早就已经未雨绸缪，我们的这个腾讯云存储的数据万象产品啊，提供了这个数据处理和数据审核服务，已经成功运营多年，这个在这个审核的这个能力和精准度上是嗯，在行业内领先的，对。呃，最后一步呢，就是说这个前面也提到，就是说这个产推理产物产生以后呢，他整体这个用这个东西的人可能是一个人，可能是一个公司，如果是后者的话，那可能就更加是需要有一些下游的环节，就是说我这个公司通过一个To B这个平台，我去，比如说基于一些业务上的要求，我去去去通过接口或者怎么样请求拿到一些推理产物，这东西是需要管理的是吧，这个怎么怎么怎么去称之为管理呢？就是我可能公司内部去把它存下来，做为一个知识库的一部分是吧，也有可能是说我这个东西拿回来以后，我要再向公司内部做一些分发和汇总，那可能呢，这个东西我们想了一下，在我们的解决方案里面推荐呢，用这个企业网盘这个东西啊，去作为这个最终这个环节的闭环，企业网盘这个东西，它其实是一个比较大家可能也都用啊，就是因为各个企业内部都会有这样的一个核心的这样一个SAS的一个办公软件，而腾讯云存储团队呢，也这个基于多基于多年的时间和经验啊，基于内部的一些这个推广流程，推广经验，然后有腾讯云企业网盘这样一款产品。
14:50
品啊，也提供这种，就是文件的多人的协作，然后文件的一对多，多对多，多对一的分发共享，提供文件备份，移动办公的能力，正好也在AIC场景，能为最后一个环节进行闭环，其实也正好发挥这个产品的作用，所以我们在与一些这个我们的这个甲方，这个使用者在沟通过程当中也是这个，呃嗯，很多我们的使用者会用它作为最终这个产物的管理的一个工具。
15:19
呃，大概是这样啊，然后那个有一些问题的话，因为这个其实这个这个话题还是挺挺挺重的啊，就是如果大家有一些问题，一会再嗯，一会后置的环节可以再问啊，然后最后一页呢，就是利用这个时间跟大家稍微再普及一下，或者称之为带带货，就是我们腾讯存储除了AITC场景之外还在做啥事，简单高度抽象啊，就是说我们在底层这里呢，呃，通过我们的引擎不断的升级在持续做，把成本做低，把性能做高，呃，同时把可用性、可靠性做好，对，这是我们底座层面要做的事，然后在我们产品能力这里啊，我们腾讯云存储整体有三大核心产品，中间这个是公有云存储，我们公有云上的存储的核心叫cos，就是我们的对象存储。
16:03
然后我们还有一个私有云存储的核心，要T到，就是我们把我们存储的技术可以灌到一个一体机里面，给一些私有属性的行业进行线下部署，对，还有一个是智能存储的核心，就是说用户数据这么多，不是为了存而存，是为了用而存，怎么帮助用户用好，我们提供了一个产品叫数据万象CI，帮助用户存到，把存到云上的数据进行一些处理，比如说图片的一些处这这这个这个这个这个打水印是吧，然后这个做一些转码是吧，包括刚才提到的审核是吧，这就是我们的数据智能，智能存储核心CI，基于这些呢，我们网上又孵化了很多pass级别的一些存储产品，比如说数据库存储，故FS企业网盘视图计算等等是吧，是为了跟我们的用户离得更近。呃，再往上呢，我们跟腾讯云的各个行业拉通啊，都有各个行业的适配的解决方案，然后服务于各个行业不同的使用场景，对大概是这样，然后也希望大家这个关注我们团队的产品，也希望这个有什么问题，咱们线上可以线下继续，呃，高度沟通，高频沟通是吧，好，谢谢大家。

展开

我来说两句

0 条评论

登录后参与评论

作者

Techo Day 小助手

Serverless数据湖存储在AIGC场景的架构与落地原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐