前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高性能存储与大模型融合创新相关研究

高性能存储与大模型融合创新相关研究

作者头像
云存储
发布2024-01-31 10:50:59
1340
发布2024-01-31 10:50:59
举报
文章被收录于专栏:腾讯云存储腾讯云存储

在2023年中国数据与存储峰会“AIGC+存储融合发展论坛”上,腾讯云存储高级产品经理熊建刚老师发表主题演讲,就高性能存储和大模型融合创新相关研究展开探讨,以及腾讯云存储的实践案例。

熊老师耕耘存储20年,在腾讯云从事云存储领域的高性能存储以及与大模型融合创新方面的研究工作,致力于推动云技术和人工智能的创新与发展。

如何将存储技术与人工智能、机器学习相结合,从数据存储、处理到智能分析,如何利用存储技术为AI应用提供高效、可扩展的基础,熊老师在演讲中提出了他的思考。

一、存储技术与人工智能相结合:为AI应用提供高效、可扩展的数据存储和处理基础

以ChatGPT为代表大模型的参数呈现指数级增长,已超越人脑神经网络数量。对应的算力有巨大的诉求,对存储产品提出更高诉求。

站在业务角度,把整个大模型分为以下几个主要阶段,1)数据注入,方式有多种,来满足大模型需要各种语料的注入;2)数据预处理,常见的批注,结构化的处理;3)训练和精调,一轮训练跑下来是比较费成本;4)推理,推理过程中需要对数据安全审核。

对存储产品主要有以下几个诉求,1)统一存储,一套存储能够支撑全流程处理,支持数据自由流动,避免等待数据、避免在不同的存储产品之间切换、避免来回拷贝数据;2)足够高性能,避免算力等待存储而导致浪费;3)内容审核,确保内容合规,AIGC内容审核尤为关键。

具体来看。采集环节,采用对象存储接口语义,直接注入数据湖。

预处理环节,访问方式比较灵活,HDFS语义,POSIX文件语义。数据量在百TB级,主要顺序大带宽的读和写。

训练环节,POSIX文件语义。有顺序的读、也有随机读,以及checkpoint写。GPU使用过程中,本身也有一定的不稳定因素,会导致整个训练过程中断,若中断后重新开始训练就是太浪费了,最常见的处理方式,是把过程结果以checkpoint方式写入到存储,一旦有中断、通过存储的checkpoint快速地回滚。

推理环节,POSIX文件语义。主要读,前面处理的模型数据有一定的结构化,可批量读入内存进行处理。

二、大模型对数据湖的挑战及实践

在过往多年的信息化建设中,构建以数据为中心的信息化系统;数据是有状态,计算是无状态,基于数据亲和性进行调度计算资源,逐步丰富成以数据为中心的数据湖。

随着大模型的发展,对数据湖诉求进一步加强。

第一,更高的可靠性和可用性,避免存储的故障到算力资源的浪费。

第二,更高的合规和安全诉求,以前讲的数据是核心资产,那么,大模型时代,模型参数就是核心资产的核心。花了那么多价钱训练出的模型,必须做到很好的保存。

第三,可随时随地访问,不论任何数据内容、任何数据格式、任何数据规模、来自任何地方,均可随时进入数据湖。大模型时代,会出现超大文件,不少客户的单体文件可达上几十TB。

同时,大模型对数据湖提出一些挑战。

其一,适配GPU算力动态供给;因为,GPU供货紧张,在哪个可用区申请到GPU资源,就需要在此可用区快速拉起业务,投喂数据,进行训练。

其二,对GPU算力来说,投喂数据的带宽是巨大的,需要快速供给大带宽,在完成训练任务会释放大带宽。直接在数据湖的构建大带宽显然不是最经济的做法。

其三,训练业务主要文件语义访问存储,而数据湖是无目录层次结构。

怎么解决这个问题呢?

第一,数据加速器,以单租户的形式部署,供给高并发高带宽读写性能,跟私有化的并行文件系统使用体验是完全一样,保证昂贵的GPU算力得到充分的存储资源的供给,不会因为存储资源的不给力或波动、导致算力资源的浪费。

第二,数据加速器按需供给,匹配GPU算力动态供给,比如在广州的三区,供给到一批GPU,分钟级拉起数据加速器;满足以算力为中心来供给存储资源,哪里有算力,有GPU卡,就在哪里供给数据加速器。

第三,数据加速器和数据湖实现按需数据流动,GPU将checkpoint实时写入数据加速器,可异步沉降到数据湖进行长久的保存或分发。数据加速器可对所有地域数据湖加速,实现GPU资源合理应用、整个云上资源全局的调度。

三、腾讯云实践分享

腾讯云面向大模型提供了一站式、全流程以及端到端的解决方案,加速大模型训练效率,将数据和算力有效融合。

一站式,是站在业务维度上,每个环节都需要存储的供给,都需要数据的处理,腾讯云提供一站式方案,从最初采集、到整个训练、到推理和审核,整个方案以云原生的方式供给算力和存储资源,按需使用。

端到端,从IT全链路全栈维度上,腾讯云提供存储、计算、网络端到端大模型解决方案:存储层,以对象存储COS为底座的数据湖,加速层,数据加速器GooseFS系列,计算层,TACO面向GPU的加速套件,网络层,面向大模型的加速网络;腾讯云端到端大模型解决方案,适配算力按需的供给,高速供给数据资源。

更多内容,欢迎您参考阅读原文中的专题视频讲解。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档