据测算,数据存储约占大模型训练整体工程量的20-30%。随着更多AIGC的产生,这个比例还在继续提升。
今天,更适合大模型的云存储,来了!
腾讯云的最新云存储解决方案,主打三个关键点:
//更全面:覆盖大模型数据采集与清洗、模型训练、模型推理和内容治理等全流程的数据处理。
//更能打:大模型数据清洗和训练耗时缩短一半。
- 数据采集与清洗环节:
腾讯云对象存储COS,这个大存储桶(不用手动分区),单集群管理百 EB 级存储规模(全都能装下),支持多种协议(没有格式限制);
靠这几项绝活,稳健承载海量数据采集。
腾讯云自研数据加速器GooseFS,数据入湖、出湖以及处理过程中,把数据加载到离CPU更近的内存、本地盘,时延降低到百微秒,清洗效率提升1倍。
- 模型训练环节:
腾讯云高性能并行文件存储CFS Turbo,拥有四大核心技术,让GPU不会闲下来——
1、并行客户端:支持一个客户端同时和多个服务端通过N条链路传输,提升访问速率(好比仓库开了多扇门,客户自己从仓库取货);
2、智能缓存技术:读缓存加速重复数据的读取,写缓存提升checkpoint的保存速度(顾客常买物品,不用去仓库,直接打开前置仓(缓存)就能拿到);
3、自适应条带化:智能分片把大文件切割成小文件同时并发写入,提升吞吐(对于超大件,智能拆包分片运输并自动还原);
4、分布式元数据:对上亿级别文件目录分散处理,提升并发性能(类似图书馆的书籍查询处,支持多人同时查看,不用排队)。
在这些技术的支撑下,腾讯云CFS Turbo能提供业界第一的TiB/s级别总读写吞吐和百万OPS的每秒元数据性能,解决训练文件读写瓶颈。
以3TB大小的 Checkpoint 为例,写入能从10分钟瞬间缩短至10秒内。在GPU发生故障时,能大幅降低对训练时长的影响。
- 模型推理和内容治理环节:
腾讯云数据万象CI,针对大模型媒体生产、资源输出需要进行实时内容审核。
比如,通过图片隐式水印功能,为每个 AI 作品生成专属ID,让所有作品都“有迹可循”。
智能数据检索MetaInsight,提供对全媒体类型进行跨模态的检索能力,实现95%以上的召回率。
//全自研:业界首个实现存储引擎全面自研的云存储解决方案。
腾讯云对象存储COS底层基于自研分布式对象存储引擎YottaStore,实现超大规模服务、高可用、高可靠三者的统一。
腾讯云高性能并行文件存储CFS Turbo基于国内首个自研云原生并行文件存储引擎Histor,通过自研用户态协议栈和RDMA等技术以及自研并行文件传输协议,降低存储时延、提升吞吐性能,并支持多链路并行访问。
目前,80%的头部大模型企业选择了这套云存储解决方案,包括右脑科技、百川智能、智谱、元象等明星大模型企业。
此前,腾讯云已经推出了大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。
大模型将开创下一代云服务,我们也将继续为大模型加速落地,铺好路,架好桥。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。