生成式AI(AIGC)开启了人工智能通用化的新纪元,围绕大模型的百舸争流蔚为壮观,算力基础设施是首要的竞逐焦点,而存力觉醒也日益成为业界共识。
在新的时代,大模型从单模态走向多模态,参数和训练数据集的规模呈几何级数增长,海量的非结构化数据需要高性能混合负载能力的支撑;与此同时,数据密集型范式大行其道,超算、高性能计算(HPC)等应用场景迈向纵深,既有的数据存储基座已难以满足不断升级的需求。
如果说算力、算法、数据是驱动人工智能发展的“三驾马车”,那么在外部环境发生巨大变化的背景下,三者亟需重新达成动态的平衡。算法模型完善带来的“软实力”提升,算力供给优化引发的“硬实力”增强,需要得到进一步的加持——数据传输的“运力”和数据存储的“存力”即是尚待改进的动力源,新型的数据存储基座将在应对诸多挑战的过程中破茧成蝶。
需求复杂且持续进化的应用场景,是数据存储新基座最好的试金石。从这个意义上讲,教科研行业就是其中的典型代表:算力与数据是该领域数字化转型的关键要素,学科融合的科研计算与基于数据的决策支撑同等重要。从HPC迈向HPDA(高性能数据分析)是改善教学及科研效率的一大步,而AI的赋能则有助于解决过往算不了、算不准、算不动的难题。
在近日举办的2023世界人工智能大会上,华为OceanStor Pacific分布式存储助力上海交通大学构建的HPC+AI存力底座正式上线,“交我算”统一数据基座将在今年再扩充25PB,其有望成为教科研数字化、智能化转型的新标杆,也为数据存储新基座的探索之旅树立了一座里程碑。
数据与算力的关系演变与衍生挑战
伴随千行百业的数字化转型进入深水区,以及人工智能、大数据等新兴技术的协同爆发,数据与算力的关系正在发生微妙的变化。
教科研领域身处数字经济的风口浪尖,对这一变化颇为敏感。过去,数据必须跟着算力跑。为了应对复杂科学和工程问题的快速数值求解,教科研界在很长一段时间里更多关注如何打造最强大的算力,而数据仅作为算力的配套设施来考虑。
如今,“算力围着数据转”逐渐成为新的趋势。新兴应用的涌现、数据体量的膨胀、数据安全问题的凸显,让数据本身的价值备受重视。基于AI、大数据等技术的突破,传统超算正向数据密集型超算演变,多元异构算力需要围绕同一个数据存储基座进行构建。
上海交通大学网络信息中心副主任林新华认为,数据与算力的主导权发生逆转,既是建设数据密集型超算平台的契机,也给统一数据存储基座的构建带来不少新的挑战。
首先是数据爆发式增长,对存储容量的需求显著提高。据统计,“交我算”平台的数据规模增长幅度达到每年7PB,气象海洋、能源勘探、卫星遥感、基因测序、冷冻电镜、AI自动驾驶、制造CAE、动画渲染等应用场景的数据量都达到PB级,用一套数据基础设施容纳如此庞大的数据量殊为不易。
其次是新业务不断涌现,对存储性能要求更高。AI通用化进程的提速,特别是大模型、多模态的批量输出,对IO性能构成严峻挑战。在百TB级数据集成为常态的情况下,自然语言处理、多模态应用加剧了数据量的增速,小文件训练数据集的高效访问更要求存储性能再上新台阶。
再次,跨校区多集群存储共用,数据在异构集群间的流动可能造成数据丢失、运行缓慢等问题。“交我算”平台提供多种异构算力,拥有ARM集群、X86集群以及AI集群等。在众多集群中,只有做到全数据流动和数据融合,才能释放算力和数据的最大价值。
最后,传统AI本地盘训练,伴随高并发数据分析,打破IO墙迫在眉睫。数据多次搬迁过程中的IO瓶颈非常突出——传统的读写流程冗长,加载数据涉及三次数据搬迁,checkpoint也有两次数据搬迁,其间产生的效率损失不容忽视。
分布式存储统一融合数据基座的突围路径
为了应对上述挑战,自2019年起,上海交通大学与华为存储展开深度合作,共同打造“交我算”数据密集型超算平台。依托在技术和应用创新方面的深厚积累,华为OceanStor Pacific分布式存储产品助力“交我算”建设统一数据基座,支撑起全校多种异构算力平台。
构建分布式统一融合数据基座,是“交我算”拥抱新兴数据应用的必由之路。基于横向扩展分布式存储架构,“交我算”平台的存储容量和带宽可按需扩展。一是性能容量线性增长,单集群可达EB级容量;二是借助高密大容量硬件,节省机柜空间;三是采用大比例EC,以场景化压缩提升磁盘利用率。
据了解,“交我算”平台从初始的2PB容量、6GB/s带宽,到2020年增至20PB容量、60GB/s带宽,2022年又扩容至40PB容量、120GB/s带宽,预计2023年容量将再扩充25PB。与此同时,华为OceanStor Pacific分布式存储拥有5U 120盘位的超高密设计,结合超大比例EC数据冗余保护算法,在满足高可靠性的基础上将硬盘空间利用率提升至91.6%。
分布式全闪硬件加持是“交我算”应对存储性能难题的基石。在华为OceanStor Pacific的助力下,“交我算”平台采用全闪硬件加速,显著提升带宽与IOPS性能,每节点80万IOPS、带宽20GB/S能够满足混合负载条件下的高性能要求。
全局分布式存储跨校区统一管理是“交我算”解决多集群存储共用难题的良方。通过采用全局文件系统跨域多套存储管理的方式,“交我算”平台构建起跨校区的统一数据基座,在华为OceanStor Pacific分布式存储产品的支撑下,达成全局文件视图、数据管理与调度、全域数据流动、统一流式元数据等多重目标。
数据分析加速、多种协议访问无损互通、免搬迁高效用是“交我算”打破IO墙的利器。基于华为面向AI的存储方案,以及华为OceanStor Pacific分布式存储“一份数据,多种协议访问”的能力,“交我算”平台实现外置存储减少数据搬迁,并大幅提升分析效率、节省存储空间。
大模型时代HPDA+AI的未来图景
透过“交我算”平台携手华为存储打造分布式统一融合数据新基座的演变轨迹,不难看出数据密集型场景正在加速进化。
从早期的HPC到后来的HPDA,再到HPDA+AI的比翼齐飞,教科研行业的应用场景不断丰富,对存储产品和数据基座的需求也持续跃迁。事实上,教科研只是千行百业数字化进程的冰山一角,数据存储的大时代已呼啸而来。
大模型时代的到来,将进一步重塑包括存力在内的IT基础设施,带有崭新AI基因的存储产品有望成为行业数字化升级的新宠。7月14日,主题为“数据新范式 释放AI新动能”的大模型时代华为AI存储新品发布会将在线举行。无论您正在企业内部署AI,还是让开发的应用具备AI能力,此次发布的方案都将提供更优的技术架构与产品,帮您踏准时代的节拍。
人工智能通用化的大幕已经开启,存储行业的领头羊率先吹响了冲锋的号角,后面的每一个乐章都值得期待。
领取专属 10元无门槛券
私享最新 技术干货