前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中国天眼携手浪潮存储:你站在宇宙的边缘,我依然收存了全部消息

中国天眼携手浪潮存储:你站在宇宙的边缘,我依然收存了全部消息

作者头像
IT创事记
发布2022-08-30 15:03:22
4300
发布2022-08-30 15:03:22
举报
文章被收录于专栏:IT创事记

世间最远的距离,不是我站在你面前,你不知道我爱你,而是你在137亿光年之外的宇宙边缘,我从未收到过你的消息。

中国天眼FAST(新华网图)

有了“灵敏到可在雷声中分辨出蝉鸣”的FAST——被称为“中国天眼”的500米口径球面射电望远镜,最遥远的电磁信号也能被接收,人类的洪荒之爱可以穿越回宇宙大爆炸的瞬间。

作为世界最大单口径射电望远镜,FAST在发现脉冲星、观测快速射电暴、探索暗物质和引力波等方面屡次刷新纪录。据统计,中国天眼已发现300余颗脉冲星,而从1967年发现第一颗脉冲星迄今,全球找到的脉冲星也有3000颗左右;《自然》杂志最新论文显示,FAST累计发现1652次快速射电暴,超过以往文献记载数量总和。

欲戴王冠,必承其重。在一片喝彩和惊叹声中,中国天眼也要面对海量数据的严峻考验:每秒采集的数据量最高可达38GB,每年新增数据可达10PB,灵活、可弹性扩展的数据基础设施成为其行稳致远的刚需。

在10月15日上海举办的2021第六届IDC数字化转型年度盛典上,由浪潮信息参与实施的“中国科学院国家天文台FAST数据中心方案”项目荣获“未来数字基础架构领军者”大奖。IDC表示,这个奖项用来表彰在基础架构方面具有特色和领先性的企业,获奖者在数据中心基础架构的弹性、效率上达到领先水平,对业界具有示范作用。

天文级海量科研数据的存储挑战

作为支撑国家科技创新的战略资源,科研数据正成为科学研究的生产要素和新型驱动力。科研人员需要利用大量数据的相关性、可取代因果关系等模型,获得新知识、谋求新发现。

从大数据分类的角度看,科研数据属于数据密集型范式,具有不可重复性、高度不确定性、非结构性等特征。这种范式对应的往往是数据量急剧上升的应用场景,对存储容量和性能的要求也水涨船高。

例如:地震勘探从二维向三维演进,数据量增加5~10倍;电影渲染从2K升级到8K,数据量大涨16倍;卫星测绘探测精准度由20米缩小到2米,数据量飙升70倍。行业数字化转型既创造巨大的市场机遇,又带来海量数据的极限挑战。

与类似场景相比,中国天眼面临的数据挑战堪称“天文级”。自2020年1月正式投入运营以来,FAST将源源不断产生的海量观测数据,通过高速网络传输至数据中心进行存储和处理,支撑相关科研工作。

据《IT创事记》了解:FAST每天产生的数据量大概在30~40TB,每年累积10~12PB数据。由于FAST数据再过十几年甚至几十年也可能有新的发现,因而这些原始数据不能删除,需长时间保存。预计FAST未来数据总量将达到EB级,对存储平台的容量需求持续增长。

按照数据生命周期的不同节点,FAST在数据采集、存储、分析、处理等环节,需要应对各种类型的难题。

在数据采集和存储阶段,FAST采用19波束接收机将巡天能力提高五六倍,视场也扩大19倍,但其产生的海量实时数据给科研团队带来前所未有的挑战。以前观测时每秒最多产生2G数据,现在的峰值数据每秒可达38G。

对海量原始数据进行处理和分析,难度级别更高。FAST捕捉到的原始数据,不能自动告知哪些是人类未知的天文现象,需要做复杂的技术处理,使之成为科研人员“看得懂”的数据,才能开展下一步的科学研究。

兼容并蓄的存储解决方案

显而易见,天文研究是典型的大数据应用场景,存储解决方案不仅要做到“大肚能容”海量数据,更要成为科学家开展研究的加速引擎。

早在2019年,FAST就与浪潮存储首度合作,采用高性能和高密度两种分布式存储产品。据中国科学院国家天文台FAST数据中心组组长黄梦林透露,中国天眼属于大型科学装置,对数据可控性和定制化服务要求较高,需要基础设施供应商给予研发级服务和长期技术支持。

经过层层筛选和考核,中国天眼最终选择浪潮存储作为合作伙伴。2020年3月,浪潮存储的工程师克服新冠疫情的冲击,仅用不到10天就在贵州完成FAST数据中心的部署任务。经过一年多的实际运行,浪潮存储的综合能力进一步得到验证。2021年,在中国天眼存储采购项目中,浪潮高密度分布式存储产品再次脱颖而出,助力FAST数据中心扩容。

从解决方案整体架构来看,浪潮存储基于超大规模分布式存储平台,在一个存储平台内部署高性能和高密度两种节点,提供53PB容量、100GB聚合带宽和AIOps智能管理,从多个维度助力中国天眼在宇宙未知领域不断探索。

超大的存储容量需求,遭遇有限的数据中心空间,是解决方案必须面对的首要矛盾。浪潮分布式存储采用高密度、高容量的设计方案,4U60 的高密度M系列单节点裸容量约1PB ,将机房空间占用率降低30%。基于智能统一存储管理平台InView ,在数百万文件构成的环境下,浪潮通过人工智能技术实现存储部署、运维、管理、调优的自动化,达成机房空间的高效利用和便捷运维。

在“装得下”数据的基础上,改善数据分析和处理能力,主要倚仗高性能存储产品的发力以及AI的加持。IDC咨询的数据显示,全球67%的高性能计算中心已在使用AI、大数据相关技术,为了从海量数据中更高效地挖掘数据价值,存储系统正在作出改变。

在FAST项目中,浪潮独创性地在一套分布式存储平台里,部署针对HPC和AI应用的H节点和面向高密度场景的M节点,采用Infiniband EDR 100G无阻塞传输通道,并基于iTurbo智能加速引擎实现冷热数据分级存储:以高性能节点提升天文大数据存储和分析效率,以高密度节点“海纳”天文级数据,借助智能IO均衡、资源调度、元数据管理等软件栈算法,让百万级IO均衡落盘且路径更短,从而实现数据在不同层级存储间自由流动,带来更畅快的科研体验。

值得关注的是,传统存储方案在系统运维中缺少精细化管理策略,仅对主机运行做管控,忽略作为存储最小物理单元的硬盘运维。浪潮存储构建统一资源存储管理平台,对存储系统进行集中管理、智能监测和故障预测报警,硬盘两周时间预测准确率可达95%以上。

多管齐下为中国天眼带来了全新的运维体验:从以前被动的事后抢修变成主动提前预测,有足够时间窗口对坏盘进行数据重构,让百PB级存储真正实现自动化、智能化运维。

据浪潮信息首席架构师叶毓睿介绍,中国天眼采用60余台高密度节点AS13000G5-M60,单节点容量接近1PB,OPEX节省65%。通过场景化定制,浪潮存储借助内核客户端优化、高速缓存等技术创新,全面提升天文大数据存储、处理和实时分析能力,为FAST提供了坚实的数据底座支撑。

分布式存储的星辰大海

据权威预测,到2025年全球数据将增长到175ZB,其中非结构化数据占比逾80%。分布式存储凭借高扩展性和易管理能力,正成为承载海量数据的重要选择。

Gartner同样看好分布式存储的发展潜力。在2020年全球外置存储市场中,存储阵列发货容量30ZB、销售额157亿美元,分布式存储发货容量13ZB、销售额33亿美元,后者的销售额只有前者的1/5——而到2024年,这一比例将大幅提升到1/3。

从市场驱动力的角度看,云计算、大数据、人工智能、区块链等新技术协同发展,油气勘探、基因测序、自动驾驶、天气预报、生物制药等与科研密切相关的复杂业务场景层出不穷,都为分布式存储的快速增长创造了良好条件,高容量、高性能、高智能将引领存储领域新一轮的变革。

中国天眼项目是科研行业向精细化、智能化方向演进的典型代表,“数据密集型”场景为分布式存储大展身手提供了舞台。浪潮存储将秉承“云存智用运筹新数据”理念,持续加大分布式存储技术研发投入与创新,赋能更多科研领域,加速行业数字化转型。

既然已经“看到”宇宙的边缘,未来的征途自然是星辰大海。目前,中国天眼的大数据挖掘尚处于初期阶段,观测数据会根据时效向高校、科研院所部分开放。中国天眼发现的大量脉冲星是星际旅行导航图的基石——存储未来的应用场景无远弗届,没有什么能够阻挡人类探索宇宙的脚步。🖋

作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。

关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT创事记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档