海洋大数据科学发展现状与展望

摘要

随着海洋观测、模拟手段的快速提升和数据科学的重大突破,现代海洋科学经历了理论牵引、技术驱动与 数据主导三大范式变革,海洋大数据已成为人类从认识海洋到经略海洋的必经之路。文章从海洋大数据的获取、 分析及应用,上、中、下游全链条分析了目前的发展现状,指出现今将海洋科学领域与数据科学领域紧密结合, 有效应对海洋发展中科学、技术、工程、人文等方面的挑战,是海洋科研领域的核心问题之一。在此基础上,提出了未来 5—10 年海洋大数据科学发展的主要方向和关键技术,对于准确掌握海洋状况、提升海洋预测服务能力、 维护国家海洋权益具有重要的现实意义和深远的战略意义。

现代海洋科学的发展古往今来经历了 3 个阶段:① 理论牵引阶段。该阶段的许多重大理论圆满地解释了海 洋中的物理现象,长足推进了人们对海洋的认识。虽然 该阶段缺少观测资料,但是发展的理论基本都具有里程 碑的意义。② 观测牵引阶段。该阶段各类观测手段逐渐 发展起来,主要包括海洋调查船、浮标、潜水器、遥感 以及 Argo 监测网等。③数据牵引阶段。随着观测技术 手段的不断丰富,也带来了数据量的不断攀升,海洋科 学迎来了第三阶段。从 2008 年开始,Nature、Science、 Economist 等杂志及 Computing Community Consortium (计算社区联盟)等组织将“大数据”引入到各个领 域[1-6]。“大数据”被定义为数据量增长速度快,用常 规的数据工具无法在一定时间内进行采集、处理、存 储和计算的数据集合,拥有数据量大(volume)、类型 繁多(variety)、价值密度低(value)、速度快时效高 (velocity)和在线式(online)五大特征[7,8]。由于海洋数 据的数据来源广泛、种类繁多,数据量已增至 PB 量级, 时间分辨率跨越不同尺度,同时需要及时处理分析用于 各类决策支撑,因此海洋数据已然成为“大数据”的典 范。

但是海洋大数据的独特性质,使得传统的理论基 础、技术手段已逐渐暴露其弊端。海洋大数据有两个区 别于其他数据的典型特征——时空耦合和地理关联。(1)时空耦合。海洋大数据为同时拥有时间与空间 属性的数据,即多维度数据。尤其随着观测技术的进一 步发展,数据维度的采集分辨率与频率都越来越高。因 此,数据分析过程需要同时从时间轴和空间轴两个维度 进行分析,而在时间轴和空间轴上分析的因素又是多样 的、高维的,这给大数据的分析带来了更大的挑战[9] ①。(2)地理关联。海洋大数据不同于其他大数据的随 机性与偶然性,由于其地理属性有着近邻效应,相邻区 域空间位置关系存在线性或非线性的关联,从而组成了 不同时空尺度的模态特征。 因此,在海洋大数据科学的发展过程中存在着诸多 挑战。本文将从海洋大数据上、中、下游全链条论述海 洋大数据科学的发展现状,并在此基础上提出未来 5—10 年海洋大数据科学发展的主要方向和关键技术。

1、海洋大数据获取现状

海洋大数据的获取手段主要得益于海洋观测技术的 发展。目前海洋观测呈现出多元化、立体化、实时化的 特征。从早期利用海洋调查船到浮标、潜水器、遥感的 使用,再到海洋观测网Argo 等的实现,无一不展现了人 类不断探索海洋的决心与智慧。

(1)海洋调查船。这是一类专门从事海洋科学调 查研究的船只,是搭载海洋仪器设备直接观测海洋、 采集样品和研究海洋的工具。海洋调查船按其调查任 务可分为综合调查船、专业调查船以及特种调查船[10]。 从世界上第一艘海洋调查船——“挑战者”号开始, 已有 100 多年的历史。中国第一艘海洋调查船——“金 星”号始于 1956 年,目前中国已有共近 50 艘海洋调查 船。目前,全球超过 40 个国家拥有海洋科考船,总数量 超过 500艘。

(2)海洋浮标。这是一类用于承载各类探测海洋和 大气传感器的海上平台,是海洋立体监测系统的重要组 成部分[10]。根据浮标在海上所处位置不同,可分为锚定 浮标、潜标、漂流浮标等。海洋锚定浮标最早出现于二 战期间;20 世纪 70 年代后期,随着计算机技术和卫星通 信技术在浮标应用中的出现,使得浮标技术发展进入了 飞跃期。海洋浮标在中国的开发研制始于 20 世纪 60 年代 中期,90 年代开始正式投入使用。目前,中国已经进入 了海洋浮标监测的大国俱乐部[11]。

(3)潜水器。又称为深潜器,是一种自带推动力的 海洋考察设备——既能在水面行驶,又能在水下独立开 展工作[10]。1554 年意大利人塔尔奇利亚发明的木质球形 潜水器,对后来潜水器的研制产生了巨大影响。1717 年 英国人哈雷设计了第一个有实用价值的潜水器,此后直 到 20 世纪 60 年代②,人类对潜水器的研制主要致力于下 潜深度的突破。“蛟龙”号是中国自行设计、自主集成 研制的深海载人潜水器,目前以下潜深度 7 062 m,成为 世界上下潜能力最深的作业型载人潜水器③。

(4)海洋遥感。该方法是利用传感器对海洋进行 远距离非接触观测,以获取海洋景观和海洋要素的图 像或数据资料;其发展历程大致可分为起步期(1939— 1969 年)、试验期(1970—1977 年)、研究期(1978— 1991 年)、应用期(1992 年至今)[12]。20 世纪 90 年代, 遥感卫星开始大量发射;截至 2012 年底,在轨卫星数量 为 115 颗,涉及超过 30 个空间机构[13,14]。预测到 2030 年 还会再有 156颗卫星发射,届时总数将达到 271颗。

(5)海洋观测网络。美国的 Seaweb 是世界上最早部署和应用的海洋观测网络;Argo 计划则是由美国海洋 科学家于 1998 年倡导发起的一个监测全球海洋的大型 网络,全世界几十个国家参与其中。截至 2018 年 7 月, 布放在全球海洋中仍处于工作状态的 Argo 剖面浮标已 达 3 762 个④。

未来,Argo 剖面浮标将增加到近 4 000 个; 在维持现有Argo 观测内容的基础上,新的Argo 浮标观测 范围将扩大到海面 2 000 m 以下甚至海底,同时携带安装 生物、地球、化学等新型传感器。在海洋大数据的获取方面,虽然已实现了基于空基- 天基-地基-海基的多元立体实时化发展,但是亟待突破深 海、极端环境和高分辨率的大数据获取技术及平台的发 展脉络,同时如何基于空间数据的时空耦合与地理关联 特性,面向空间研究对象合理布设、高效利用观测手段 成为数据获取阶段的挑战。

2 、海洋大数据分析技术现状

海洋大数据从上游获取后,在中游主要涉及存储管 理、挖掘及表达可视化等分析技术。

(1)海洋大数据存储管理。世界各主要海洋国家 均有负责数据处理和管理的海洋数据中心。美国国家 航空航天局(NASA)的地球观测中心建立了地球观测 系统数据和信息系统,存储和管理全部数据,采用的是 分布式开放的系统架构[15];欧洲航天局(ESA)也建立 了采取基于任务的分布式存储的数据中心[16]。中国目前 海洋卫星遥感数据的存储采用由千兆交换机连接构成 的 NAS (网络接入存储)三级存储体系,主要采用磁盘 阵列加光盘存储的方式[17]。国外的海洋大数据存储采用 了逻辑上集中,物理上分散的分布式服务器集群存储架 构;而国内的海洋大数据还属于地域上的集中式服务器 存储——随着数据量的增长,在线存储资源有限,难以 实现在线存储资源的动态扩展和灵活配置,离线数据获 取耗时,无法在线直接访问任意数据。

(2)海洋大数据挖掘分析。目前已有 MapReduce、 Storm、StreamBase、Pregel等先进的并行计算框架[18-20] ⑤, 且在各领域中得到广泛应用。海洋大数据在信息挖掘过 程中也从传统的经验模态正交法(EOF)发展到了具有 时空解耦特性的四维谐波提取法(4D-HEM)[21-24]。但是 由于海洋大数据的时空耦合及地理关联特性,导致传统 的数据挖掘算法无法有效地进行时空解耦与地理分解, 使得挖掘算法成为海洋大数据科学全链条运转环节中亟 待改进与调整的重要屏障[25]。

(3)海洋大数据表达可视化。利用科学可视化技术 展示海洋数据以及更进一步地利用可视化分析技术挖掘 时空数据规律,是建立从感知到认知的关键技术桥梁。 海洋矢量场可视化算法主要有图表法、几何法[26,27]、纹 理法[28]、拓扑法[29]等。标量场可视化算法在大规模体绘 制[30-32]、实时光照[33,34]、多变量提特征提取[32,35]、二维时 空可视化等方面都取得了重要成果[36-39]。但是随着海洋数 据体量的继续增大,对可视化表达方式、处理效能等方 面都提出了非常高的要求,需要一方面尽可能真实地反 映数据的特性,另一方面充分提供系统的承载能力和处 理能力,提高数据的更新和绘制能力。 纵观国内外海洋大数据的分析技术研究,中国在数 据存储管理及挖掘方面仍处于跟跑阶段,但在可视化分 析方面已实现并跑。

3、 海洋大数据应用现状

海洋大数据的应用主要为社会经济发展及气候预测 等提供决策支撑。目前,世界各国都在积极投入“数字 海洋”的建设,并为进一步建设“智慧海洋”平台奠定 基础,如美国和加拿大制定的“海王星”计划、日本的 “ARANA”计划、非洲沿海 25 国的“非洲近海资源数据和网络信息平台”以及中国的“iOcean”平台等⑥。

海 洋大数据在气候预警报决策支撑方面,主要是建立在高 性能集群基础上的完备数值预报体系[40]。例如:美国大 气海洋局(NOAA)计划在 2023 年推出 WoF(Warn-onForecast)系统。该系统可为美国及其临近海域提供精细 化天气预报和灾害预警——美国本土计算网格大小精细 至 3—10 km,全球区域内网格精细至 15 km;该系统的计 算需求高达 1 万亿亿次。

中国系列海洋卫星产品在赤潮/ 绿潮监测、海冰监测、渔业生产和水质调查等方面也得 到了全面的业务化应用。其中,HY-2 产品应用于中国与 欧盟的数值模式预报及多源融合产品中,而高分辨率海 面温度产品在马航失联客机海上搜救保障、极地大洋航 线中提供了重要的支撑保障[17]。

目前,海洋相关行业都在积极推动海洋大数据在行 业中的应用,关注海洋科学领域的新发现和新发明,并 推动产业化落地。然而,行业应用在大数据转型中毕竟 是个新形态、新过程,可以借鉴和参考的经验不多,海 洋大数据应用的行业落地过程还有不少问题需要解决。 随着大数据相关技术的研究不断取得突破,传统行业如 何重新审视自己的发展战略,积极拓展行业内部(上、 下游)之间、行业之间的数据更好地融合与利用是海洋 大数据应用中的一项挑战。

4 、未来发展方向

围绕国家海洋发展战略,明确未来 5—10 年海洋大 数据科学发展的方向,确定海洋科学领域应用大数据的 关键技术瓶颈,提出推进海洋数据科学发展的关键步骤 和重点支持领域,实现海洋数据从“数据大”困境到 “大数据”时代的战略性转变。

(1)研究海洋科学与数据科学融合发展的主要方向 与理论。分析海洋大数据的特点,结合海洋科学各领域 的发展现状和趋势,探索海洋科学与数据科学融合发展 的核心问题,明确未来 5—10 年海洋数据科学的重点发 展方向;以海洋科研需求推动数据科研体系发展,建立 有效推动海洋科研的数据驱动方法。

(2)探索支撑海洋大数据发展的重点观测和探测 计划。根据海洋科学发展的历史和现状、结合海洋科学 发展趋势与国家海洋战略发展需求,分析研究支撑未 来 5—10 年海洋大数据发展的重点观测和探测区域,从 海、陆、空、天、时 5 个维度深入探索形成海洋大数据 的关键基础和能力。

(3)研究适应大数据特点的海洋科学和信息科学 发展趋势。针对海洋科学的综合与交叉学科特性,分析 海洋大数据在物理、化学、生物、地质等主要海洋学科 发展过程中的作用和影响,探索海洋大数据与各学科交 叉融合过程中的关键技术瓶颈,以及云存储、物联网、 人工智能、泛在计算、交互可视、混合现实等前沿信息 技术在海洋中的应用前景,为构建面向现代海洋科学的 大数据分析学理论与大数据海洋学知识发现体系提供指 导。

(4)研究海洋大数据的共享机制和协同创新平台建 设需求。根据“海洋强国”“一带一路”“海陆统筹” 和“军民融合”等国家战略,以及经济社会发展对海洋 科学各领域的具体需求,分析海洋大数据的共享机制, 研究建设海洋大数据协同创新平台的关键技术和建设规 划,形成产、学、研、用的有机融合。

(5)探索应用海洋大数据的新兴产业发展趋势与 科技需求。以大数据感知、计算、信息产品三大类数据 服务为基础,围绕海洋科学、海洋健康与生物多样性、 全球气候变化、海洋水产品食物安全、海洋污染与人类 健康、海洋灾难与海事安全、蓝色经济等各个领域的需 求,分析应用海洋大数据的新兴产业发展趋势,推进海 洋科技与蓝色经济的深度融合。

结 语

海洋大数据时代的到来,机遇与挑战并存。国际 社会已经认识到海洋大数据科学对于人类社会发展的重 要性,世界各国也意识到海洋大数据科学对国家核心竞 争力的提升具有重要标志性意义。海洋大数据科学应从 上、中、下游逐步攻坚克难,真正将其发展成为保障 “海洋强国”“一带一路”“海陆统筹”和“军民融 合”等国家战略实施的重要支撑,以及维护中国国家与 人民利益的重要保障。

参考文献略

来源:《中国科学院院刊》 2018年第8期 专刊:科学大数据国家发展战略

智汇海洋定位于中国海洋智库核心媒体,整合推送海洋资讯、传播海洋学术成果。

免责声明:本文不代表本公众号的观点和立场,信息来源于已公开的资讯,仅代表作者个人观点,与本公众号无关,仅供读者参考,并请自行核实相关内容。版权归原作者和媒体所有,如涉及版权问题,请在公众号留言,确认后立即删除内容。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180830B0XBYT00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券