趁着京城大雨,聊一聊气象大数据

智慧城市,

一直是大数据及人工智能产业的热门话题。

但北京的这场大雨,

似乎提醒了我们这座城市还不够智能

开启

“开海模式”

开车到不了公司,游着去啊。

很显然,北京排水系统的规划、气象系统的预警、防汛应急的措施显然还有值得改善的地方,而这些问题作为城市运行的重要组成部分,也理应纳入“智慧城市”的统筹建设当中,而当今大部分市面上的“智慧城市”的大数据及人工智能应用显然将这些问题给遗漏了!

今天柏睿君为大家科普一下气象大数据方面的知识,因为柏睿数据大数据实时分析平台所运用的全内存分布式计算流数据处理技术会对气象实况数据的实时分析与模式数据计算处理有很强的匹配性。

气象数据一贯以庞杂众多数据量大而著称,但无论气象数据多么复杂,总体可以分为两类:一类数据被称为“实况数据”,一类被称为“模式数据”。

简单来说,实况数据属于“一般过去时数据”,来自不同的观测设备。采集实况数据的气象站点遍布全球,观测范围从几千米的高空到地面,观测手段从高科技的雷达卫星到最原始的人工观测,这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化,而这些宝贵的数据也可以称之为天气预报之源。

模式数据与实况数据相比,可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量也是十分惊人的!

天气预报之源——实况数据

实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。

那么,实况数据是如何采集的呢?

很多年前,实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等,并通过打电话、发电报等方式将全国观测数据进行汇总。到今天为止,仍有很多发展中国家采用这种采集传输方式。

而随着科技的发展,在计算机、电子和通信技术高度发达的今天,实况数据的采集和传输技术也有了天翻地覆的变化。所有实况数据的采集和传输几乎都可以通过自动化完成,仅有少数几个项目需要人工参与,比如地面能见度观测、施放探空气球、卫星轨道控制等。

气象监测站

目前,在气象观测站中温度、湿度、气压、风向、风速等物理量均由电子控制的机械设备完成,这些观测站配有嵌入式芯片,芯片上有一个精确的时钟,可以准时地周期性工作,例如在整点每隔5分钟、10分钟或1小时自动采集周围的环境数据,并自动将采集的气象数据编码为二进制数据流,发送到数据库中。截至2015年年底,我国大约有50000多个这样的地面观测站,所有观测站均为自动站。

由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。

气象大数据之魂——模式数据

模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为,有这样一套庞大的计算天气预报的程序,输入当前已知的天气现象,就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”,而这个庞大的计算机程序就被称作“模式系统”。

所有的发达国家都有自己的一套用来演算天气情况的模式系统,模式系统一般每天计算2~4次,通常在整点开始,利用整点前采集到的实况数据进行计算,每次计算要生成大概几百个物理量,包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据,预报时效通常间隔3小时。目前气象网格经纬度间距一般在0.25度数量级,一个网格文件大小通常在1~2兆,包含几十万个浮点数值。

当模式的预报时效越长,时效间隔越密,网格点间距越小,网格点数值和未来实况差异越小,就证明该模式系统性能越好,该国气象水平越发达。由于模式预测的物理量多,每天还要多次起报,预报时效密集,模式种类繁多,模式数据必须至少存储一星期等要求,因此,在气象数据中,无论从数据个数还是数据存储量来说,模式数据是比重最大的“大数据”。

气象数据如何传输

看完“实况数据”和“模式数据”的介绍,有没有觉得气象数据量大浩如烟海,这么多的数据都要一一传送到预报员手里,又需要多长时间呢?一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。也就是说,如果某地出现降雨天气,只要仪器能观测到,几分钟后位于气象台的预报员就会知道。

相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。

这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。

在我国,国家气象信息中心通信台承担着数据传输和分发的枢纽作用。接收的数据包含来自各省的地面、高空、雷达数据、卫星数据、中国模式系统输出结果的数据以及其他国家的观测数据和模式数据。同时,还承担数据的发送功能,每天将各种观测数据和模式数据通过地面网络或通信卫星收发系统传送给31个省市区气象台和其他国家。

省一级的气象台只负责将本省的观测数据发送至国家气象信息中心,不进行其他数据的传送,同时接收来自国家气象信息中心分发的其他省的数据或各国模式系统数据。一般来说,由于国家到省级的网络传输需要较长时间,因此,国家级预报员在时间上将先于省级预报员查看到最新的气象数据。

预报员如何接收气象数据

解释完了数据是怎么进行传输和接收的,最后一个问题,一个个数据又是如何出现在预报员的计算机中?这其实是一套先进、复杂的大数据处理系统。

数据到达通信台后,首先兵分两路,地面、高空站点实况报文数据被转发至解报计算机,完成对于BUFR编码的解码,提取出报文中的站号、物理量值等信息,写入一个关系型数据库中作为缓存,然后通过每隔几分钟的定时作业,将同一观测时刻全部站点的物理量信息从关系型数据库中提取出来,制作为一个全国全部站点观测文件,写入到一个专供预报员客户端软件访问的高速存储服务器中。

另外一路数据包括模式数据、卫星、雷达数据,这一类数据本身不是报文,不需要像站点实况数据那样先拼接再写入的过程,因此,通信台直接将这些数据发送给高速解析服务器,完成类似GRIB解码、卫星通道拆分等操作,解码后的结果一般是一些更小更多的文件,直接写入到和存储全国站点观测文件相同的高速存储服务器中,供预报员客户端软件访问。所有数据的解报、解码时间一般几秒钟即可完成。

聊了这么多,

最后向北京大雨中的交警们致敬!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180717A1C1YU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券