首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

TAP更新:中国臭氧近实时数据集上线

近年来,随着大气污染防治政策的施行,我国空气质量显著改善,PM2.5浓度快速下降。但与此同时,O3污染问题日渐突出,O3浓度和超标频率逐年上升,引起社会广泛关注。O3污染对于人体健康、生态环境及农业生产等均有不利影响。为了满足科学研究与空气质量管理等工作对近实时O3浓度数据的需求,在O3浓度历史数据集的基础上,TAP团队于近日上线了近实时更新的日最大8小时平均O3浓度数据集。该数据集基于多层级机器学习算法构建,将实时地面监测、近实时卫星遥感、近实时空气质量模型模拟以及近实时气象再分析资料等多源大数据相融合,实现了天尺度上的完整时空覆盖及业务化近实时更新。

02

sparkstreaming(1)——实战

在spark的一开篇(可以见我的spark(1)这篇博客),我们就谈到了sparkstreaming可以快速的处理数据流。 我们可以从sparkstreaming处理新的流式数据再传给sparksql进行计算,或者spark生态中的MLlib去进行数据的实时更新进行机器学习等。 类比于spark-core和sparksql,写sparkstreaming代码也要创建自己的上下文Streaming Context(通过spark context来获取streaming context,并且还要指定一个时间间隔),通过Streaming Context获取到的数据可以称为DStreams模型,如果一个Streaming Context已经开启,那么就不允许新的DStream建立,并且当Streaming Context停止以后,就不允许重新启动,DStreams模型是由一串连续的RDD构成,每个RDD都有前面定义的时间间隔内的数据,所以操作DStreams里的数据其实也是操作RDD。 处理DSream的逻辑一定要在开启Streaming Context之前写完,一旦开启就不能添加新的逻辑方式。

01
领券