一个常见的大数据场景是静态数据的批处理。在此场景中,源数据通过源应用程序本身或编排工作流加载到数据存储中。然后,数据由并行作业就地处理,并行作业也可以由编制工作流发起。在将转换后的结果加载到分析数据存储之前,处理过程可能包括多个迭代步骤,可以通过分析和报告组件查询分析数据存储。
例如,可以将web服务器上的日志复制到一个文件夹中,然后在夜间进行处理,生成web事件的每日报表。
批处理用于各种场景,从简单的数据转换到更完整的ETL (extract-transform-load)管道。在大数据环境中,批处理可能在非常大的数据集上运行,计算需要大量时间。(例如,参见Lambda架构)。批处理通常会导致进一步的交互探索,为机器学习提供可建模的数据,或者将数据写到数据存储中,以便优化分析和可视化。
批处理的一个例子是将一组大型的扁平、半结构化CSV或JSON文件转换为一种计划化和结构化的格式,以便进一步查询。通常,数据从用于摄取的原始格式(如CSV)转换为二进制格式,这种格式具有更好的查询性能,因为它们以列格式存储数据,并且通常提供关于数据的索引和内联统计信息。
批处理体系结构具有以下逻辑组件,如上图所示。
对于Azure中的批处理解决方案,推荐使用以下技术
数据存储
批处理
数据分析存储
数据UI展示
编排