上篇的内容,我们探讨了分布式计算中的MapReduce与批处理。所以本篇我们将继续探索分布式计算优化的相关细节,并且分析MapReduce与批处理的局限性,看看流式计算是否能给我们在分布式计算层面提供一个更好的解决方案。
MapReduce作业是独立于其他作业,输入与输出目录通过分布式存储系统串联。MapReduce作业的存在相互的依赖关系,前后相互依赖的作业需要将后面作业的输入目录配置为与之前作业的输出目录,工作流调度器必须在第一个作业完成后才开始第二个作业。
为了解决这些MapReduce的一些问题,新的计算引擎被提出,类似于Spark,Flink等。这些新的计算引擎有一个共同点:将整个处理流程作为一个大作业,而不是把它们分解成独立的子作业。通过几个处理阶段显式地处理数据流,所以这些系统称为数据流引擎。 计算部分与MapReduce类似,数据流引擎也通过调用用户定义函数来处理记录。并将输入进行分区,一个函数的输出可以成为下一个函数的输入。而与MapReduce不同的是,这些函数不必严格通过Map函数与Reduce函数进行交替运行,而是可以以更加灵活的方式进行组合。
相比起MapReduce模型,流式计算有如下几个优点:
数据流引擎可以实现与MapReduce引擎相同的计算模型,而且由于数据流引擎的优化工作,任务通常的执行速度会更快。
将中间状态写入分布式存储系统并非一无是处,这其实是MapReduce模型的容错机制:一旦一个任务失败了,可以在另一台机器上重新启动,再从分布式存储系统之中读取相同的输入。而流计算引擎避免了将中间状态写入分布式存储系统,而采用了一种新的容错机制:一旦运行机器出现故障,机器上的中间状态会丢失,它会重新计算丢失的中间状态。
当需要重新计算中间状态之后,最为重要的计算的确定性:给定相同的输入数据,最终要产生相同的输出结果。如果丢失的数据已经发送给下一阶段的计算函数,那么这个问题就变得复杂了。如果重新计算的数据和上一次计算的结果不一致,需要同样中止下一阶段的计算。所以通过重新计算数据,来进行容错会比较苛刻而且会产生额外的计算代价:计算是CPU密集型的,那么重新计算可能会付出更高的代价。
无论是MapReduce还是流计算引擎,都是在较为底层的角度对数据进行分析与处理。而在这种角度上建立起编程模型是十分费时费力的事情,所以我们开始关注计算抽象化的问题,通过在更高的层次抽象底层的计算模型来实现:改进编程模型,提高处理效率,以及扩大这些技术可以解决的问题。
所以更加高级语言和API开始流行起来,如Hive、Pig、Impala等,他们将手工编写MapReduce作业进行了简化,只需要编写少量的代码便可以完成相同的任务,并且能够转移到新的数据流执行引擎不需要重新编写代码。除了需要更少代码的明显优势外,这些高级API还允许交互式的使用,我们可以在shell中逐步地编写分析代码,这种开发风格在探索数据集和尝试处理数据的方法时非常有用。
偷懒了一下,写了一篇很简短的篇幅的小结..............下一篇将聊一聊类消息队列的数据系统。