首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

由Dataflow模型聊Flink和Spark

Dataflow模型(或者说Beam模型)旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前,流处理常被认为是一种不可靠但低延迟的处理方式,需要配合类似于MapReduce的准确但高延迟的批处理框架才能得到一个可靠的结果,这就是著名的Lambda架构。这种架构给应用带来了很多的麻烦,例如引入多套组件导致系统的复杂性、可维护性提高。因此Lambda架构遭到很多开发者的炮轰,并试图设计一套统一批流的架构减少这种复杂性。Spark 1.X的Mirco-Batch模型就尝试从批处理的角度处理流数据,将不间断的流数据切分为一个个微小的批处理块,从而可以使用批处理的transform操作处理数据。还有Jay提出的Kappa架构,使用类似于Kafka的日志型消息存储作为中间件,从流处理的角度处理批处理。在工程师的不断努力和尝试下,Dataflow模型孕育而生。

02

【数据传输】进程内业务拆分的数据传输,可用于发布订阅或者传递通知。

又是两个月没有写博客了,也有一个月没有玩单片机做手工学习了;前几天在某个群里看到,有个群友说自己用了个内存队列用来保存某个task的数据,然后在某一处又使用死循环来判断内存队列的数据是否大于0,针对这个问题,才引发了这一边博客,哈哈,之前看到过有些人碰到这种场景是开线程使用死循环来进行数据传输处理。其实针对这个问题,while并不算是一个很好的解决方案,具体的还得结合场景去进行判断如何找到最优的解决方案,在本篇博客,我会罗列出我所已知和这个议题相关的几种方案,以及写了的部分代码。

02
领券