首页
学习
活动
专区
工具
TVP
发布

ThoughtWorks

专栏成员
914
文章
779708
阅读量
116
订阅数
分布式计算框架状态与容错的设计
对于一个分布式计算引擎(尤其是7*24小时不断运行的流处理系统)来说,由于机器故障、数据异常等原因导致作业失败的情况是时常发生的,因此一般的分布式计算引擎如Hadoop、Spark都会设计状态容错机制确保作业失败后能够恢复起来继续运行,而新一代的流处理系统Flink在这一点上更有着优秀而简约的设计。
ThoughtWorks
2021-04-16
4540
2015.5 技术雷达 | 平台篇
(点击图片可查看大图) Apache Spark(spark.apache.org)作为一种快速和通用的大规模数据处理引擎已取得稳步进展。该引擎基于Scala实现,非常适合于那些在多并行操作之间重用数据工作集的应用程序。它即可以作为一个独立集群,也可以作为Hadoop的YARN集群的一部分来工作。它可以从不同的源来访问数据,比如 HDFS,Cassandra,S3 等。不仅如此,Spark还提供了许多更高级的操作符,以便简化数据并行应用程序的开发。作为一种通用的数据处理平台,它使许多更高级别的工具的开发
ThoughtWorks
2018-04-20
1.2K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档