Flink Introduction

Hadoop开源社区新技术层出不穷,大家可能对Map/Reduce(YARN)/Spark很熟悉,最近又新增了一个Flink,也是大有来头。

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。

 从Flink官网得知,其具有如下主要特征:

1. 快速

Flink利用基于内存的数据流并将迭代处理算法深度集成到了系统的运行时中,这就

使得系统能够以极快的速度来处理数据密集型和迭代任务。

2. 可靠性和扩展性

  当服务器内存被耗尽时,Flink也能够很好的运行,这是因为Flink包含自己的内存管

理组件、序列化框架和类型推理引擎。

3. 表现力

  利用Java或者Scala语言能够编写出漂亮、类型安全和可为核心的代码,并能够在

集群上运行所写程序。开发者可以在无需额外处理就使用Java和Scala数据类型

4. 易用性

  在无需进行任何配置的情况下,Flink内置的优化器就能够以最高效的方式在各种环

境中执行程序。此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框

架Yarn上,

5. 完全兼容Hadoop

Flink支持所有的Hadoop所有的输入/输出格式和数据类型,这就使得开发者无需做

任何修改就能够利用Flink运行历史遗留的MapReduce操作。

接下来看下flink的架构:

Flink的主要特点是:

1、提供java/Scala支持批量和流式的API。

2、独有的优化器。

3、可以自定义的内存管理,不像SPARK/MR把内存管理丢给JVM。

今天简单介绍下flink的概要,下次研究下flink的内部优化器和内存管理机制,再分享下。更多的信息,大家可以登录官网看看http://flink.apache.org/。总的来说flink是 一个值得关注的框架。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2015-02-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏蘑菇先生的技术笔记

浅谈分布式计算的开发与实现(一)

3307
来自专栏企鹅号快讯

大数据处理框架是怎样的原理

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后...

2127
来自专栏蓝天

大数据利器2018版

1653
来自专栏about云

学习Storm、Spark Streaming流式实时分布式计算系统的设计要点

阅读导读: 1.流式实时分布式计算系统有哪些共同特征,产生的背景是什么? 2.原语设计的有哪些要点? 3.元语设计中Spark、storm是如何设计的? 4.S...

49815
来自专栏CSDN技术头条

实时流处理系统的用例

本文阐述了为什么比起Hadoop之类的知名技术,类似Apache Storm这样的系统更加有用。 让我们以经典的笔记本品牌实时情感分析(SENTIMENT A...

2067
来自专栏蘑菇先生的技术笔记

浅谈分布式计算的开发与实现(一)

分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中...

822
来自专栏我是攻城师

2015 Bossie评选:最佳的10款开源大数据工具

34510
来自专栏java一日一条

Elasticsearch、MongoDB和Hadoop比较

IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术...

993
来自专栏蓝天

大数据利器

1373
来自专栏CSDN技术头条

Apache Spark的承诺及所面临的挑战

Spark并非完美无瑕,目前发展到了什么程度呢?我们来一起看看Spark的优劣之处吧。 可以读一读Panopoly带来的The Evolution of the...

19910

扫码关注云+社区