Flink Introduction

Hadoop开源社区新技术层出不穷,大家可能对Map/Reduce(YARN)/Spark很熟悉,最近又新增了一个Flink,也是大有来头。

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。

 从Flink官网得知,其具有如下主要特征:

1. 快速

Flink利用基于内存的数据流并将迭代处理算法深度集成到了系统的运行时中,这就

使得系统能够以极快的速度来处理数据密集型和迭代任务。

2. 可靠性和扩展性

  当服务器内存被耗尽时,Flink也能够很好的运行,这是因为Flink包含自己的内存管

理组件、序列化框架和类型推理引擎。

3. 表现力

  利用Java或者Scala语言能够编写出漂亮、类型安全和可为核心的代码,并能够在

集群上运行所写程序。开发者可以在无需额外处理就使用Java和Scala数据类型

4. 易用性

  在无需进行任何配置的情况下,Flink内置的优化器就能够以最高效的方式在各种环

境中执行程序。此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框

架Yarn上,

5. 完全兼容Hadoop

Flink支持所有的Hadoop所有的输入/输出格式和数据类型,这就使得开发者无需做

任何修改就能够利用Flink运行历史遗留的MapReduce操作。

接下来看下flink的架构:

Flink的主要特点是:

1、提供java/Scala支持批量和流式的API。

2、独有的优化器。

3、可以自定义的内存管理,不像SPARK/MR把内存管理丢给JVM。

今天简单介绍下flink的概要,下次研究下flink的内部优化器和内存管理机制,再分享下。更多的信息,大家可以登录官网看看http://flink.apache.org/。总的来说flink是 一个值得关注的框架。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2015-02-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏HansBug's Lab

算法模板——Dinic最小费用最大流

实现功能:输入M,N,S,T;接下来M行输入M条弧的信息(包括起点,终点,流量,单位费用);实现功能是求出以S为源点,T为汇点的网络最大流的最小费用 其实相当的...

2666
来自专栏C语言及其他语言

各种让人哭笑不能的代码注释

注释大家都会写,主要用来帮助程序员理解代码的意思,下面列举了几个真实的注释,如果是当您接手这样的项目看到这样的注释时,会做如何反应呢?笔者这里表示已经哭笑不得了...

3266
来自专栏42度空间

基于规则评分的密码强度检测算法分析及实现(JavaScript)

用正则表达式做用户密码强度的通过性判定,过于简单粗暴,不但用户体验差,而且用户帐号安全性也差。那么如何准确评价用户密码的强度,保护用户帐号安全呢?本文分析介绍了...

4446
来自专栏大数据

Hadoop/R 集成 I:流处理

原文地址:https://dzone.com/articles/hadoopr-integration-i

1262
来自专栏包子铺里聊IT

五分钟深入 Hadoop 输入优化

当面试公司问起 Hadoop 经验时,我们当然不能只停留在 Mapper 干了什么、Reducer 干了什么。没有 Performance Tuning 怎么...

2417
来自专栏点滴积累

geotrellis使用(十二)再记录一次惨痛的伪BUG调试经历(数据导入以及读取瓦片)

Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录 前言 BUG还原...

2594
来自专栏DHUtoBUAA

基于8211lib库对s57电子海图的解析和存储

  电子海图是为适用航海需要而绘制的包含海域地理信息和航海信息的一种数字化的专题地图,符合国际标准的电子海图数据统称为S-57电子海图。本文主要在S-57电子海...

3154
来自专栏数据科学与人工智能

【Python环境】为什么要选择Python语言实现机器学习算法?

基于以下三个原因,我们选择Python作为实现机器学习算法的编程语言:(1) Python的语法清晰;(2) 易于操作纯文本文件;(3) 使用广泛,存在大量的开...

1878
来自专栏人工智能头条

Meson:Netflix即将开源的机器学习工作流编排工具

1413
来自专栏叁金大数据

漫谈未来的HDFS

前面我们提到的HDFS,了解了HDFS的特性和架构。HDFS能够存储TB甚至PB规模的数据是有前提的,首先数据要以大文件为主,其次NameNode的内存要足够大...

1073

扫描关注云+社区