Flink Introduction

Hadoop开源社区新技术层出不穷,大家可能对Map/Reduce(YARN)/Spark很熟悉,最近又新增了一个Flink,也是大有来头。

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。

 从Flink官网得知,其具有如下主要特征:

1. 快速

Flink利用基于内存的数据流并将迭代处理算法深度集成到了系统的运行时中,这就

使得系统能够以极快的速度来处理数据密集型和迭代任务。

2. 可靠性和扩展性

  当服务器内存被耗尽时,Flink也能够很好的运行,这是因为Flink包含自己的内存管

理组件、序列化框架和类型推理引擎。

3. 表现力

  利用Java或者Scala语言能够编写出漂亮、类型安全和可为核心的代码,并能够在

集群上运行所写程序。开发者可以在无需额外处理就使用Java和Scala数据类型

4. 易用性

  在无需进行任何配置的情况下,Flink内置的优化器就能够以最高效的方式在各种环

境中执行程序。此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框

架Yarn上,

5. 完全兼容Hadoop

Flink支持所有的Hadoop所有的输入/输出格式和数据类型,这就使得开发者无需做

任何修改就能够利用Flink运行历史遗留的MapReduce操作。

接下来看下flink的架构:

Flink的主要特点是:

1、提供java/Scala支持批量和流式的API。

2、独有的优化器。

3、可以自定义的内存管理,不像SPARK/MR把内存管理丢给JVM。

今天简单介绍下flink的概要,下次研究下flink的内部优化器和内存管理机制,再分享下。更多的信息,大家可以登录官网看看http://flink.apache.org/。总的来说flink是 一个值得关注的框架。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2015-02-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Albert陈凯

spark on yarn的技术挑战

目前spark是一个非常流行的内存计算(或者迭代式计算,DAG计算)框架,在MapReduce因效率低下而被广为诟病的今天,spark的出现不禁让大家眼前一亮。...

2546
来自专栏Java技术

大型网站应用之海量数据和高并发解决方案总结一二

开发一个网站的应用程序,当用户规模比较小的时候,使用简单的:一台应用服务器+一台数据库服务器+一台文件服务器,这样的话完全可以解决一部分问题,也可以通过堆硬件的...

513
来自专栏WeTest质量开放平台团队的专栏

【长文干货】浅析分布式系统

我们常常会听说,某个互联网应用的服务器端系统多么牛逼,比如QQ、微信、淘宝。那么,一个互联网应用的服务器端系统,到底牛逼在什么地方?为什么海量的用户访问,会让一...

532
来自专栏逸鹏说道

浅谈web网站架构演变过程

前言   我们以javaweb为例,来搭建一个简单的电商系统,看看这个系统可以如何一步步演变。   该系统具备的功能: 用户模块:用户注册和管理 商品模块:商品...

1.6K60
来自专栏铭毅天下

Elasticsearch学习,请先看这一篇!

题记 Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨...

85714
来自专栏韩伟的专栏

浅析海量用户的分布式系统设计(1)

为什么海量的用户访问,会让一个服务器端系统变得更复杂?本文就是想从最基本的地方开始,探寻服务器端系统技术的基础概念。

30.7K6
来自专栏Spark学习技巧

金融反欺诈场景下的Spark实践

推荐阅读: 1,Spark Structured Streaming高级特性 2,Spark高级操作之json复杂和嵌套数据结构的操作一...

28310
来自专栏个人分享

HBASE解析

Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的...

641
来自专栏MongoDB中文社区

MongoDB 4.0 RC 版本强势登陆

MongoDB 因其灵活的文档模型、可扩展分布式设计广受开发者喜爱,在此基础上,MongoDB 4.0 推出了更强大的功能支持,目前4.0第一个RC版本已经发布...

942
来自专栏Java架构师学习

阿里P9架构师简述从单机至亿级流量大型网站系统架构的演进过程

阶段一、单机构建网站 网站的初期,我们经常会在单机上跑我们所有的程序和软件。此时我们使用一个容器,如tomcat、jetty、jboos,然后直接使用JSP/s...

4309

扫码关注云+社区