StreamingPro支持Flink的流式计算了

前言

有的时候我们只要按条处理,追求实时性而非吞吐量的时候,类似Storm的模式就比较好了。Spark 在流式处理一直缺乏改进,而Flink在流式方面做得很棒,两者高层的API也是互相借鉴,容易形成统一的感官,所以决定让StreamingPro适配Flink,让其作为StreamingPro底层的流式引擎。

StreamingPro自身设计之初就是为了支持多引擎的,所以改造成本很低,昨天花了一下午,晚上加了会班就重构完了。这次增强可以让我司的流式引擎有了新的选择。

准备工作

下载安装包

为了跑起来,你需要下载一个flink的包,我用的是1.2.0版本的。

接着就是下载StreamingPro的 flink版本:

https://pan.baidu.com/s/1slCpxxV

启动flink

进入flink安装目录运行如下命令:

./bin/start-local.sh

之后写一个flink.json文件:

{
  "example": {
    "desc": "测试",
    "strategy": "flink",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "flink.sources",
        "params": [
          {
            "format": "socket",
            "port": "9000",
            "outputTable": "test"
          }
        ]
      },
      {
        "name": "flink.sql",
        "params": [
          {
            "sql": "select * from test",
            "outputTableName": "finalOutputTable"
          }
        ]
      },
      {
        "name": "flink.outputs",
        "params": [
          {
            "name":"jack",
            "format": "console",
            "inputTableName": "finalOutputTable"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

目前source 只支持 kafka/socket ,Sink则只支持console和csv。准备好这个文件你就可以提交任务了:

./bin/flink run  -c streaming.core.StreamingApp \ /Users/allwefantasy/streamingpro/streamingpro.flink-0.4.14-SNAPSHOT-online-1.2.0.jar 
-streaming.name god \
-streaming.platform flink_streaming \
-streaming.job.file.path file:///Users/allwefantasy/streamingpro/flink.json

然后皆可以了。

你也可以到localhost:8081 页面上提交你的任务。

WX20170321-104738@2x.png

后面的话

Flink目前在流式计算上对SQL支持有限,暂时还不支持Join,Agg等行为操作,这个和Spark相比较而言差距还比较大。不过我们很快会将Script暴露出来,可以让大家直接进行编程,主要利用其Table API。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

独家 | 一文读懂Hadoop(一):综述

随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发...

3868
来自专栏CSDN技术头条

自学大数据:用以生产环境的Hadoop版本比较

一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或...

2665
来自专栏about云

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

问题导读 1.什么是Kubernetes? 2.在Kubernetes集群尝试新功能,该如何实现? 3.观看群集上创建的Spark资源,该如何操作? 在开始...

4204
来自专栏Hadoop实操

如何为Hadoop集群选择正确的硬件

当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。

6845
来自专栏hadoop学习笔记

hadoop发行版本之间的区别

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache h...

1283
来自专栏大数据学习笔记

Hadoop基础教程-第10章 HBase:Hadoop数据库(10.1 NoSQL介绍)(草稿)

第10章 HBase:Hadoop数据库 10.1 NoSQL介绍 10.1.1 NoSQL简介 随着互联网技术(互联网+,物联网)发展,特别是大数据时代到来,...

2219
来自专栏DannyHoo的专栏

iOS开发中利用AVFoundation进行音频的录制和播放

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/...

1072
来自专栏张善友的专栏

一个免费的、跨平台的、开源音频编辑器Audacity

Audacity 是一个免费的开源程序,用于编辑音频录制。它可在多个平台(windows/linux)上运行。Audacity 基于 GUI,是一个具有多种选项...

2835
来自专栏北京马哥教育

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬...

4363
来自专栏加米谷大数据

大数据开发最火的核心技术-Kafka

大数据时代来临,如果你还不知道Kafka那你就真的out了!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP1...

1962

扫码关注云+社区

领取腾讯云代金券