前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >流式计算常见模块用法说明

流式计算常见模块用法说明

作者头像
用户2936994
发布2018-08-27 10:48:09
1.3K0
发布2018-08-27 10:48:09
举报
文章被收录于专栏:祝威廉祝威廉

说明

StreamingPro有非常多的模块可以直接在配置文件中使用,本文主要针对流式计算中涉及到的模块。

Kafka Compositor

代码语言:javascript
复制
{
   "name": "streaming.core.compositor.spark.streaming.source.KafkaStreamingCompositor",
   "params": [{
                 "topics":"your topic",
                 "metadata.broker.list":"brokers",
                 "auto.offset.reset": "smallest|largest"
             }]
}

参数说明:

Property Name

Meaning

topics

Kafka主题,可以多个,按 逗号分隔

metadata.broker.list

Kafka Broker地址

auto.offset.reset

重头消费还是从最新消费

MockInputStreamCompositor

模拟数据源,主要为了方便测试。

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.source.MockInputStreamCompositor",
        "params": [{
                      "batch-1":["1","2","3"],
                      "batch-2":["1","2","3"],
                      "batch-3":["1","2","3"],
                      "batch-4":["1","2","3"]
                  }]
}

MockInputStreamFromPathCompositor

模拟数据源,主要为了方便测试。可以接入一个外部文件作为mock数据

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.source.MockInputStreamFromPathCompositor",
        "params": [{"path":"file:///tmp/test.txt"}]
}

SingleColumnJSONCompositor

把一条日志转化一个单列的json文件。

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.SingleColumnJSONCompositor",
        "params": [{
            "name": "a"
          }]
}

params.name 则是列名,方便后续的sql使用。

ScalaMapToJSONCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.ScalaMapToJSONCompositor",
        "params": [{}]
}

可以把scala Map转化为JSon

JavaMapToJSONCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.JavaMapToJSONCompositor",
        "params": [{}]
}

可以把java Map转化为JSon

FlatJSONCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.FlatJSONCompositor",
        "params": [{"a":"$['store']['book'][0]['title']"}]
}

从JSON里抽取字段,映射到新的列名上。主要是对复杂JSON结构进行扁平化。语法参考该库JsonPath

NginxParserCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.NginxParserCompositor",
        "params": [{"time":0,"url":1}]
}

Nginx 日志解析工具,按位置给列进行命名。

SQLCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.SQLCompositor",
        "params": [
          {
            "sql": "select a, \"5\" as b from test",
            "outputTableName": "test2"
          }
        ]
      }

Property Name

Meaning

sql

sql 语句

outputTableName

输出的表名,方便后续的SQL语句可以衔接

SQLESOutputCompositor

将数据存储到ES中

代码语言:javascript
复制
{
        "name":"streaming.core.compositor.spark.streaming.output.SQLESOutputCompositor",
        "params":[
          {
            "es.nodes":"",
            "es.resource":"",
            "es.mapping.include":"",
            "timeFormat":"yyyyMMdd"
          }
        ]
}

Property Name

Meaning

es.nodes

节点,多个节点用逗号分隔

es.resource

索引名称以及类型名称

....

其他一些elasticsearch-hadoop的配置

SQLPrintOutputCompositor(output)

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.output.SQLPrintOutputCompositor",
        "params": [{}]
}

把处理结果打印到终端控制台。主要是为了调试使用

JSONTableCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.transformation.JSONTableCompositor",
        "params": [{
            "tableName": "test"
          }]
}

把字符串(JSON格式)的数据注册成一张表。 params.tableName可以让你指定表名。

ConsoleOutputCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.output.ConsoleOutputCompositor",
        "params": [{ }]
}

控制台打印,非SQL类。

SQLCSVOutputCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.output.SQLCSVOutputCompositor",
        "params": [{
  "path":"",
  "mode":""
 }]
}

Property Name

Meaning

path

cvs 存储路径

mode

ErrorIfExists 或者Overwrite 或者Append或者Ignore

作为CSV 输出,需要前面是一张表。

SQLParquetOutputCompositor

代码语言:javascript
复制
{
        "name": "streaming.core.compositor.spark.streaming.output.SQLParquetOutputCompositor",
        "params": [{
  "path":"",
  "mode":""
 }]
}

Property Name

Meaning

path

parquet 存储路径

mode

ErrorIfExists 或者Overwrite 或者Append或者Ignore

作为parquet 输出,需要前面是一张表。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016.07.12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 说明
  • Kafka Compositor
  • MockInputStreamCompositor
  • MockInputStreamFromPathCompositor
  • SingleColumnJSONCompositor
  • ScalaMapToJSONCompositor
  • JavaMapToJSONCompositor
  • FlatJSONCompositor
  • NginxParserCompositor
  • SQLCompositor
  • SQLESOutputCompositor
  • SQLPrintOutputCompositor(output)
  • JSONTableCompositor
  • ConsoleOutputCompositor
  • SQLCSVOutputCompositor
  • SQLParquetOutputCompositor
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档