首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Flink 实践教程:入门(1):零基础用户实现简单 Flink 任务

Flink 实践教程:入门(1):零基础用户实现简单 Flink 任务

作者头像
腾讯云大数据
发布2021-11-01 10:10:21
3580
发布2021-11-01 10:10:21
举报
文章被收录于专栏:腾讯云大数据腾讯云大数据

作者:腾讯云流计算 Oceanus 团队

流计算 Oceanus 简介

流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。

流计算 Oceanus 提供了便捷的控制台环境,方便用户编写 SQL 分析语句、ETL 作业或者上传运行自定义 JAR 包,支持作业运维管理。

本文将为您详细介绍如何使用 datagen 和 blackhole 连接器随机产生和存储数据。

前置准备

创建流计算 Oceanus 集群

进入流计算 Oceanus 控制台(https://console.cloud.tencent.com/oceanus/overview),点击左侧【集群管理】,点击左上方【创建集群】,具体可参考流计算 Oceanus 官方文档创建独享集群(https://cloud.tencent.com/document/product/849/48298)。

流计算 Oceanus 作业
1. 创建 Source
-- Datagen Connector 可以随机生成数据。Datagen Connector 适合用做测试数据源。
-- 参见 https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/dev/table/connectors/datagen.html

CREATE TABLE random_source ( 
  user_id INT,
  item_id INT,
  category_id INT,
  behavior VARCHAR
  ) WITH ( 
  'connector' = 'datagen',
  'rows-per-second' = '1',              -- 每秒产生的数据条数
  'fields.user_id.kind' = 'sequence',   -- 有界序列(结束后自动停止输出)
  'fields.user_id.start' = '1',         -- 序列的起始值
  'fields.user_id.end' = '10000',       -- 序列的终止值
  'fields.item_id.kind' = 'random',     -- 无界的随机数
  'fields.item_id.min' = '1',           -- 随机数的最小值
  'fields.item_id.max' = '1000',        -- 随机数的最大值
  'fields.category_id.kind' = 'random', -- 无界的随机数
  'fields.category_id.min' = '1',       -- 随机数的最小值
  'fields.category_id.max' = '1000',    -- 随机数的最大值
  'fields.behavior.length' = '5'        -- 随机字符串的长度
);
2. 创建 Sink
-- 输入到 Blackhole Sink 的数据, 会被全部丢弃。Blackhole Sink 适合做性能测试。
-- 参见 https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/connectors/table/blackhole/

CREATE TABLE blackhole_sink (
  user_id INT,
  item_id INT,
  category_id INT,
  behavior VARCHAR
) WITH ('connector' = 'blackhole');
3. 编写业务 SQL
INSERT INTO blackhole_sink
(
    SELECT user_id,
    item_id,
    category_id,
    behavior
    FROM random_source
);
4. 发布运行

点击工具栏【语法检查】进行 SQL 语法检查,检查无误后点击【保存】>【发布草稿】运行作业。

总结

Datagen Connector 连接器是一款用于生成随机数据的 Connector,一般作为测试使用。 Sink 到 Blackhole 的数据会被丢弃,用户无法查询到其中的数据,此连接器一般用于于性能测试。 

点击文末「阅读原文」,了解腾讯云流计算 Oceanus 更多信息~

腾讯云大数据

长按二维码 关注我们

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 作者:腾讯云流计算 Oceanus 团队
  • 流计算 Oceanus 简介
    • 流计算 Oceanus 作业
      • 1. 创建 Source
        • 2. 创建 Sink
          • 3. 编写业务 SQL
            • 4. 发布运行
            相关产品与服务
            大数据
            全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档