有奖征文|投稿上云技术实践,赢取价值5000元大奖> HOT

SQL 作业的上下游数据介绍

  • 数据源(Source)指的是输入流计算系统的上游数据来源。在当前的流计算 Oceanus SQL 模式的作业中,数据源可以是消息队列 Kafka、数据库 MySQL 等。
  • 数据目的(Sink)指的是流计算系统输出处理结果的目的地。在当前的流计算 Oceanus SQL 模式的作业中,数据目的可以是消息队列 Kafka、数据库 MySQL、数据分析引擎 Elasticsearch Service 等。
  • 用户也可以上传自定义的 Connector 程序包,以支持更多的数据源和数据目的。

对于本文提到的各项概念,例如 Tuple 数据目的和 Upsert 数据目的的区别,请参见 词汇表

产品名 作为流数据源 作为批数据源 作为维表 作为 Append 数据目的 作为 Upsert 数据目的
消息队列 Kafka 支持 - - 支持 -
消息队列 Upsert Kafka 支持 - - 支持 支持
消息队列 CMQ 支持 - - 支持 -
消息队列 TDMQ RabbitMQ - - - 支持 -
数据库 MySQL CDC 支持 - - - -
数据库 TDSQL 支持 - - - -
数据库 Redis - - 支持(Flink-1.11) 支持 支持
数据库 MongoDB CDC 支持 - - - -
数据库 MongoDB - - - 支持 -
数据库 PostgreSQL CDC 支持(9.6及以上版本) - - - -
云数据仓库 PostgreSQL - 支持 支持 支持 支持
数据仓库 Hbase - 支持 支持 支持 支持
数据仓库 Doris - - - 支持 支持
数据仓库 Hive 支持 - 支持 支持 -
数据仓库 ClickHouse - 支持 支持 支持 支持
数据仓库 Kudu - 支持 - 支持 支持
数据分析引擎 Elasticsearch Service - - - 支持 支持
日志消费 CLS 支持 - - - -
Oracle(JDBC) - 支持 支持 支持 支持
Filesystem(HDFS/COS) 支持 支持 - 支持 -
数据湖 Iceberg 支持 支持 - 支持 支持
数据湖 Hudi 支持 支持 - 支持 支持
注意:

  • 云数据仓库 PostgreSQL(简称 CDWPG)由于底层所用的 PostgreSQL 版本较低(当前为9.4版本),目前不支持作为 Upsert 数据目的。如果希望写入 Upsert 数据流,请使用云数据库 PostgreSQL 9.5 及以上版本。
  • Elasticsearch 支持 6.x 版本和 7.x 版本,不支持 5.x 版本。

关于 SQL 作业的 Source 和 Sink 的开发和使用方式,可参见 上下游开发指南

JAR 作业的上下游数据介绍

独享集群的 VPC 与用户指定的 VPC 建立互通关系后,JAR 模式的作业即可访问用户特定 VPC 下的所有网络可达的资源,不仅支持上述 SQL 作业支持的上下游,还可以使用该 VPC 下的各项腾讯云服务,例如消息队列、数据库、API 服务、云服务器 CVM 等。

此外,还可以在这个特定 VPC 下购买 NAT 网关,并配置路由表,以访问外部的互联网地址(例如公网上的 API、外部自建的服务等),进一步增强流计算作业的处理能力。

关于 JAR 作业的 Source 和 Sink 的开发和使用方式,可参见 Flink 官方文档的 DataStream Connectors