词汇表

最近更新时间:2019-11-15 17:46:20

C D E G J L P S T U W Z

C

CU

参见 计算资源

D

独享集群

独享集群是用户自己创建,由系统独立部署在一个专属的 VPC 中,和其他租户完全隔离的独立计算集群,单个用户独享集群内的物理资源,具有极高的安全性,只有独享集群才能支持提交 JAR 作业。

E

Event Time

Event Time 时间模式下,时间戳由输入数据的某个字段提供,可以用 WATERMARK FOR 语句指定该字段并启用 Event Time 时间模式,适用于数据源包含精确时间戳的场合。

G

共享集群

共享集群由系统管理,用户不用关注它的创建和管理维护,多个用户共享集群内的物理资源 ,目前不支持 JAR 作业的提交。

J

计算资源

流计算所提供计算资源的最小单位,1CU 的具体含义为:CPU 1核、内存 4GB。计费的标准即是用户实际的 CU 使用量。

L

流计算

流计算是面向流式数据的计算,它从一个或多个流式数据源读取持续不断产生的数据,经过作业中多个算子的组合进行高效计算,再根据实际需要,将结果输出至下游的多种数据目的,如消息队列、数据库、数据仓库、存储服务等。

流连接分区

流连接分区(Partition)是 Topic 存储数据的最小单元,对于吞吐量较高的 Topic,可以创建多个分区。

流连接数据集成任务

流连接数据集成任务(Integrator)指将 Topic 的数据导入到云产品的任务,一个 Topic 可启动多个 Integrator 导入到不同的云产品。

P

Processing Time

Processing Time 时间模式下,时间戳由系统自动生成并添加到数据源中(以 PROCTIME 命名,SELECT * 时不可见,使用时必须显式指定)。它以每条数据被系统处理的时间作为时间戳,因而有一定的不可控性,适用于对时间精度要求不是很高的场合。

S

Schema

表示一个表的结构信息,例如各个列名、列类型等。

Source Time

在 Source Time 时间模式下,可以使用 Kafka 每条记录所含元数据的时间戳作为流计算处理所使用的时间戳(以 SOURCETIME 命名,SELECT * 时不可见,使用时必须显式指定),避免了输入数据没有时间戳字段时,使用 Processing Time 模式带来的不可控性。

时间窗口

定义了多个时间段以及各个时间段之间的关系(例如是否可重叠、是否固定大小)。目前系统支持 TUMBLE、HOP、SESSION 三种时间窗口。具体见 时间窗口函数

时间模式

指导系统处理数据时如何获取时间戳,目前支持 Event Time、Processing Time、Source Time 三种时间模式。

数据目的

数据目的 Sink 指流计算系统处理结果输出的地方,例如腾讯云 CKafka,云数据库 MySQL 等。

T

Tuple 流

Tuple(又称为 Append)为数据流类型的一种,可以存放不含主键的流数据。用户可以不断追加新数据到这种数据流中,它不涉及到对之前已发出数据的更新操作。目前各种数据源和数据目的均支持 Append 流的输入输出。

U

Upsert 流

Upsert 流(Update OR Insert,Upsert)由 DISTINCT、不含时间窗口的 GROUP BY 语句、不含时间范围的 JOIN 语句等查询产生,它具有主键定义,如果后续发出的数据与之前的某条数据具有相同主键,则更新该条记录为新值;反之则新增一行数据。它可以确保之前发出的数据被更新以反映最新的值。目前只有使用云数据库 MySQL 和 PostgreSQL 作为数据目的(Sink)时,支持 Upsert 流的写入。

W

Watermark

表示一个特定的时间点,在该时间点之前的所有数据已经得到妥善处理。Watermark 由系统自动生成,用户可以通过 WATERMARK FOR BOUNDED 语句指定时间戳的最大容差。

Z

主题

  • 在流计算 Oceanus 中,主题(Topic)指流连接订阅和发布的最小单位。用户可以用 Topic 来表示一类或者一种流数据,类似于数据库中的表(Table)。
  • 在物联网通信中,主题(Topic)指消息通信主题,Pub/Sub 模型中消息的通信媒介。发布订阅必须要有主题,通信时基于每个设备的具体 Topic。
  • 在消息队列 CKafka 和 CMQ 中,主题(Topic)指某类消息的集合。用于存储消息的逻辑概念。
  • 在日志服务中,主题(Topic)指日志服务 CLS 提供的基本管理单元,一个日志主题对应一个应用或者服务。日志主题 Topic 是 CLS 的最小管理单元,采集、索引、投递等配置围绕 Topic 进行。一个日志集可以包含多个日志主题

作业类型

  • SQL 作业:使用 SQL 语句编写的流计算作业,选择该作业类型允许用户在控制台通过选择数据流 DDL 自动生成代码,或选择相应的 SQL 代码模板后进行修改,从而开发 SQL 作业。
  • JAR 作业:用户自行开发的流计算作业,以 .jar 为文件扩展名,可以由 JVM 执行文件中包含的应用程序,用户可以使用 JDK 自带的 jar 命令将程序打包成 jar 文件。