有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
ETL 作业常用术语如下:
术语
详细说明
流计算
流计算是面向流式数据的计算,它从一个或多个流式数据源读取持续不断产生的数据,经过引擎中多个算子的组合进行高效计算,再根据实际需要,将结果输出至下游的多种数据目的,例如消息队列、数据库、数据仓库、存储服务等。
数据源表(Source)
为流计算系统持续提供输入数据。
数据目的表(Sink)
流计算系统处理结果输出的地方。
Schema
表示一个表的结构信息,例如各个列名、列类型等。对于 PostgreSQL 而言,Schema 是介于 Database 和 Table 之间的一个层级,可以理解成数据库内部的命名空间。
MySQL
一种常用数据库,在 ETL 作业中可用作数据源表与数据目的表。
PostgreSQL
类似 MySQL 的关系型数据库。
ClickHouse
ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),在 ETL 作业中可用作数据目的表。
Elasticsearch
实时的搜索与数据分析引擎。
字段映射
字段映射实现了从数据源表中抽取数据,对数据进行计算、清洗,再把数据加载到目的表中。
常量字段
可以输入一个自定义常量字段到目的源表相应的字段中。
计算字段
可以对从数据源表抽取出来的字段数据进行 内置函数 数值转换或者计算。