支持哪些数据类型?
支持的字段类型中,有哪些能作为分区列?
支持作为分区列的字段类型如下:
布尔型:
BOOLEAN数值型:
TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL字符串型:
CHAR、VARCHAR、STRING时间日期型:
DATE支持通过哪些方式提交 ETL 任务?
支持通过 SQL/作业提交任务:
负载 | 如何提交 | 适用范围 |
SQL | 在 SQL 工作区、mysql client、jdbc 提交时,在 SQL 前添加 Hint /*+engine=batch*/ | EXPLAIN ...SELECT ...CREATE [EXTERNAL] TABLE ... AS SELECT ...INSERT ... SELECT...SET ... |
| 新建作业,选择作业类型为 SQL | 所有 SparkSQL 均提交 |
作业 | 将程序打包为 Jar 或 Py 文件 | SparkJar PySpark |
开发离线任务应参照什么语法规范?
语法与支持能力与 Spark 3.5.3 兼容。
在 SQL 工作区、MySQL Client、JDBC 提交离线 SQL 时,如何配置资源规格?
SQL 工作区、MySQL Client、JDBC 提交离线 SQL 时,可以使用默认资源规格,也可以手动指定资源规格:
TCHouse-X 离线引擎默认资源配置如下:
Executor 节点规格:
2X-SmallExecutor 节点数量: 1 个
Driver 节点规格:
2X-SmallDriver 节点数量: 1 个
若您需要进一步配置离线计算引擎的资源,可使用 Hint 组合
/*+engine=batch, executor_specs=[规格], executor_count=[数量], driver_specs=[规格]*/ 进行配置,其中 executor_specs、driver_specs 可选规格如下:2X-Small:每节点包含 4 CU 计算资源X-Small:每节点包含 8 CU 计算资源Small:每节点包含 16 CU 计算资源Medium:每节点包含 32 CU 计算资源