SQL 开发

最近更新时间:2026-01-30 11:16:42

我的收藏

前置准备工作

开通 WeData Studio 功能

注意:
目前 WeData Studio 功能为白名单功能,如需使用,请 联系 WeData 团队 进行开通。

购买大数据存算引擎

WeData Studio 内 SQL 文件运行支持对接以下大数据引擎:
1. DLC 引擎
2. EMR 引擎:Hive 类型数据源

Studio 开发 IDE

新建 SQL 文件

在左侧文件目录中单击“+”,单击新建SQL,并指定文件名称及所属文件夹路径。创建完成后,即可在 Studio 中进行 SQL 编写和调试。

SQL 编辑器

本章讲述 Studio 内 SQL 编辑器的重点功能。


1. 运行按钮

支持多种运行方式,帮助用户根据不同查询场景灵活控制 SQL 的执行范围及结果返回规模。
运行/运行全部:
运行:仅执行单条被选中的 SQL 语句。
运行全部:按脚本顺序执行所有 SQL 语句。
限制1000条:
勾选时:查询结果最多预览 1000 条。
未勾选时:允许返回至系统支持的最高结果上限。

2. 批量提交

将 Studio 内 SQL脚本的代码、新增参数更新,批量提交至引用该脚本的全部任务中。

3. 格式化

单击格式化按钮,对编辑器内 SQL 代码进行一键格式化。通过自动调整缩进、换行及关键字结构,使 SQL 语句结构更加清晰、规范,提升代码的可读性与维护效率。

4. 参数

参数按钮用于管理 SQL 脚本中已定义的参数,系统会识别 SQL 中以 ${变量名} 形式定义的参数(例如:${param1}),并在参数弹窗中统一展示,供用户填写或确认参数值。
系统内置时间参数(如 yyyy-MM-dd HH:mm)相关说明可参考 时间参数说明

5. 数据源、资源组配置区

数据源与资源配置区域用于在执行 SQL 前,配置当前执行所使用的数据源类型及对应的计算与调度资源等。

6. SQL 编辑器快捷键

7. 版本记录

单击保存,会对当前文件生成一个保存版本,单击右侧“版本记录”可以查看所有历史版本,支持进行版本对比、版本回滚等操作。

脚本运行

1. 在编辑器中输入 SQL 代码,可使用三段式路径 catalog.schema.table 直接读取数据目录中的表,例如:
SELECT *
FROM catalog.schema.table;
2. 配置运行设置,在编辑器顶部配置本次执行所需的数据源、调度资源组等。
3. 单击运行。

运行结果

当 SQL 在 Studio 中执行完成后,执行结果将展示在结果区域。该区域用于查看查询结果、执行日志以及对应的执行代码,帮助用户快速验证 SQL 执行情况。

结果区域左侧会展示 SQL 执行的时间戳。
如果一次执行中包含多条 SQL 语句,每条 SQL 语句会分别生成结果页签,用户可以通过结果 Tab 在不同 SQL 的执行结果之间进行切换。
查询结果展示
SQL 查询结果以表格形式展示,并支持以下常用操作:
结果搜索。
字段设置:
用户可以配置结果中展示的列字段。
对于常用字段,可单击字段旁的图钉按钮将其置顶,方便重点查看。
结果下载支持导出为以下格式:
CSV
Excel
TXT
按列排序:
单击列名即可对结果按该列进行升序或降序排序。
复制结果:
支持选中结果区域中的数据并进行复制。
执行日志
在结果区域中,用户可以切换查看 SQL 的执行日志。执行日志支持:
日志内容搜索。
日志文件下载。
日志信息可用于排查 SQL 执行异常或分析执行过程。
说明:
当前 Studio 内 SQL 执行使用调度资源组运行,单次执行结果最多支持预览 1000 行数据。

编排空间任务引用 Studio 内 SQL 文件

本章介绍如何将 Studio 内 SQL 文件作为代码源,引用到编排空间的工作流任务中。
支持的任务类型:
数据源类型
任务类型
DLC 数据源
DLC SQL
EMR 数据源
Hive SQL/Spark SQL

创建任务

1. 创建任务时,选择 Studio 目录。
2. 支持从以下位置选择 SQL 文件:
Workspace:仅支持选择与任务类型匹配的数据源的 SQL 脚本。
GitFolder:暂不支持。

Studio 内 SQL 文件与工作流交互流程


注意:
Workspace 中的 新建SQL 文件,需在 Studio 内单击一次批量提交,才可在编排空间中被选中。

工作流任务中的编辑限制

编排空间内不支持直接修改 SQL 代码,需要到Studio内修改。
允许修改:
调度参数。
调度配置。
数据源、调度资源组等。

参数同步规则说明

SQL 脚本内新增参数,通过 Studio 内单击批量提交,将参数同步至任务的调度参数中。
任务中已存在的参数,在 Studio 中修改参数的值,不会在批量提交时更新至任务。

编排空间任务引用远程 Git 仓库文件

当项目已配置 Git 仓库后,创建任务时的 创建方式 新增 远程 Git 仓库 选项。
用户可从项目绑定的远程 Git 仓库及其分支中选择一个 SQL 文件作为任务代码来源。
支持的任务类型:
数据源类型
任务类型
DLC 数据源
DLC SQL
EMR 数据源
Hive SQL/Spark SQL