前置准备工作
开通 WeData Studio 功能
注意:
购买大数据存算引擎
注意:
WeData Studio 支持对接的大数据存算引擎包括:
1. DLC 引擎:标准引擎-Spark类型,必须包含“机器学习-Spark MLlib”类型的资源组。
2. EMR 引擎:EMR on CVM-Hadoop类型,3.5.0版本,必须包含 EG 组件和 Spark 组件。
如果您使用EMR引擎,需要检查 EMR 使用的安全组是否放通了WeData Studio网段(30.22.32.0/19),若未放通,需要对安全组做如下操作:
入站需要放通:30.22.32.0/19 端口TCP:8888
Studio 开发 IDE
Studio 整体功能包括:Studio 开发 IDE、数据目录导航、Git 源代码管理三个模块。
进入 Studio 模块
单击数据研发 > Studio,进入 Studio 需要先拉起个人运行环境,按照项目+用户进行隔离,即每个用户在每个项目中独享一个个人运行环境。

首次启动个人运行环境大概需要几分钟,后面再次进入可以做到秒级响应。

文件目录管理
Studio 文件目录结构包括四部分:Workspace、GitFolder、回收站、收藏夹。
Workspace 为本地文件夹。
GitFolder 为 Git 文件夹,支持对接远程 Git 仓库进行代码管理。
回收站用于存放当前用户删除后的文件夹和文件。
收藏夹用于存放当前用户收藏的文件夹和文件。

文件管理操作
Studio 文件目录管理的对象包括:文件夹、Notebook(.ipynb)、SQL(.sql)、文件(.py、.csv等),各类对象支持的管理操作包括:
操作名称 | Workspace 文件夹 | GitFolder 文件夹 | Notebook、SQL、文件 |
新建文件夹 | ✓ | ✓ | × |
新建 Notebook | ✓ | ✓ | × |
新建文件 | ✓ | ✓ | × |
移动 | ✓ | ✓ | ✓ |
复制 | × | × | ✓ |
复制路径 | ✓ | ✓ | ✓ |
复制相对路径 | ✓ | ✓ | ✓ |
重命名 | ✓ | ✓ | ✓ |
上传 | ✓ | ✓ | × |
下载 | ✓ | ✓ | ✓ |
删除 | ✓ | ✓ | ✓ |
收藏 | ✓ | ✓ | ✓ |
权限配置 | ✓ | × | ✓ |
新建 Notebook
新建文件夹
单击新建文件夹,填写文件夹名称和所属文件夹路径。

新建 Notebook 文件
单击新建Notebook,填写 Notebook 名称和所属文件夹路径。

编辑 Notebook 文件
在右侧 IDE 区域,支持新建单元格、剪切单元格、复制单元格、粘贴单元格、删除单元格、移动单元格、编辑单元格、修改单元格语言类型等一系列操作。

运行 Notebook
运行 Notebook 文件需要选择一个运行内核,WeData 采用远程内核的方式,将任务提交到大数据存算引擎执行,使用的是引擎计算资源。
选择内核
1. 单击单元格上方的运行,自动打开创建内核的弹窗;
2. 单击 IDE 右上角kernel未连接,打开创建内核的弹窗。

内核配置
以 DLC 引擎为例,假设当前项目仅绑定了 DLC 引擎,则 Notebook 文件等内核配置页面如下:


属性项 | 属性项描述 | 使用限制 |
DLC 资源组 | 选择当前项目所绑定的一个 DLC 引擎中的资源组 | DLC 引擎:仅支持标准引擎-Spark 类型的 DLC 引擎; 资源组:仅支持业务场景为“机器学习”类型,框架类型为“Spark MLlib”的资源组。 |
资源复用模式开启 | 开启后,可以选择已经创建好的 Spark APP 创建内核,用于节约引擎资源和缩短内核创建时间 | 如果两个 Notebook 文件使用了同一个 Spark APP,则运行环境会共享。 |
Spark APP 名称 | 支持选择当前项目、当前用户已创建的一个Spark APP | - |
资源复用模式关闭 | 关闭后,则新建一个 Spark APP | 新建一个 Spark APP 可以实现文件间的运行环境隔离,但通常需要几分钟的时间。 |
Spark APP 名称 | 填写 Spark APP 名称,便于后续复用选择 | - |
自动释放时间 | 选择 Spark APP 不活跃自动释放时间 | - |
自定义镜像 | 默认为 DLC 资源组内置镜像,支持用户选择 TCR 自定义镜像 | - |
高级参数 | 填写创建的 Spark APP 规格参数 | - |
查看运行结果
针对 DataFrame 数据结构,当使用 display()函数进行数据展示时,以及 SQL 语法的数据查询结果的场景,WeData 进行了定向优化,支持对数据结果进行表格化的展示和操作。
数据结果查看
支持数据结果的预览,可以圈选自定义区域的数据,进行右键和快捷键复制;支持单击列名进行升降序排序。
说明:
最多支持预览1万行数据,数据量大小不超过2M。

数据检索
支持输入关键字进行模糊搜索,检索结果可高亮展示;单击"<"、">"按钮可以实现多个检索结果之间的切换。

字段设置
支持配置数据结果展示的列名,可以单击图钉按钮置顶展示指定字段。

字段过滤
单击过滤按钮,可以添加多个筛选条件对数据结果过滤。

数据下载
单击下载,可以将数据结果下载为csv、excel、txt文件。
说明:
最多支持下载1万行数据,数据量大小不超过2M。

动态参数实现
Notebook 支持定义动态参数,实现参数化文件代码调试的功能。
参数的定义
1. 通过代码定义。
通过 dlcutils.widgets.text()函数定义参数名称、默认值、标签:
函数名称 | 参数定义 | 举例说明 |
dlcutils.widgets.text(name: str, default: str, label: str = "") | name:参数名称 default:参数默认值 label:参数标签 | dlcutils.widgets.text("fav_food" , "bean","favorite food") |
2. 通过可视化界面定义。
单击上方工具栏“参数”按钮,在弹窗中输入参数名、参数值、参数标签:

参数的获取
通过 dlcutils.widgets.get()函数获取参数的取值:
函数名称 | 参数定义 | 举例说明 |
dlcutils.widgets.get(name: str) | name:参数名称 | dlcutils.widgets.get(fav_food) |
说明:
在 Notebook 调试运行时,代码输出的参数取值,将使用弹窗中的参数值替换函数定义的默认值。
文件版本管理
单击保存,会对当前文件生成一个保存版本,单击右侧“版本记录”可以查看所有历史版本,支持版本对比、版本回滚等操作。

版本对比:

文件权限管理
1. 进入“项目管理 > 数据开发配置”,开启任务权限管控的开关。
说明:该功能仅对 DLC 引擎生效,EMR 引擎暂不支持。

2. 进入 Studio,右键 Workspace 中的文件夹或文件名称,选择权限配置。
说明:
仅 Workspace 支持文件权限管理,GitFolder 不支持配置权限,项目下的所有成员均可见、可操作。

3. 在权限配置的弹窗中,可以增加、编辑或删除权限配置项。
项目管理员,默认拥有所有文件夹和文件的管理权限。
文件夹或文件的创建者,默认拥有所创建对象的管理权限。
文件夹中的子文件或文件,默认继承父文件夹的权限配置。

属性项 | 属性项说明 |
授权对象 | 支持选择:角色、用户、项目所有成员 |
权限项 | 支持选择:管理、无 |
数据目录
数据检索
数据目录按照 Catalog、库、表、字段的层级进行展示,支持用户在开发过程中进行浏览,并通过代码的方式进行数据访问。
注意:
使用数据目录的前置条件为,当前项目绑定的 DLC 引擎所在地域已经开通了 TC-Catalog。
单击“搜索”按钮,可以输入 Catalog 名、库名、表名模糊搜索。
数据访问
支持在代码中通过 PySpark 的方式读写数据目录中的内容。
快捷操作:
1. 单击数据表、字段后方的“插入”按钮,可以将表名、字段名插入到右侧 IDE 中。
2. 单击数据表、字段后方的“复制”按钮,可以将表名、字段名复制到粘贴剪贴板,后续可以在 IDE 中粘贴使用。
Git 源代码管理
初始化 Git 配置
项目 Git 配置
每个项目仅可连接一个 Git 仓库的地址,由项目管理员或其他有项目管理权限的用户配置,项目中的每一个用户,都需要初始化自己的个人配置。
操作步骤:
1. 进入“项目管理 > Git配置”,填写当前项目所要使用的 Git 仓库地址、Git 供应商、分支等信息。
2. 依次单击初始化网络配置、网络连通性测试。

3. 网络连通性测试通过后,进入个人信息 > 个人配置中完成个人 Git 信息配置。
属性项 | 属性项说明 |
Git 仓库地址 | 填写所要连接的远程 Git 仓库地址 |
Git 供应商 | 支持选择 GitLab、GitLab 企业版 |
Git 分支 | 填写所要连接的远程 Git 仓库分支 |
网络环境 | 支持选择公网访问或者私有网络。 1. 如果网络环境是公网访问,则页面单击“初始化网络配置”,系统将自动为用户进行网络打通。 2. 如果网络环境是私有网络,则需要用户购买一个终端节点服务,与其 Git 所在网络进行绑定,并将终端节点服务 ID 填写到此处。 |
网络连通性测试 | 验证与远程 Git 仓库的网络连通情况 |
个人 Git 配置
1. 单击个人信息 > 个人配置,在 Git 权限配置中,填写用户名、Token 信息。
2. 单击“连通性测试”,测试通过后,才可以单击“初始化个人运行环境” 。
3. 将 Studio 的个人运行环境与远程 Git 仓库进行连接,后续可以将 Studio 中的代码进行远程 Git 仓库托管。

Git 管理操作
上述初始化配置完成后,再次进入 Studio,系统会自动拉取一次远程 Git 仓库中的代码文件到 GitFolder 中,后续需要用户手动拉取更新。

Studio Git 源代码管理功能,支持常用的 Git 操作,包括但不限于:
提交(commit):将本地的变更提交到工作分支,并添加变更描述。
推送(push):将新的分支推送到远程 Git 仓库。
拉取(pull):从远程 Git 仓库拉取内容到本地。
分支合并(merge):将工作分支的更改合并到另一个分支,例如主分支。
解决合并冲突:在分支合并过程中,如果遇到代码冲突,支持识别和解决。
查看历史记录:查看当前分支的历史记录。
Notebook 任务编排
新建工作流
1. 进入“数据研发-工作流编排”。

2. 在编排空间目录中新建一个工作流。

新建 Notebook 任务
1. 进入离线开发 > 编排空间,新建 Notebook 任务,可以引用一个现有的 Notebook 文件,文件来源支持选择 Studio 目录、远程 Git 仓库。
如果是 Studio 目录,选择 Studio Workspace 或 GitFolder 中的一个 Notebook 文件。
如果是远程 Git 仓库,选择项目所绑定的远程 Git 仓库和分支中的一个 Notebook 文件。

Notebook 任务配置
注意:
编排空间 Notebook 任务与 Studio 目录或者远程 Git 仓库中的 Notebook 文件之间为引用关系,不允许在编排空间修改文件内容,但可以修改运行 Notebook 文件的环境配置。
1. 在页面右上方选择所要连接的存算引擎和调度资源组信息。

2. 在侧边栏的“任务配置”中,可以调整镜像和规格参数。

Notebook 任务运行
单击运行,对当前 Notebook 任务进行调试,调试运行成功后,可以进行任务提交。
