数据开发治理平台 WeData Notebook 开发

前置准备工作
开通 WeData Studio 功能
注意：
目前 WeData Studio 功能为开白功能，如需使用，请联系 WeData 团队进行开通。
购买大数据存算引擎
注意：
WeData Studio 支持对接的大数据存算引擎包括：
1. DLC 引擎：标准引擎-Spark 类型，必须包含“机器学习-Spark MLlib”类型的资源组。
2. EMR 引擎：EMR on CVM-Hadoop 类型，3.5.0版本，必须包含 EG 组件和 Spark 组件。
如果您使用 EMR 引擎，需要检查 EMR 使用的安全组是否放通了 WeData Studio 网段（30.22.32.0/19），若未放通，需要对安全组做如下操作：
入站需要放通：30.22.32.0/19 端口 TCP:8888
Studio 开发 IDE
Studio 整体功能包括：Studio 开发 IDE、数据目录导航、Git 源代码管理三个模块。
进入 Studio 模块
单击数据研发 > Studio，进入 Studio 需要先拉起个人运行环境，按照项目+用户进行隔离，即每个用户在每个项目中独享一个个人运行环境。
﻿
首次启动个人运行环境大概需要几分钟，后面再次进入可以做到秒级响应。
﻿
文件目录管理
Studio 文件目录结构包括四部分：Workspace、GitFolder、回收站、收藏夹。
Workspace 为本地文件夹。
GitFolder 为 Git 文件夹，支持对接远程 Git 仓库进行代码管理。
回收站用于存放当前用户删除后的文件夹和文件。
收藏夹用于存放当前用户收藏的文件夹和文件。
﻿
文件管理操作
Studio 文件目录管理的对象包括：文件夹、Notebook（.ipynb）、SQL（.sql）、文件（.py、.csv 等），各类对象支持的管理操作包括：
操作名称
Workspace 文件夹
GitFolder 文件夹
Notebook、SQL、文件
新建文件夹
✓
✓
×
新建 Notebook
✓
✓
×
新建文件
✓
✓
×
移动
✓
✓
✓
复制
×
×
✓
复制路径
✓
✓
✓
复制相对路径
✓
✓
✓
重命名
✓
✓
✓
上传
✓
✓
×
下载
✓
✓
✓
删除
✓
✓
✓
收藏
✓
✓
✓
权限配置
✓
×
✓
新建 Notebook
新建文件夹
单击新建文件夹，填写文件夹名称和所属文件夹路径。
﻿
新建 Notebook 文件
单击新建 Notebook，填写 Notebook 名称和所属文件夹路径。
﻿
编辑 Notebook 文件
在右侧 IDE 区域，支持新建单元格、剪切单元格、复制单元格、粘贴单元格、删除单元格、移动单元格、编辑单元格、修改单元格语言类型等一系列操作。
﻿
运行 Notebook
运行 Notebook 文件需要选择一个运行内核，WeData 采用远程内核的方式，将任务提交到大数据存算引擎执行，使用的是引擎计算资源。
选择内核
1. 单击单元格上方的运行，自动打开创建内核的弹窗；
2. 单击 IDE 右上角 kernel 未连接，打开创建内核的弹窗。
﻿
内核配置
以 DLC 引擎为例，假设当前项目仅绑定了 DLC 引擎，则 Notebook 文件等内核配置页面如下：
﻿
﻿
属性项
属性项描述
使用限制
DLC 资源组
选择当前项目所绑定的一个 DLC 引擎中的资源组
DLC 引擎：仅支持标准引擎-Spark 类型的 DLC 引擎；
资源组：仅支持业务场景为“机器学习”类型，框架类型为“Spark MLlib”的资源组。
资源复用模式开启
开启后，可以选择已经创建好的 Spark APP 创建内核，用于节约引擎资源和缩短内核创建时间
如果两个 Notebook 文件使用了同一个 Spark APP，则运行环境会共享。
Spark APP 名称
支持选择当前项目、当前用户已创建的一个 Spark APP
-
资源复用模式关闭
关闭后，则新建一个 Spark APP
新建一个 Spark APP 可以实现文件间的运行环境隔离，但通常需要几分钟的时间。
Spark APP 名称
填写 Spark APP 名称，便于后续复用选择
 -
自动释放时间
选择 Spark APP 不活跃自动释放时间
 -
自定义镜像
默认为 DLC 资源组内置镜像，支持用户选择 TCR 自定义镜像
 -
高级参数
填写创建的 Spark APP 规格参数
 -
查看运行结果
针对 DataFrame 数据结构，当使用 display()函数进行数据展示时，以及 SQL 语法的数据查询结果的场景，WeData 进行了定向优化，支持对数据结果进行表格化的展示和操作。
数据结果查看
支持数据结果的预览，可以圈选自定义区域的数据，进行右键和快捷键复制；支持单击列名进行升降序排序。
说明：
最多支持预览1万行数据，数据量大小不超过2M。
﻿
数据检索
支持输入关键字进行模糊搜索，检索结果可高亮展示；单击"<"、">"按钮可以实现多个检索结果之间的切换。
﻿
字段设置
支持配置数据结果展示的列名，可以单击图钉按钮置顶展示指定字段。
﻿
﻿
字段过滤
单击过滤按钮，可以添加多个筛选条件对数据结果过滤。
﻿
数据下载
单击下载，可以将数据结果下载为 csv、excel、txt 文件。
说明：
最多支持下载1万行数据，数据量大小不超过2M。
﻿
动态参数实现
Notebook 支持定义动态参数，实现参数化文件代码调试的功能。
参数的定义
1. 通过代码定义。
通过 dlcutils.widgets.text()函数定义参数名称、默认值、标签：
函数名称
参数定义
举例说明
dlcutils.widgets.text(name: str, default: str, label: str = "")
name：参数名称
default：参数默认值
label：参数标签
dlcutils.widgets.text("fav_food" , "bean","favorite food")
2. 通过可视化界面定义。
单击上方工具栏“参数”按钮，在弹窗中输入参数名、参数值、参数标签：
﻿
参数的获取
通过 dlcutils.widgets.get()函数获取参数的取值：
函数名称
参数定义
举例说明
dlcutils.widgets.get(name: str)
name：参数名称
dlcutils.widgets.get(fav_food)
说明：
在 Notebook 调试运行时，代码输出的参数取值，将使用弹窗中的参数值替换函数定义的默认值。
文件版本管理
单击保存，会对当前文件生成一个保存版本，单击右侧“版本记录”可以查看所有历史版本，支持版本对比、版本回滚等操作。
﻿
版本对比：
﻿
文件权限管理
1. 进入“项目管理 > 数据开发配置”，开启任务权限管控的开关。
说明：该功能仅对 DLC 引擎生效，EMR 引擎暂不支持。
﻿
2. 进入 Studio，右键 Workspace 中的文件夹或文件名称，选择权限配置。
说明：
仅 Workspace 支持文件权限管理，GitFolder 不支持配置权限，项目下的所有成员均可见、可操作。
﻿
3. 在权限配置的弹窗中，可以增加、编辑或删除权限配置项。
项目管理员，默认拥有所有文件夹和文件的管理权限。
文件夹或文件的创建者，默认拥有所创建对象的管理权限。
文件夹中的子文件或文件，默认继承父文件夹的权限配置。
﻿
属性项
属性项说明
授权对象
支持选择：角色、用户、项目所有成员
权限项
支持选择：管理、无
数据目录
数据检索
数据目录按照 Catalog、库、表、字段的层级进行展示，支持用户在开发过程中进行浏览，并通过代码的方式进行数据访问。
注意：
使用数据目录的前置条件为，当前项目绑定的 DLC 引擎所在地域已经开通了 TC-Catalog。
单击搜索，可以输入 Catalog 名、库名、表名模糊搜索。
数据访问
支持在代码中通过 PySpark 的方式读写数据目录中的内容。
快捷操作：
1. 单击数据表、字段后方的插入，可以将表名、字段名插入到右侧 IDE 中。
2. 单击数据表、字段后方的复制，可以将表名、字段名复制到粘贴剪贴板，后续可以在 IDE 中粘贴使用。
Git 源代码管理
初始化 Git 配置
每个项目可以绑定多个 Git 仓库的地址，由项目管理员或其他有项目管理权限的用户配置，项目中的每一个用户，都需要初始化自己的个人配置，才能正常使用 Git 相关功能。
项目 Git 配置（公网访问）
1. 进入项目管理 > Git配置。
﻿
2. 单击添加连接，新增远程 Git 仓库地址的绑定。
依次输入所要使用的 Git 仓库地址、Git 供应商、默认 Git 分支等信息，如果您的远程 Git 仓库是可以公网访问的，则 Git 仓库网络环境选择“公网访问”，然后依次完成初始化网络配置、网络连通性测试。
﻿
3. 网络连通性测试通过后，保存项目 Git 配置，然后进入个人信息 > 个人配置中完成个人 Git 权限配置。
项目 Git 配置（私有网络）
注意：
如果您的远程 Git 仓库部署在私有网络环境中，请按照此流程进行配置。目前仅支持 HTTP 协议，不支持 HTTPS 协议。
1. 创建终端节点服务。
1.1 进入腾讯云私有网络控制台，选择“私有连接 > 终端节点服务”，单击新建。
﻿
1.2 完成终端节点服务配置，详情可以参考 终端节点服务操作手册。
注意：
终端节点服务需要与 WeData 在相同的地域。
1.3 创建完成后，记录终端节点服务 ID，格式为 vpcsvc-xxxxxxxx，后续填入 WeData。
2. 配置终端节点服务白名单。
进入终端节点服务详情页，单击白名单 > 添加，输入 WeData 所在腾讯云账号的主账号 UIN，确认添加成功。
注意：
必须先将 WeData 所在腾讯云账号的主账号 UIN 1000****8089 （具体账号信息请提交工单获取）添加到终端节点服务的白名单，否则 WeData 的连接请求会被拒绝。
3. 完成 WeData Git 配置。
进入项目管理 > Git配置 > 添加连接，Git 仓库网络环境选择“私有网络”，将步骤 2 中的终端节点服务 ID 填入“终端节点服务中”，然后单击网络连通性测试，测试通过后即可保存配置。
﻿
个人 Git 配置
1. 单击个人信息 > 个人配置，在 Git 权限配置中，填写用户名、Token 信息。
2. 单击连通性测试，测试通过后，才可以单击初始化个人运行环境 。
3. 将 Studio 的个人运行环境与远程 Git 仓库进行连接，后续可以将 Studio 中的代码进行远程 Git 仓库托管。
﻿
新建 Git 文件夹
1. 上述初始化配置完成后，再次进入 Studio，在 GitFolder 中创建 Git 文件夹。
﻿
2. 完成 Git 文件夹配置。
文件夹名称：输入文件夹名称。
Git 仓库地址：选择项目中已经绑定的一个远程 Git 仓库。
稀疏检出（可选）：如果勾选，则需要输入指定的文件路径，后续将自动拉取指定文件路径下的文件；如果不勾选，则默认会拉取远程 Git 仓库中的所有文件。
﻿
Git 管理操作
单击进入 Git 源代码管理功能，可对 Git 文件夹进行 Git 管理操作，包括但不限于：
提交（commit）：将本地的变更提交到工作分支，并添加变更描述。
推送（push）：将新的分支推送到远程 Git 仓库。
拉取（pull）：从远程 Git 仓库拉取内容到本地。
分支合并（merge）：将工作分支的更改合并到另一个分支，例如主分支。
解决合并冲突：在分支合并过程中，如果遇到代码冲突，支持识别和解决。
查看历史记录：查看当前分支的历史记录。
﻿
Notebook 任务编排
新建工作流
1. 进入数据研发 > 工作流编排。
﻿
2. 在编排空间目录中新建一个工作流。
﻿
新建 Notebook 任务
1. 进入离线开发 > 编排空间，新建 Notebook 任务，可以引用一个现有的 Notebook 文件，文件来源支持选择 Studio 目录、远程 Git 仓库。
如果是 Studio 目录，选择 Studio Workspace 或 GitFolder 中的一个 Notebook 文件。
如果是远程 Git 仓库，选择项目所绑定的远程 Git 仓库和分支中的一个 Notebook 文件。
﻿
Notebook 任务配置
注意：
编排空间 Notebook 任务与 Studio 目录或者远程 Git 仓库中的 Notebook 文件之间为引用关系，不允许在编排空间修改文件内容，但可以修改运行 Notebook 文件的环境配置。
1. 在页面右上方选择所要连接的存算引擎和调度资源组信息。
﻿
2. 在侧边栏的“任务配置”中，可以调整镜像和规格参数。
﻿
Notebook 任务运行
单击运行，对当前 Notebook 任务进行调试，调试运行成功后，可以进行任务提交。
﻿

操作名称	Workspace 文件夹	GitFolder 文件夹	Notebook、SQL、文件
新建文件夹	✓	✓	×
新建 Notebook	✓	✓	×
新建文件	✓	✓	×
移动	✓	✓	✓
复制	×	×	✓
复制路径	✓	✓	✓
复制相对路径	✓	✓	✓
重命名	✓	✓	✓
上传	✓	✓	×
下载	✓	✓	✓
删除	✓	✓	✓
收藏	✓	✓	✓
权限配置	✓	×	✓

属性项	属性项描述	使用限制
DLC 资源组	选择当前项目所绑定的一个 DLC 引擎中的资源组	DLC 引擎：仅支持标准引擎-Spark 类型的 DLC 引擎；资源组：仅支持业务场景为“机器学习”类型，框架类型为“Spark MLlib”的资源组。
资源复用模式开启	开启后，可以选择已经创建好的 Spark APP 创建内核，用于节约引擎资源和缩短内核创建时间	如果两个 Notebook 文件使用了同一个 Spark APP，则运行环境会共享。
Spark APP 名称	支持选择当前项目、当前用户已创建的一个 Spark APP	-
资源复用模式关闭	关闭后，则新建一个 Spark APP	新建一个 Spark APP 可以实现文件间的运行环境隔离，但通常需要几分钟的时间。
Spark APP 名称	填写 Spark APP 名称，便于后续复用选择	-
自动释放时间	选择 Spark APP 不活跃自动释放时间	-
自定义镜像	默认为 DLC 资源组内置镜像，支持用户选择 TCR 自定义镜像	-
高级参数	填写创建的 Spark APP 规格参数	-

函数名称	参数定义	举例说明
dlcutils.widgets.text(name: str, default: str, label: str = "")	name：参数名称 default：参数默认值 label：参数标签	dlcutils.widgets.text("fav_food" , "bean","favorite food")

属性项	属性项说明
授权对象	支持选择：角色、用户、项目所有成员
权限项	支持选择：管理、无

Notebook 开发

本页目录：

前置准备工作

开通 WeData Studio 功能

购买大数据存算引擎

Studio 开发 IDE

进入 Studio 模块

文件目录管理

文件管理操作

新建 Notebook

新建文件夹

新建 Notebook 文件

编辑 Notebook 文件

运行 Notebook

选择内核

内核配置

查看运行结果

数据结果查看

数据检索

字段设置

字段过滤

数据下载

动态参数实现

参数的定义

参数的获取

文件版本管理

文件权限管理

数据目录

数据检索

数据访问

Git 源代码管理

初始化 Git 配置

项目 Git 配置（公网访问）

项目 Git 配置（私有网络）

个人 Git 配置

新建 Git 文件夹

Git 管理操作

Notebook 任务编排

新建工作流

新建 Notebook 任务

Notebook 任务配置

Notebook 任务运行