在开始 WeData 数据开发之前,我们首先需要进行以下准备:
说明:
以下操作涉及资源购买和付费内容,需要由企业管理员进行操作。
操作流程
具体操作包括:
步骤 | 说明 |
注册腾讯云账号。 实名认证(建议企业认证)。 创建腾讯云子账号。 | |
新建私有网络。 绑定子网。 申请公网 IP。 购买公网 NAT 网关,并绑定私有网络、绑定公网 IP。 | |
(以腾讯云 EMR 为例) | 购买 EMR 集群。 购买 WeData,包含集成资源、调度资源。 创建项目,并绑定 EMR,绑定集成资源、调度资源。 在 WeData 项目中,添加用户。 |
(以腾讯云 MySQL 为例) | 购买 MySQL,并初始化业务数据。 在 WeData 项目中,添加数据源。 |
注册腾讯云账号
本次教程涉及的所有云资源,均通过腾讯云账号进行购买,请使用同一个腾讯云主账号。如果您已经有了腾讯云账号,并完成了企业认证,请跳过此步骤。
操作角色:企业管理员。
注册腾讯云账号
企业实名认证
认证方式 | 认证时长 | 说明 |
微信公众平台认证 | 即时完成 | 已注册微信公众号且经过微信实名认证的企业,使用此方式,即可立即认证。 |
企业法人微信扫码认证 | 即时完成 | 使用企业法人的个人微信扫码认证,法人微信扫码授权后,即可完成认证。 |
企业法人人脸识别认证 | 即时完成 | 使用企业法人的个人微信扫码进行人脸识别,人脸识别通过后,即可完成认证。 |
腾讯云充值认证 | 1个工作日 | 通过企业银行账户充值一笔系统随机生成的指定金额且充值总金额少于1元的小额验证金(将充入余额),腾讯云收到充值后,即可完成认证。 |
企业对公打款认证 | 1 - 5个工作日 | 输入企业银行账号信息,待腾讯云打款成功后,回填打款金额完成认证。 |
创建腾讯云子账号
1. 进入腾讯云控制台 > 用户列表 > 新建用户 > 快速创建。修改用户权限,单击用户权限的编辑图标。

2. 输入 wedata,单击搜索图标。选择全部策略后,单击确定。

准备网络环境
在本次教程中涉及多种云资源,为了保证网络联通性,需要搭建私有网络环境。
操作角色:企业管理员。
操作账号:腾讯云主账号。
操作流程:

新建私有网络
1. 登录腾讯云 私有网络控制台,在私有网络页面顶部,选择 VPC 所属地域,示例:选择北京,单击新建。
2. 进入新建 VPC 界面,填写私有网络信息和初始子网信息,填写完成后,单击确定。
VPC名称:可随意命名,便于区分即可,示例:北京-私有网络。
子网名称:可随意命名,便于区分即可,建议与下方的可用区保持一致,示例:北京三区。
可用区:此时可任意选择,示例:北京三区,后续购买其他资源时,如没有此可用区,可在私有网络中添加子网。
说明:
地域选择北京,仅为示例,建议您选择距离自己较近的地域。
本次教程中后续购买的资源均会选择北京地域,请务必慎重选择。


购买 NAT 网关
1. 进入腾讯云 公网 NAT 网关 页面,在 NAT 网关页面顶部,选择 VPC 所属地域,示例:选择北京,单击新建。

2. 如果您暂无 NAT 网关,请进入购买页进行购买,选择完配置后,单击立即开通,核实账单后,付费开通即可。
网关类型:选择传统型NAT网关
地域:选择北京,
私有网络:选择刚创建好的私有网络,
弹性公网 IP:选择新建弹性公网 IP,如您已经申请了公网 IP,也可在此处直接进行绑定。


准备引擎资源环境
WeData 作为数据开发治理平台,需要绑定腾讯云大数据套件作为数据存储和数据计算引擎,例如,腾讯云 EMR、DLC、TCHouse 等产品。
本教程中采用 EMR 作为示例,介绍 WeData 的数据同步、数据开发过程,因此我们需要先在腾讯云上购买一套 EMR 环境。
操作角色:企业管理员。
操作账号:腾讯云主账号。
操作流程:

购买 EMR
1. 进入腾讯云 弹性 MapReduce 购买页,第一步选择软件配置,选择完成后,单击下一步。
地域:选择华北地区-北京
应用场景:默认场景
部署组件:选择 hive-3.1.3,本次教程中采用 Hive 作为存储计算引擎。

2. 第二步选择区域与硬件配置,选择完成后,单击下一步。
集群网络:选择刚创建好的私有网络。
可用区:选择私有网络中子网所在的可用区,如果此处没有,可返回 私有网络 页面,绑定子网。
安全组:此处默认创建新的安全组即可。



3. 进入节点配置页面,您只需要展开明细,设置节点数量,按照默认的配置即可。

4. 进入基础配置界面,设置服务器密码,勾选自动续费和协议条款后,单击立即购买,核实账单后,付费开通即可。


5. 给EMR集群/实例开启Ranger组件,以便后续在WeData中使用。

单击集群名称,进入集群服务tab,单击新增组件,选择ranger-2.3.0组件,单击确认进行安装。

需要等待5-10分钟之后,Ranger组件才能安装完成。
如果是EMR on TKE,则进入实例菜单,打开实例信息页面,在“账号COS权限“处即可开启和关闭Ranger服务。

购买 WeData
1. 进入腾讯云 数据开发治理平台 WeData 购买页,完成快速配置,单击立即购买,核实账单后,付费开通即可。
地域:选择北京,建议可选择距离自己较近的地域。
产品版本:选择专业版,了解版本详细内容,请参见 WeData 各版本区别。
调度资源:选择测试规格,了解调度资源详细内容,请参见 调度资源计费说明。
调度资源网络:选择刚创建好的私有网络。
配置方案:选择基础规格,了解调度资源详细内容,请参见 集成资源计费说明。
网络:选择刚创建好的私有网络。




在 WeData 中创建项目
1. 登录腾讯云 数据开发治理平台 WeData 控制台,单击左侧菜单项目列表,进入 项目列表 界面,选择顶部地域为北京,单击创建项目。


2. 进入创建项目界面,选择并填写相关信息后,单击确认,即完成项目创建。
创建方式:选择创建并配置项目。
基本信息:
项目标识:便于区分即可,以字母开头,可包含字母、数字和下划线,不超过32个字符。示例:test_bj_project。
项目名称:便于区分即可,以字母、中文开头,可包含字母、中文、数字和下划线,不超过32个字符。示例:北京测试项目。
配置存算引擎:引擎地域:选择北京。
引擎类型:选择 EMR。
EMR 集群:下拉绑定即可,如已经在2.3.1中完成购买,此处会展示 EMR 集群名称。
账号:默认为 root。
密码:在 购买 EMR 时设置的密码。
连通性:请单击测试。
Yarn 资源队列:默认为 default或root.default,按系统显示选择即可。

调度资源:选择立即关联,勾选之前创建的调度资源进行绑定,这里会展示可用资源组。
集成资源:选择立即关联,勾选之前创建的集成资源进行绑定,这里会展示可用资源组。


3. 项目创建完成后,您可以通过单击项目管理/存算引擎配置和项目管理/成员管理,进行账号配置和添加成员操作。

4. 存算引擎配置:从项目列表页面,单击更多-引擎配置,即可进入存算引擎配置界面,将 EMR 设置为主账号。




5. 成员配置:在成员与角色管理界面,单击添加,进入添加成员页面,添加腾讯云子账号作为项目管理员。
说明:
此子账号可进行后续数据同步、数据开发操作。

准备业务数据资源环境
在本次教程中,我们模拟电子商城订单数据同步分析场景,因此需要准备电子商城原始数据。
本教程中采用腾讯云 MySQL 作为示例,介绍 WeData 的数据同步过程,因此,我们需要先在腾讯云上购买一套 MySQL 数据库。
操作角色:企业管理员。
操作账号:腾讯云主账号。
操作流程:

购买 MySQL
1. 进入云数据库 TencentDB for MySQL 购买页,完成快速配置,单击立即购买,核实账单后,付费开通即可。
计费模式:选择包年包月(仅作为示例,可选择适合自己的模式)。
地域:选择北京(仅作为示例,可选择距离自己较近的地域)。
架构:选择单节点。
可用区:选择北京三区,选择私有网络中子网所在的可用区。


实例规格:选择基础版。


选择网络:选择在上文中创建好的私有网络。
选择安全组:选择在上文中默认创建的安全组。


字符集:选择 UTF8。
root 密码:设置 root 用户密码。
2. 设置完成后,单击下一步,确认配置信息。


3. 单击立即购买,核实账单后,付费开通即可。

在 MySQL 中初始化业务数据
1. 进入腾讯云 数据库 MySQL 控制台,单击左侧菜单实例列表,进入 MySQL 实例列表界面。在顶部选择地域为北京,单击登录。

2. 进入数据库管理登录界面,输入账号和密码后,单击登录。

3. 在数据库管理界面,选择顶部菜单新建 > 新建库。

4. 进入新建库界面,单击新建数据库,进入新建数据库界面,填写数据库名称,建议填写 emall,填写完成后,单击确定。

5. 在数据库管理界面,单击顶部菜单 SQL 窗口 > SQL,进入SQL界面,通过执行 SQL 语句快速建表。
依次复制下面的建表 SQL 语句,每复制一次 SQL 语句,单击一次执行。执行后,清空 SQL 内容再复制下一个建表语句。

具体建表语句如下:
创建城市表(cities)
-- 在MySQL中创建城市表CREATE TABLE cities (city_id INT NOT NULL AUTO_INCREMENT,city_name VARCHAR(50) NOT NULL,PRIMARY KEY (city_id)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;-- 插入数据INSERT INTO cities (city_name) VALUES('北京市'),('上海市'),('广州市'),('深圳市'),('成都市'),('武汉市'),('南京市'),('杭州市'),('重庆市'),('西安市'),('苏州市'),('天津市'),('郑州市'),('长沙市'),('青岛市'),('沈阳市');
创建商品品类表(categories)
-- 创建商品品类表CREATE TABLE categories (category_id INT NOT NULL AUTO_INCREMENT,category_name VARCHAR(50) NOT NULL,PRIMARY KEY (category_id)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;--插入数据INSERT INTO categories (category_name) VALUES('电子产品'),('家用电器'),('服装鞋帽'),('食品饮料'),('图书音像'),('运动户外'),('家居建材'),('母婴用品'),('汽车用品');
创建商品表(products)
-- 创建商品表CREATE TABLE products (product_id INT NOT NULL AUTO_INCREMENT,category_id INT NOT NULL,product_name VARCHAR(100) NOT NULL,PRIMARY KEY (product_id),FOREIGN KEY (category_id) REFERENCES categories(category_id)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;-- 插入数据INSERT INTO products (category_id, product_name) VALUES(1, '智能手机'),(1, '笔记本电脑'),(1, '平板电脑'),(2, '空调'),(2, '洗衣机'),(3, '男士外套'),(3, '女士裙子'),(4, '碳酸饮料'),(4, '矿泉水'),(5, '现代小说'),(5, '历史书籍'),(6, '跑步鞋'),(6, '瑜伽垫'),(7, '实木家具'),(7, '床上用品'),(8, '婴儿奶粉'),(8, '儿童玩具');
创建订单表(orders)
-- 创建订单表CREATE TABLE orders (order_id INT NOT NULL AUTO_INCREMENT,product_id INT NOT NULL,quantity INT NOT NULL CHECK (quantity > 0),unit_price DECIMAL(10, 2) NOT NULL,amount DECIMAL(10, 2) NOT NULL,order_time DATETIME NOT NULL,shipping_city_id INT NOT NULL,shipping_address TEXT NOT NULL,PRIMARY KEY (order_id),FOREIGN KEY (product_id) REFERENCES products(product_id),FOREIGN KEY (shipping_city_id) REFERENCES cities(city_id)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;-- 插入数据INSERT INTO orders (product_id, quantity, unit_price, amount, order_time, shipping_city_id, shipping_address) VALUES(1, 1, 4999.00, 4999.00, '2024-04-01 10:00:00', 1, '北京市海淀区某小区'),(2, 1, 6999.00, 6999.00, '2024-04-02 11:00:00', 2, '上海市浦东新区某小区'),(3, 2, 3999.00, 7998.00, '2024-04-03 12:00:00', 3, '广州市天河区某小区'),(4, 1, 5999.00, 5999.00, '2024-04-04 13:00:00', 4, '深圳市南山区某小区'),(5, 1, 999.00, 999.00, '2024-04-05 14:00:00', 5, '成都市武侯区某小区'),(6, 1, 699.00, 699.00, '2024-04-06 15:00:00', 6, '武汉市江汉区某小区'),(7, 1, 2999.00, 2999.00, '2024-04-07 16:00:00', 7, '南京市鼓楼区某小区'),(8, 1, 3999.00, 3999.00, '2024-04-08 17:00:00', 8, '杭州市西湖区某小区'),(9, 1, 4999.00, 4999.00, '2024-04-09 18:00:00', 9, '重庆市渝中区某小区'),(10, 1, 1999.00, 1999.00, '2024-04-10 19:00:00', 10, '西安市碑林区某小区');
在 WeData 中绑定 MySQL
1. 登录腾讯云 数据开发治理平台 WeData 控制台,单击左侧菜单项目列表,选择顶部地域为北京,在对应的项目操作栏,单击项目管理。


2. 在数据源管理界面,单击新增数据源,选择数据源类型为 MySQL(也可以选择腾讯云MySQL数据源类型),单击下一步。

3. 进入新建 MySQL 数据源界面,填写相关信息后,单击保存。
数据源名称:
数据源名称:便于区分即可,示例:bj_mall。
显示名:便于区分即可,示例:北京-测试-商城。
实例信息:
地域:选择北京。
选择实例:下拉选择即可。
数据表连接信息:
数据库名称:emall
用户名:root
密码:填写上文中购买 MySQL 设置的密码。


至此所有准备工作均已完成,下面正式开始本教程的数据同步与数据开发部分。后续操作内容可使用腾讯云子账号进行操作。