数据开发治理平台 WeData Kyuubi 数据源配置

说明：
WeData 中支持基于 SQL 的血缘解析，由于 Kyuubi 支持不同类型的数据源查询，因此该功能依赖 Kyuubi 中的 Catalog 配置来确定具体查询的数据源类型，当前用户可以手动设置和管理 Catalog 映射。
Kyuubi 数据源血缘解析配置
Kyuubi 数据源血缘解析依赖 Catalog 配置，当前 Kyuubi 数据源支持系统创建和自定义创建两种方式：
系统源：
用户在存算引擎配置中绑定安装了 Kyuubi 组件的 EMR 集群，由系统自动创建。该数据源无需配置，默认会映射到 Hive 系统源对应的 Catalog。
﻿
自定义源：
用户在数据源管理中配置的 Kyuubi 数据源。
﻿
在 Catalog 映射配置中配置 Kyuubi 数据访问使用的 Catalog 映射，用于基于 SQL 的血缘解析获取正确的数据类型，示例如下：
﻿
示例说明：
该配置中包含了3个 Catalog 名称：hive_catalog,hbase_catalog,mysql_catalog，该名称需要与 Kyuubi 下 Spark 的 Catalog一致，比如 hive_catalog 配置：
--定义新的Hive类型Catalog 
SET spark.sql.catalog.hive_catalog=org.apache.iceberg.spark.SparkCatalog; 
SET spark.sql.catalog.hive_catalog.type=hive;
SET spark.sql.catalog.hive_catalog.uri=thrift://ip-new:9083; 
SET spark.sql.catalog.hive_catalog.warehouse=s3a://mybucket/warehouse; 
填写好 Catalog 名称后，选择对应的数据源即可。
“设置为默认”：当被设置为默认的 Catalog 时，Kyuubi SQL 中无指定 Catalog 时的默认值。若有多个 Catalog 时，可在 Kyuubi SQL 中指定 Catalog：
select * from hive_catalog.db.table01;
配置数据源：Kyuubi
腾讯云大数据基础产品，以 EMR 中 Kyuubi 组件配置数据源为例进行讲解。Kyuubi 数据源支持云实例和连接串两种连接方式。
通过云实例方式创建数据源。
﻿
参数
说明
连接类型
选择云实例或连接串的数据源连接形式。
所属项目
当前数据源创建时的归属项目。
数据源名称
新建的数据源的名称，由用户自定义且不可为空。命名以字母开头，可包含字母、数字、下划线。长度在20字符以内。
显示名
数据源在产品中使用时的显示名称，不填默认显示数据源名称。
描述
选填，对本数据源的描述。
数据源权限
项目共享表示当前数据源项目所有成员均可使用 ，仅个人和管理员表示该数据源仅创建人和项目管理员可用。
集群类型
支持 EMR on CVM（基于腾讯云虚拟机） 和 EMR on TKE （基于腾讯云容器服务）两种。
获取实例
选择账户下云实例所在的地域、实例名称及 ID 信息。
数据库名称
需要连接的数据库名称。
用户名
连接数据库的用户名称。
密码
连接数据库的密码。
认证方式
支持无认证和 Kerberos 两种认证方式。
Kerberos：需要上传 Kerberos 认证所需的 keytab，conf 配置文件，并填写 principal。
﻿
Catalog映射
该配置用于 Kyuubi SQL 任务血缘解析后将库表信息映射到对应的数据源上，需要确保输入的 catalog 和 kyuubi 配置一致。
数据连通性
测试是否能够连通所配置的数据库。
说明：
若连通性测试不通过，数据源仍可保存。连通性测试未通过而保存但数据源不可使用。
如果连通性测试不通过，可能是因为 WeData 被数据库所在网络防火墙禁止，请参见 集成资源连通性与使用规划。
通过连接串创建数据源。
﻿
参数
说明
连接类型
选择云实例或连接串的数据源连接形式。
所属项目
当前数据源创建时的归属项目。
数据源名称
新建的数据源的名称，由用户自定义且不可为空。命名以字母开头，可包含字母、数字、下划线。长度在20字符以内。
显示名
数据源在产品中使用时的显示名称，不填默认显示数据源名称。
描述
选填，对本数据源的描述。
数据源权限
项目共享表示当前数据源项目所有成员均可使用 ，仅个人和管理员表示该数据源仅创建人和项目管理员可用。
部署方式
支持自建实例、公网实例两种部署方式，其中自建实例为在腾讯云服务器上部署的数据源实例，公网实例为在客户本地IDC或其他云上资源实例，支持通过公网进行访问连接。
区域和网络
当选择自建实例时，需要选择数据源实例所在地域与 vpcID。
JDBC URL
用于连接 Kyuubi 数据源实例的连接串信息，包含 host ip、port、数据库名称等信息。
连接 kyuubi 数据源，填写样例：jdbc:hive2://<host>:<port>/<database>;principal=<principal>;transportMode=<transportMode>;ssl=<ssl>;httpPath=<httpPath>
通过 kyuubi 访问 hive，填写样例：jdbc:hive2://<kyuubi_host>:<kyuubi_port>/;transportMode=binary;httpPath=<hive_jdbc_url>
通过 kyuubi 访问 spark，填写样例：jdbc:hive2://<kyuubi_host>:<kyuubi_port>/;transportMode=binary;httpPath=<spark_jdbc_url>
通过 kyuubi 访问 presto，填写样例：jdbc:hive2://<kyuubi_host>:<kyuubi_port>/<presto_catalog>;schema=<presto_schema>
zookeeper 连接
填写 zookeeper 连接地址。
 填写样例：jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2
用户名
连接数据库的用户名称。
密码
连接数据库的密码。
认证方式
支持无认证和 Kerberos 两种认证方式。
Kerberos：需要上传 Kerberos 认证所需的 keytab，conf 配置文件，并填写 principal。
﻿
Catalog 映射
该配置用于 Kyuubi SQL 任务血缘解析后将库表信息映射到对应的数据源上，需要确保输入的 Catalog 和 Kyuubi 配置一致。
数据连通性
测试是否能够连通所配置的数据库。
说明：
若连通性测试不通过，数据源仍可保存。连通性测试未通过而保存但数据源不可使用。
如果连通性测试不通过，可能是因为 WeData 被数据库所在网络防火墙禁止，请参见 集成资源连通性与使用规划。
﻿
﻿

参数	说明
连接类型	选择云实例或连接串的数据源连接形式。
所属项目	当前数据源创建时的归属项目。
数据源名称	新建的数据源的名称，由用户自定义且不可为空。命名以字母开头，可包含字母、数字、下划线。长度在20字符以内。
显示名	数据源在产品中使用时的显示名称，不填默认显示数据源名称。
描述	选填，对本数据源的描述。
数据源权限	项目共享表示当前数据源项目所有成员均可使用，仅个人和管理员表示该数据源仅创建人和项目管理员可用。
集群类型	支持 EMR on CVM（基于腾讯云虚拟机）和 EMR on TKE （基于腾讯云容器服务）两种。
获取实例	选择账户下云实例所在的地域、实例名称及 ID 信息。
数据库名称	需要连接的数据库名称。
用户名	连接数据库的用户名称。
密码	连接数据库的密码。
认证方式	支持无认证和 Kerberos 两种认证方式。 Kerberos：需要上传 Kerberos 认证所需的 keytab，conf 配置文件，并填写 principal。
Catalog映射	该配置用于 Kyuubi SQL 任务血缘解析后将库表信息映射到对应的数据源上，需要确保输入的 catalog 和 kyuubi 配置一致。
数据连通性	测试是否能够连通所配置的数据库。说明：若连通性测试不通过，数据源仍可保存。连通性测试未通过而保存但数据源不可使用。如果连通性测试不通过，可能是因为 WeData 被数据库所在网络防火墙禁止，请参见集成资源连通性与使用规划。

Kyuubi 数据源配置

本页目录：

Kyuubi 数据源血缘解析配置

配置数据源：Kyuubi

﻿

﻿