云数据仓库套件 Sparkling(Tencent Sparkling Data Warehouse Suite)基于业界领先的 Apache Spark 框架为您提供一套全托管、简单易用的、高性能的 PB 级云端数据仓库解决方案。支持创建数千节点的企业级云端分布式数据仓库,并高效的弹性扩缩容,支持数据可视化,通过智能分析帮助企业挖掘数据的价值。
用户只需要在腾讯云终端界面选择产品的参数指标即可完成对云数据仓库套件 Sparkling 服务的创建。具体创建流程对用户完全屏蔽,由后台完成对 CVM、TencentDB、CLB 等资源的申请,及对云数据仓库套件 Sparkling 集群的搭建、服务的拉起、监控等创建工作。
云数据仓库套件 Sparkling 提供统一的交互方式,用户可以使用数据开发页面进行交互式的数据处理,同时云数据仓库套件 Sparkling 也为用户提供了 JDBC/ODBC 接口,用户可以程序化的方式与数仓进行交互。
独享模式为用户提供集群管理和监控模块,支持集群创建、自动扩缩容、集群配置、启停、资源智能监控报警等功能。Sparkling 集群是全托管集群,用户无需过多关注集群底层架构,减少运维压力。
提供各类异构数据源的接入集成。用户可以通过 Data Studio 控制台将传统关系型数据库 RDBMS、对象存储 COS、Kafka 消息队列中的数据经过抽取、转换和装载,接入到云数据仓库套件 Sparkling 的存储中,同时也提供了丰富的抽取条件和抽取任务调度,以满足用户不同的数据导入需求。
提供元数据管理模块,支持技术元数据、管理元数据和业务元数据的注册、导入、存储、检索、导出、发布等管理功能,同时为用户提供数据地图、数据字典、数据血缘追踪和影响分析、元数据版本管理、元数据统计分析、数据质量报表等多种数据管理能力。
云数据仓库套件 Sparkling 提供了企业级的作业调度引擎,可以帮助用户以复杂的依赖关系构建完整的作业流程。同时提供任务编排调度管理模块,支持时间驱动与事件驱动的 DAG 任务编排和调度。同时提供完备的任务监控,方便用户运维数据 ETL 和数据加工分析作业。
提供项目管理模块,支持客户按照企业内部产品线、团队和项目方式来创建项目空间并进行项目人员和笔记簿管理。有完备的账号服务相关方案,确保主账号和子账号之间的资源共享和权限管理。
云数据仓库套件 Sparkling 依托腾讯云提供的 IaaS 服务以及自身组件的能力,提供了高性能、高可用性以及高可扩展性的数仓产品。
通过用户专用网络,权限管理、多租户隔离等方式,保证用户数据的安全。
Sparkling 集群是云数据仓库套件 Sparkling 为用户提供服务的载体。一个 Sparkling 集群由 Master 节点和工作节点组成。工作节点包括核心节点和弹性计算节点,其中核心节点提供数据存储能力和计算能力,弹性计算节点提供计算能力。Sparkling 集群的大小,决定了云数据仓库套件 Sparkling 所能提供的存储能力和计算能力的上限。 Sparkling 支持创建高可用的集群,来保证服务的高可用性。在高可用模式下,Master 节点服务在机架级硬件故障情况下仍然可用。
提供各类异构数据源的接入集成。用户可以通过 Data Studio 控制台将传统关系型数据库、对象存储 COS、Kafka 流式数据经过抽取、转换和装载,接入到云数据仓库套件 Sparkling 的存储中。 Sparkling 提供丰富的功能供用户定制数据接入过程。用户可以:
Sparkling 为用户提供基于 Notebook 的线上交互式环境。用户可以通过在 Notebook 中执行代码,对数据仓库中的数据进行分析和加工。
用户可以在 Sparkling Notebook 中执行 SQL、python 和 spark 代码。Sparkling SQL 是一种结构化的查询语言,语法与 MySQL/Oracle/Hive SQL 类似,兼容业界 SQL 标准 ANSI SQL 2003。熟悉传统数据库或 Hive 的用户可以很容易上手。除了标准的 SQL 操作,Sparkling SQL 还嵌入了多种高级函数,这些函数包含了常见的数学运算、统计分析、时间日期等方面的操作。
用户在 Sparkling Notebook 里还可以运行 spark 和 pyspark 程序,方便用户开发更灵活的数据分析程序。
Sparkling Notebook 提供了数据可视化工具。通过拖拽组件的方式,用户可以在 Notebook 中通过多种方式(如饼状图、散点图等)对数据进行可视化。通过结合交互式编程和数据可视化,用户可以方便的分析和调试数据。用户还可以将数据分析结果进行报表展示,以及将分析结果导出下载到本地。
Sparkling 还提供一些辅助功能提高用户效率,例如用户可以按照项目组织自己 Notebook,可以在一个 SQL IDE 中查看数据表。
对于持续更新的数据,Sparkling 支持用户将数据导入和 Notebook 设置为按一定周期定时执行。周期设置的范围从小时到月。Sparkling 提供可靠的周期调度,支持任务的回填调度。 除了基本的数据导入和 Notebook 定时任务,用户可以将数据导入和 Notebook 进行组合,组成一个 DAG 工作流任务,Sparkling 将对整体 DAG 工作流任务进行按依赖关系进行调度,这在复杂的数据分析流水线和数据科学等场景下尤为有用。 通过 Sparkling 统一的任务管理界面可以查看和管理数据导入和 Notebook 定时运行任务。用户可以进行如查看任务状态、历史信息、临时触发任务或终止任务等操作。
云数据仓库套件 Sparkling 提供强大的弹性扩缩容能力。计算存储分离,集群工作节点包括核心节点和弹性计算节点。用户通过 Data Studio 控制台或云 API,实现手动和自动对大规模节点的快速线性横向的扩容,以及纵向计算和存储能力的变配。弹性计算节点同时支持自动化弹性缩容,以适配业务的发展。
提供元数据管理模块,支持技术元数据、管理元数据和业务元数据的注册、导入、存储、检索、导出、发布等管理功能,同时为用户提供数据地图、数据字典、数据血缘追踪和影响分析、元数据版本管理、元数据统计分析、数据质量报表等多种数据管理能力。
提供项目管理模块,支持客户按照企业内部产品线、团队和项目方式来创建项目空间并进行项目人员和笔记簿管理。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。