首页
学习
活动
专区
圈层
工具
发布
首页标签大数据处理套件 TBDS

#大数据处理套件 TBDS

安全、易用的一站式大数据存算分析平台

Pandas与Snowpark Pandas API数据处理框架深度解析

qife122

本文是对现有Pandas工作流迁移至Snowpark Pandas API的过程分析,采用近乎"直接迁移"的方式满足不断增长的数据需求。

10010

Apache Arrow:跨语言的内存分析工具集

qife122

Apache Arrow是一个跨语言的开发平台,用于内存数据分析。它提供了一种标准化的列式内存格式,支持高效的数据交换和处理,适用于各种大数据处理场景。Arro...

12510

第四章:数据治理的目标

数据小吏

如果是一个ToB的厂商,在说数据治理的时候,大概率说的是一套数据治理工具,他不会提组织架构、业务流程、规章制度等等。仅仅提供了一套数据治理的工具产品,这套工具按...

6800

第二章:数据治理的边界在哪里

数据小吏

面对数据治理,不知道其他人什么感受,我的感受好像面对一个庞然大物,无从下手。似乎有很多的事情需要做,但是具体做哪些?先做什么,再做什么?有没有牵一发而动全身的那...

9300

大数据挖掘实战-PyODPS基础操作

fanstuck

文章链接:https://cloud.tencent.com/developer/article/2465951

79930

数据资产管理体系与标准

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

数据资产管理(DAM,Data Asset Management)是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方...

1.3K100

大数据平台:计算资源优化技术&作业诊断

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

大数据平台的资源管理组件主要针对存储资源与计算资源进行分析优化。前文《大数据平台:资源管理及存储优化技术》主要介绍了存储资源优化,本文主要介绍大数据平台构建过程...

88490

大数据平台:资源管理及存储优化技术

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

大数据平台的资源管理组件主要涉及存储资源和计算资源管理两部分,属于大数据平台运维管理系统。基于资源管理系统,大数据平台的开发运维人员能够清晰掌控平台的资源使用情...

1.3K90

大数据平台:Ambari集群管理

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Ambari是Hortonworks主导发行的开源管理平台,作为Apache顶级项目,Ambari也是最早且最成熟的大数据集群管理开源组件,可类比于Cloude...

1.2K70

Presto CBO统计元数据

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Presto:2012年秋季Facebook内部开始研发,2013年正式对外开源。Presto是Facebook用于补充和替代Hive的产品,主要用于实时场景的...

37040

Spark CBO统计元数据

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Statistics 统计信息,参考:org.apache.spark.sql.catalyst.plans.logical.Statistics

47591

Hive CBO优化剖析

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Hive是较早的SQL on Hadoop系统,对大数据SQL执行有广泛和深远的影响。它最初由Facebook开发,后来成为Apache软件基金会的一个开源项目...

67260

Calcite系列(十二):可插拔性&JDBC驱动

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

为了实现动态数据源管理框架的目标,Calcite提供了丰富的可插拔能力和扩展性。用户可以根据使用场景进行自定义扩展。相关可插拔扩展的组件包括:

1K30

Calcite系列(十一):物化视图

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

物化视图(Materialized View):是一种特殊的物理表,本质是预计算,是多个计算过程之间的联系建立。从数据组织层面优化数据访问效率,即把某些耗时的操...

1.1K90

Calcite系列(十):执行流程-计划树执行

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

计划树执行是SQL处理的第五步,也称为Implementor执行实现。Calcite主要提供两种Implementor实现方式:RelImplementor 和...

72870

Calcite系列(九):执行流程-优化器优化

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

优化器优化是SQL处理的第四步,也是最核心的一步,优化器优化本质是基于优化规则实现关系代数等价转换。

1.4K70

Calcite系列(八):执行流程-计划树构建

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

计划树构建是SQL处理的第三步,构建出可关系代数优化的逻辑计划树RelNode,是优化器执行优化的前提。

84060

Calcite系列(七):执行流程-合法性校验

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

合法性校验是SQL处理的第二步,在计算执行前,提前验证SQL正确性。该验证操作是非线性的,需要基于语法树处理各种嵌套的复杂情况。Calcite合法性校验基于Sq...

78930

Calcite系列(六):执行流程-语法解析

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

目前广泛使用的语法解析框架主要包括ANTLR、JavaCC和Yacc等。在大数据领域中,很多计算引擎都是基于ANTLR进行语法解析,例如 Hive、Spark和...

1.1K80

Calcite系列(五):执行流程-概览

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

SQL执行流程有一套通用的步骤,尽管具体的实现可能会因数据库系统的不同而有所差异,但流程相对固定。以下是通用的SQL处理流程:

59660
领券