腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

桥路_大数据

专栏作者

179

文章

228499

阅读量

36

订阅数

SQL简单优化思路

sql 连接索引性能优化

在编写SQL查询时，优化查询性能是一个重要的考虑因素，特别是在处理多表连接（JOIN）和子查询时。以下是一些具体的技巧和最佳实践，可以帮助你在保持相同返回值的前提下，降低SQL执行速度：

十里桃花舞丶

2024-04-04

1020

【原理】数据模型&系统架构

hbase TDSQL MySQL 版数据库 sql unix

HBase表，本质是以Key-Value的方式存储，然后使用二维表的形式进行组织。每张表都属于一个NameSpace（命名空间）之下，它是对表的逻辑分组，类似于关系数据库中的Database；利用命名空间，在多租户场景下可做到更好的资源和数据隔离。

十里桃花舞丶

2021-12-06

5890

Hive性能优化

Hive在执行SQL命令时，可以设置严格模式，防止用户执行一些对性能影响很大的查询。

十里桃花舞丶

2021-09-10

5440

Hive权限管控

hive sql 存储 linux 大数据

一般而言，会推荐使用基于存储的授权和基本标准SQL的授权，来对Hive进行权限管控。

十里桃花舞丶

2021-09-10

6750

SQL DQL：数据查询

sql dql having select sort

使用Select进行查询时，根据查询需求不同，可以分为过滤、排序、分桶与聚合、连接，这4类型查询操作。

十里桃花舞丶

2021-09-10

5060

表的高级操作：倾斜表&事务表

hive sql 大数据

对于一列或多列中出现倾斜值的表，可以创建倾斜表（Skewed Tables）来提升性能。比如，表中的key字段所包含的数据中，有50%为字符串”1“，那么这种就属于明显的倾斜现象；于是在对key字段进行处理时，倾斜数据会消耗较多的时间。

十里桃花舞丶

2021-09-10

7910

表的高级操作：分区

sql 存储 hive

表在存储时，可以进行分区操作，将数据按分区键的列值存储在表目录的子目录中，子目录名=“分区键=键值”。

十里桃花舞丶

2021-09-10

2720

SQL DDL：基本操作

数据库 hive sql

Hive DDL根据操作对象的不同可分为：数据库操作、表的基本操作、表的高级操作、函数操作。

十里桃花舞丶

2021-09-10

2710

大数据数据仓库技术

大数据 hive sql hadoop 数据分析

在已经存在分布式计算引擎MapReduce的情况下，为什么会诞生Hive这样的产品？其实主要还是因为易用性问题。虽然MapReduce提供了分布式开发的能力，但它毕竟是一个通用计算引擎，在特定且相对成熟的垂直场景中，易用性就比较差了。

十里桃花舞丶

2021-09-10

3260

【微课】MySQL快速解除死锁

大数据 python sql 云数据库 SQL Server 数据库

其中DML锁是因为SQL执行异常，导致更新事务无法提交，如更新语句中的查询语句无索引，造成全表扫描而阻塞。

十里桃花舞丶

2021-02-05

8620

企业常用Hive SQL配置

sql 大数据 hive

在企业中使用Hive SQL需要一定的规范。一般在SQL编写之前，需要进行规范的注释添加，并设定特定的配置。

十里桃花舞丶

2021-01-07

4870

Hive Join方式与优化

hive 缓存 sql

Hive支持的Join方式有Inner Join和Outer Join，这和标准SQL一致。除此之外，还支持一种特殊的Join：Left Semi-Join。

十里桃花舞丶

2021-01-06

8720

实时数仓：Kappa架构

数据库 sql kafka 消息队列 CMQ 版 serverless

上一期讲了Lambda架构，对于实时数仓而言，Lmabda架构有很明显的不足，首先同时维护两套系统，资源占用率高，其次这两套系统的数据处理逻辑相同，代码重复开发。

十里桃花舞丶

2021-01-06

6.1K0

实时数仓：流式数据建模

数据库数据处理 sql kafka

数据模型设计是贯穿数据处理过程的，在实时流式数据处理中也一样。实时建模与离线建模类似，数据模型整体上分为5层（ODS、DWD、DWS、ADS、DIM）。

十里桃花舞丶

2021-01-06

1.3K0

【项目实战】ADS 层复购率统计

ADS 层需要在 DWS 层的数据上计算复购率，并存储结果表。复购率可以从 DWS 层的用户购买商品明细表中进行计算。

十里桃花舞丶

2020-09-24

8100

【项目实战】架构设计&环境规划

云数据库 SQL Server 数据库 sql hive

根据企业的需求，业务数据存储在 MySQL 中，选择 Sqoop 作为 ETL 工具，HDFS 临时保存 Sqoop 抽取的数据。数据仓库部分选择主流的 Hive，并使用 Tez 进行优化；其中 ADS 层的数据会导出到 MySQL 中，便于前端业务进行快速调用。使用 Presto 作为快速查询的工具，Azkaban 作为调度工具。

十里桃花舞丶

2020-09-24

3820

【课后作业】ADS 层创建&数据接入

因为数据仓库已经创建完成，所以直接基于已有的 DWS 层进行计算。计算 GMV 的 ADS 层具体操作下面会具体进行讲解。

十里桃花舞丶

2020-09-24

9960

【课后作业】ADS 层数据导出

sql 数据库云数据库 SQL Server

在 MySQL 节点（Node02）的 /home/warehouse/sql 目录下编写 mysql_gmv_ddl.sql，创建数据表：

十里桃花舞丶

2020-09-24

7840

【项目实战】Azkaban 自动化调度

现在整个数据仓库的流程已经打通，并且所有脚本也已经封装完成。但从业务数据库抽取数据，一般选择在夜间进行，而且数据仓库的整个处理流程是有先后关系的，所以需要使用自动化调度工具来进行定时、控制依赖关系。

十里桃花舞丶

2020-09-24

6020

【课后作业】Azkaban 自动化调度

sql 数据库云数据库 SQL Server

最后，将完成的 Shell 脚本交由 Azkaban 进行自动化调度。具体步骤讲解如下。

十里桃花舞丶

2020-09-24

3450

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态