首页
学习
活动
专区
工具
TVP
发布

桥路_大数据

专栏作者
179
文章
228499
阅读量
36
订阅数
SQL简单优化思路
在编写SQL查询时,优化查询性能是一个重要的考虑因素,特别是在处理多表连接(JOIN)和子查询时。以下是一些具体的技巧和最佳实践,可以帮助你在保持相同返回值的前提下,降低SQL执行速度:
十里桃花舞丶
2024-04-04
1020
【原理】数据模型&系统架构
HBase表,本质是以Key-Value的方式存储,然后使用二维表的形式进行组织。每张表都属于一个NameSpace(命名空间)之下,它是对表的逻辑分组,类似于关系数据库中的Database;利用命名空间,在多租户场景下可做到更好的资源和数据隔离。
十里桃花舞丶
2021-12-06
5890
Hive性能优化
Hive在执行SQL命令时,可以设置严格模式,防止用户执行一些对性能影响很大的查询。
十里桃花舞丶
2021-09-10
5440
Hive权限管控
一般而言,会推荐使用基于存储的授权和基本标准SQL的授权,来对Hive进行权限管控。
十里桃花舞丶
2021-09-10
6750
SQL DQL:数据查询
使用Select进行查询时,根据查询需求不同,可以分为过滤、排序、分桶与聚合、连接,这4类型查询操作。
十里桃花舞丶
2021-09-10
5060
表的高级操作:倾斜表&事务表
对于一列或多列中出现倾斜值的表,可以创建倾斜表(Skewed Tables)来提升性能。比如,表中的key字段所包含的数据中,有50%为字符串”1“,那么这种就属于明显的倾斜现象;于是在对key字段进行处理时,倾斜数据会消耗较多的时间。
十里桃花舞丶
2021-09-10
7910
表的高级操作:分区
表在存储时,可以进行分区操作,将数据按分区键的列值存储在表目录的子目录中,子目录名=“分区键=键值”。
十里桃花舞丶
2021-09-10
2720
SQL DDL:基本操作
Hive DDL根据操作对象的不同可分为:数据库操作、表的基本操作、表的高级操作、函数操作。
十里桃花舞丶
2021-09-10
2710
大数据数据仓库技术
在已经存在分布式计算引擎MapReduce的情况下,为什么会诞生Hive这样的产品?其实主要还是因为易用性问题。虽然MapReduce提供了分布式开发的能力,但它毕竟是一个通用计算引擎,在特定且相对成熟的垂直场景中,易用性就比较差了。
十里桃花舞丶
2021-09-10
3260
【微课】MySQL快速解除死锁
其中DML锁是因为SQL执行异常,导致更新事务无法提交,如更新语句中的查询语句无索引,造成全表扫描而阻塞。
十里桃花舞丶
2021-02-05
8620
企业常用Hive SQL配置
在企业中使用Hive SQL需要一定的规范。一般在SQL编写之前,需要进行规范的注释添加,并设定特定的配置。
十里桃花舞丶
2021-01-07
4870
Hive Join方式与优化
Hive支持的Join方式有Inner Join和Outer Join,这和标准SQL一致。除此之外,还支持一种特殊的Join:Left Semi-Join。
十里桃花舞丶
2021-01-06
8720
实时数仓:Kappa架构
上一期讲了Lambda架构,对于实时数仓而言,Lmabda架构有很明显的不足,首先同时维护两套系统,资源占用率高,其次这两套系统的数据处理逻辑相同,代码重复开发。
十里桃花舞丶
2021-01-06
6.1K0
实时数仓:流式数据建模
数据模型设计是贯穿数据处理过程的,在实时流式数据处理中也一样。实时建模与离线建模类似,数据模型整体上分为5层(ODS、DWD、DWS、ADS、DIM)。
十里桃花舞丶
2021-01-06
1.3K0
【项目实战】ADS 层复购率统计
ADS 层需要在 DWS 层的数据上计算复购率,并存储结果表。复购率可以从 DWS 层的用户购买商品明细表中进行计算。
十里桃花舞丶
2020-09-24
8100
【项目实战】架构设计&环境规划
根据企业的需求,业务数据存储在 MySQL 中,选择 Sqoop 作为 ETL 工具,HDFS 临时保存 Sqoop 抽取的数据。数据仓库部分选择主流的 Hive,并使用 Tez 进行优化;其中 ADS 层的数据会导出到 MySQL 中,便于前端业务进行快速调用。使用 Presto 作为快速查询的工具,Azkaban 作为调度工具。
十里桃花舞丶
2020-09-24
3820
【课后作业】ADS 层创建&数据接入
因为数据仓库已经创建完成,所以直接基于已有的 DWS 层进行计算。计算 GMV 的 ADS 层具体操作下面会具体进行讲解。
十里桃花舞丶
2020-09-24
9960
【课后作业】ADS 层数据导出
在 MySQL 节点(Node02)的 /home/warehouse/sql 目录下编写 mysql_gmv_ddl.sql,创建数据表:
十里桃花舞丶
2020-09-24
7840
【项目实战】Azkaban 自动化调度
现在整个数据仓库的流程已经打通,并且所有脚本也已经封装完成。但从业务数据库抽取数据,一般选择在夜间进行,而且数据仓库的整个处理流程是有先后关系的,所以需要使用自动化调度工具来进行定时、控制依赖关系。
十里桃花舞丶
2020-09-24
6020
【课后作业】Azkaban 自动化调度
最后,将完成的 Shell 脚本交由 Azkaban 进行自动化调度。具体步骤讲解如下。
十里桃花舞丶
2020-09-24
3450
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档