首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

hive DIM 层数据装载解析

弟大翻着洗

用法:当你想要从左表(A)获取所有记录,并且希望包含与右表(B)匹配的记录,即使右表没有匹配时也会返回左表的记录,右表则显示空

9520

尚硅谷电商数仓 6.0 hive DIM 层

弟大翻着洗

通常情况下,时间维度表的数据并不是来自于业务系统,而是手动写入,并且由于时间维度表数据的可预见性,无须每日导入,一般可一次性导入一年的数据。

9320

Hive ODS 层数据装载脚本

弟大翻着洗

此脚本用于将hdfs上的业务数据和日志数据装载到hive对于路径(建表时指定的路径)

12820

尚硅谷电商数仓 6.0 hive ODS 层建表脚本

弟大翻着洗

hive ODS 层的数据来源是MySQL业务表和服务器的日志数据。由于我们的表过多,我们希望一次性可以建表成功,所以写一个hql脚本(该脚本在hive的gma...

9410

【赵渝强老师】Hive的体系架构

赵渝强老师

京东大学 · 大数据学院院长 (已认证)

在Hadoop体系中提供数据分析引擎Hive。它允许使用SQL语句来分析处理数据,而不需要编程复杂的Java程序。同时Hive提供了丰富的数据模型来创建各种表结...

11910

DataGrip 连接Hive出错

弟大翻着洗

The specified database user/password combination is rejected: org.apache.hadoop....

7820

Hive 单节点部署

弟大翻着洗

Hive 是一个建立在 Hadoop 之上的数据仓库工具,它用于提供数据的查询和分析功能。Hive 允许用户使用类似 SQL 的查询语言(HiveQL)来处理存...

13020

Hive面试题持续更新【2023-07-07】

火之高兴

Hive是一个在Hadoop上构建的数据仓库基础架构,它提供了一种类似于SQL的查询语言,称为HiveQL,用于处理和分析大规模的结构化数据。Hive的体系架构...

9510

【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

火之高兴

本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天...

7310

Hive 中 sort by 和 order by 的区别

火之高兴

在 Hive 中, SORT BY 和 ORDER BY 都用于对查询结果进行排序,但它们在实现方式和适用场景上有一些区别。

7810

基于MapReduce的Hive数据倾斜场景以及调优方案

火之高兴

通常认为当所有的map task全部完成,并且99%的reduce task完成,只剩下一个或者少数几个reduce task一直在执行,这种情况下一般都是发生...

7210

Hive中Join优化的几种算法

火之高兴

Common Join 是最稳定且默认的Join算法,通过 MR Job 完成 Join 。

8510

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

火之高兴

这段代码使用Faker库生成模拟的个人信息数据,每个CSV文件包含一定数量的行数据,数据字段包括 Rowkey, Name, Age, Email, Addre...

12010

Hive跨集群数据迁移过程

火之高兴

本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过HDFS拉取和重新建表导入的方式完成数据库迁移。

10310

Hive中parquet压缩格式分区表的跨集群迁移记录

火之高兴

从华为A集群中将我们的数据迁移到华为B集群,其中数据经过华为集群管理机local跳转。

6910

Hive表加工为知识图谱实体关系表标准化流程

火之高兴

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段,包括重要的属性描述字段,最后导入图数据库。

10110

接收Kafka数据并消费至Hive表

火之高兴

将Kafka中的数据消费到Hive可以通过以下简单而稳定的步骤来实现。这里假设的数据是以字符串格式存储在Kafka中的。

13610

基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

火之高兴

在具体的实施中,基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台...

9610

一文掌握最新数据湖方案Spark+Hadoop+Hudi+Hive整合案例实践总结

用户9421738

大数据生态发展数年,各种组件版本迭代升级在所难免。组件之间、不同版本之间的适配整合升级,尤为重要。本文主要讲述当前火热的数据湖方案Spark+Hadoop+Hu...

10110

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

张飞的猪

不同的hive版本,不同执行引擎之间的调优行为有所差异,所以同一条sql可能会有不一样的速度。

14020
领券