#Hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

系列 | Spark之数据倾斜调优

暴走大数据

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

6310

Hadoop已死?Hadoop万岁!

昱良

百度 · 研发工程师 (已认证)

• Hadoop生态系统提供了多种工具,因为它们适用于不同的场景,并且具有不同的优势(可以通过Spark或Hive实现ETL,通过Hive/Tez或Impala...

8430

手把手教你入门Hadoop(附代码&资源)

昱良

百度 · 研发工程师 (已认证)

使用Beeline客户端进入Hive。您必须向HiveServer 2提供一个地址,该进程允许远程客户端(如Beeline)执行Hive查询和检索结果。

8350

系列 | Spark之数据倾斜调优

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾...

6400

DB数据同步到数据仓库的架构与实践

王知无

在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务...

9100

0709-5.16.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务

Fayson

此时只有CM的数据库scm迁移到了MySQL,集群其他服务的元数据库(Hive、Sentry、Hue、Oozie等)仍然配置的为PostgreSQL,接下来主要...

8220

0708-5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务

Fayson

Cloudera Manager提供了一个嵌入式PostgreSQL数据库服务,用于在创建集群时进行演示和概念验证部署。为了提醒用户此嵌入式数据库不适合生产,C...

4910

0711-6.3.0-如何将CM的外部PostgreSQL数据库迁移至MySQL服务

Fayson

此时只有CM的数据库scm迁移到了MySQL,集群其他服务的元数据库(Hive、Sentry、Hue、Oozie等)仍然配置的为PostgreSQL,接下来主要...

5510

0710-6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务

Fayson

Cloudera Manager提供了一个嵌入式PostgreSQL数据库服务,用于在创建集群时进行演示和概念验证部署。为了提醒用户此嵌入式数据库不适合生产,C...

7320

(译)优化ORC和Parquet文件,提升大SQL读取性能

用户6072933

本文编译自IBM开发者社区,主要介绍了HDFS中小的ORC和Parquet文件的问题,以及这些小文件如何影响Big SQL的读取性能,并探索了为了提高读取性能,...

8430

Airflow自定义插件, 使用datax抽数

Ryan-Miao

Airflow之所以受欢迎的一个重要因素就是它的插件机制。Python成熟类库可以很方便的引入各种插件。在我们实际工作中,必然会遇到官方的一些插件不足够满足需求...

8340

憋瞎说,大数据不是你想的那样!

木东居士

腾讯 · 数据分析 (已认证)

在实战中,我们一般会使用 Hive 来当数据仓库的载体,在没有大数据基础架构的公司也会使用各种传统 DB 来当数据仓库的载体,所以不要再说什么你要学习数据仓库 ...

7120

【OCP最新题库解析(052)--题27】Your database is configured in archivelog

小麦苗DBA宝典

Which clause or clauses ensure that no media recovery is required when the table...

10340

一道SQL题的多种解法

数据森麟

接下来我们思考,同样的思路放在Hive中能不能实现呢?有没有什么差别呢?通过join的方式当然没有问题。但能够联想到,Hive中提供了窗口函数,其中有一个lea...

7610

面向简历学习-数仓工程师成名之道

大蕉

废话不说,直奔主题,我们聊一下该如何学习。居士的观点很简单,就是标题的内容:面向简历学习!

5320

0704-5.16.2-如何使用Hive合并小文件

Fayson

目前集群存于一个非常不健康的状态,主要问题是小文件太多,单个DataNode的block数量阈值是500,000,而现在单个DataNode的block为2,6...

15610

实操用Hive分析大数据事半功倍

希望的田野

一般我们分析大数据,也许会想到Spark、Storm,但前提得会JAVA等编程语言,不然拿到数据也无法做分析。而Hive而解决了这个问题,只需要会Sql语言即可...

6110

Hadoop+Hive+HBase+Spark 集群部署(四)

ByteBye

本文由 bytebye 创作 本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名

5730

实战 | 深入理解 Hive ACID 事务表

暴走大数据

来源:https://blog.csdn.net/zjerryj/article/details/91470261

6820

Hive SQL开窗函数实战

Francis

开窗函数是数据的一种查询统计语法糖,多是用于离线统计,这同时也是大数据技术栈的应用场景。今天学习Hive SQL的开窗(窗口)函数,对比与MySQL,在MySQ...

7230

扫码关注云+社区

领取腾讯云代金券