#Hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

Hive 常见的数据倾斜及调优技巧

大数据技术架构

Hive在执行MapReduce任务时经常会碰到数据倾斜的问题,表现为一个或者几个reduce节点运行很慢,延长了整个任务完成的时间,这是由于某些key的条数比...

25510

SparkSql读取hive表tblproperties异常

Fayson

从报错来看,该hive表的tblproperites有问题,tblproperites中的json字段无法正常解析,导致SparkSql读取该表出错。Hive和...

34810

大数据技术之Sqoop

卡其

将关系型数据库中的数据导入到HDFS(包括Hive,HBase)中,如果导入的是Hive,那么当Hive中没有对应表时,则自动创建。

12500

mysql存储引擎及适用场景

vimsudoers

MySQL存储引擎有MyISAM、InnoDB、MEMORY、CVS、MRG_MyISAM、BLACKHOLE、SEQUENCE、ARCHIVE等,常用的有In...

15420

0754-5.16.2-Hive中使用Substr拆分含中文乱码字符串报错异常分析

Fayson

从上游Oracle数据库中导出的携带中文乱码且编码集为ISO-8859-1的数据文件,将导出的数据文件导入到Hive表,在原始表的基础上通过创建视图,按照与上游...

29020

一篇文章让你了解Hive调优

Fayson

老工在职场多年,从事过海量(PB级)数据的关系型数据库数据处理工作,后由于数据平台升级的要求,将数据迁移到Hadoop集群,做了多年的数据研发和数据产品的研发工...

49820

Win10系统Python3连接Hive配置

陆勤_数据人网

由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。

30420

干货 | 携程机票数据仓库建设之路

携程技术

携程 · 工程师 (已认证)

华智,携程高级研发经理,现负责数据仓库技术架构、性能优化、数仓规范制定、数据模型设计以及数据应用开发。

38540

聊聊 Hadoop 生态圈的历史之 Hive

哒呵呵

今天再聊聊 Hadoop 生态圈。话说前文已经提到了雅虎硬是用自己的业务把 Hadoop 搞出来了,最后也不知道什么原因把辛辛苦苦地弄出来的 Hadoop 给开...

10020

Presto 安装与部署

smartsi

Presto 在访问 Hive 中的数据时需要得到 Hive 中的所有元数据信息,因此需要部署一个 HiveMetaStore 服务提供 Hive 的元数据信息...

31720

EMR(弹性MapReduce)入门之EMR集群的常用操作(四)

小司机带你入门EMR

在上一章我们学习了EMR集群的监控和报警功能,其实EMR集群还有很多功能会经常用到,我带着大家一起去了解一些其他的常用操作吧!

15010

一场pandas与SQL的巅峰大战(七)

超哥的杂货铺

具体来讲,第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看,去重计数,条件选择,合并连接,分组排序等操作。

12320

MySQL必知存储引擎

HueiFeng

山东开创集团 · 软件开发工程师 (已认证)

1.MyISAM MySQL 5.0 之前的默认数据库引擎,最为常用。拥有较高的插入,查询速度,但不支持事务.

14120

Flink 1.10 正式发布!——与Blink集成完成,集成Hive,K8S

实时计算

本次Release版本修复1.2K个问题,对Flink作业的整体性能和稳定性做了重大改进,同时增加了对K8S,Python的支持。

19920

大数据设计模式-业务场景-批处理

用户6969969

一个常见的大数据场景是静态数据的批处理。在此场景中,源数据通过源应用程序本身或编排工作流加载到数据存储中。然后,数据由并行作业就地处理,并行作业也可以...

18420

快速学习-Hive企业级调优

cwl_java

Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,H...

7320

快速学习-Hive 安装

cwl_java

(3)修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive

11930

快速学习-HBaseAPI操作

cwl_java

因为我们后续可能会在操作Hive的同时对HBase也会产生影响,所以Hive需要持有操作HBase的Jar,那么接下来拷贝Hive所依赖的Jar包(或者使用软连...

10710

快速学习-Hive 基本概念

cwl_java

Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表...

6810

快速学习-Hive 数据类型

cwl_java

Hive 的原子数据类型是可以进行隐式转换的,类似于 Java 的类型转换,例如某表达式使用 INT 类型,TINYINT 会自动转换为 INT 类型,但是 H...

6720

扫码关注云+社区

领取腾讯云代金券