Linux下hive应例子_Linux下hive应用例子_Linux下hive应用小例子 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hive命令使用记录

命令查询的结果，但不同的是Hadoop dfs 每次运行的时候都会单独启用一个JVM, 而

03

【上进小菜猪】深入了解Hadoop：HDFS、MapReduce和Hive

在当今的大数据时代，数据的处理和分析已经成为企业发展的必要条件之一。Hadoop作为一种开源的大数据处理框架，已经成为后端大数据处理的重要工具之一。本文将介绍如何在后端使用Hadoop进行大数据处理，包括Hadoop的安装和配置以及如何使用Java编写MapReduce作业。

02

您找到你想要的搜索结果了吗？

是的

没有找到

Kerberos实战

前面的文章介绍了《Kerberos原理--经典对话》、《Kerberos基本概念及原理汇总》、《基于ambari的Kerberos安装配置》、《Windows本地安装配置Kerberos客户端》，已经成功安装了Kerberos KDC server，也在Ambari上启用了Kerberos，接下来我们再来研究一下如何使用Kerberos。

05

数据仓库——hive的相关配置和操作

点击下载链接：https://pan.baidu.com/s/1Z4VG7mPBpmW6mWpR_WcyPQ 提取码：7afc

05

EMR(弹性MapReduce)入门之组件Hue（十三）

Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。

01

使用hive的常用命令语句

select * from tableName where 分区字段=分区 limit 10;

02

0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续

本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

01

Hive的数据类型

本文介绍hive的数据类型，数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

02

Hadoop2.4 支持snappy

我们Hadoop 2.4集群默认不支持snappy压缩，但是最近有业务方说他们的部分数据是snappy压缩的（这部分数据由另外一个集群提供给他们时就是snappy压缩格式的）想迁移到到我们集群上面来进行计算，但是直接运行时报错：

01

在scala中使用spark sql解决特定需求

Spark sql on hive的一个强大之处就是能够嵌在编程语言内执行，比如在Java或者Scala，Python里面，正是因为这样的特性，使得spark sql开发变得更加有趣。比如我们想做一个简单的交互式查询，我们可以直接在Linux终端直接执行spark sql查询Hive来分析，也可以开发一个jar来完成特定的任务。有些时候单纯的使用sql开发可能功能有限，比如我有下面的一个功能：一张大的hive表里面有许多带有日期的数据，现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面，方

05

spark sql on hive笔记一

Spark sql on Hive非常方便，通过共享读取hive的元数据，我们可以直接使用spark sql访问hive的库和表，做更快的OLAP的分析。 spark 如果想直接能集成sql，最好自己编译下源码：切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac

06

hive数据类型有哪些？[通俗易懂]

关系数据库里有表（table），分区，hive里也有这些东西，这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型，数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

02

免密码从windows复制文件到linux

有时候，我们需要使用编码的方式将文件从Windows系统发送到Linux系统上，这篇文章将记录如何实现这一过程。

01

0671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2

这里我们假定一个场景，你需要迁移CDH5.12到CDH6.2，CDH5.12和CDH6.2分别是两个不同的集群，我们的工作主要是HDFS数据和各种元数据从CDH5.12迁移到CDH6.2，本文不讨论HDFS数据的迁移也不讨论其他元数据的迁移比如CM或Sentry，而只关注Hive元数据的迁移。这里的问题主要是CDH5.12的Hive为1.1，而CDH6.2中Hive已经是2.1.1，Hive的大版本更新导致保存在MySQL的schema结构都完全发生了变化，所以我们在将CDH5.12的MySQL数据导入到CDH6.2的MySQL后，需要更新Hive元数据的schema。首先Fayson会搭建2个集群包括CDH5.12和CDH6.2，为了真实，我们在接下来的模拟过程中，创建的Hive表包含分区，视图和UDF，好方便验证是否迁移到CDH6.2都能正常运行。具体如何迁移Fayson会在接下来的文章进行详细描述。

03

tsv文件在大数据技术栈里的应用场景

是的，\t 是指制表符（tab），它通常用作字段分隔符在 TSV（Tab-Separated Values）格式的文件中。TSV是一种简单的文本格式，它使用制表符来分隔每一列中的值，而每一行则代表一个数据记录。

00

使用Atlas进行元数据管理之Type(类型)

[0] - 使用Atlas进行元数据管理之Atlas简介 [1] - 使用Atlas进行元数据管理之Glossary(术语) [2] - 使用Atlas进行元数据管理之Type(类型)

02

《hive编程指南》读书笔记：模式设计

按天划分表就是一种模式，每天一张表的方式在数据库领域是反模式的一种方式，按天划分的表建议使用分区表，hive通过where子句中的表达式来选择查询所需要的指定的分区，这样查询执行效率高。

01

玩转大数据系列之Apache Pig高级技能之函数编程（六）

已总结Pig系列的学习文档，点击末尾处，阅读原文即可查看所有，希望对大家有用，感谢关注！在Hadoop的生态系统中，如果我们要离线的分析海量的数据，大多数人都会选择Apache Hive或Apache Pig，在国内总体来说，Hive使用的人群占比比较高，而Pig使用的人相对来说，则少的多，这并不是因为Pig不成熟，不稳定，而是因为Hive提供了类数据库SQL的查询语句，使得大多人上手Hive非常容易，相反而Pig则提供了类Linux shell的脚本语法，这使得大多数人不喜欢使用。如果在编程界

03

使用Spark读取Hive中的数据

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

06

Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段，包括重要的属性描述字段，最后导入图数据库。

01

Java代码连接带kerberos的Impala集群

目前impala的认证方式支持两种：用户名密码和kerberos，由于impala的表数据一般是存在HDFS上的，所以很多时候，impala集群也会开启kerberos的认证，初次新接入Impala的小伙伴，可能会对kerberos比较头疼，这里将通过一个简单的例子来告诉大家，如何在代码中访问带kerberos的impala集群。废话不多说，直接上代码：

03

linux退出hive命令

在使用Hive进行数据查询和操作时，有时候我们需要退出Hive命令行界面。本文将介绍如何在Linux系统中退出Hive命令行。

01

史上最新最全面的java大数据学习路线（新手小白必看版本）

2.1.1 VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程

03

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制，默认true。

01

Hive简介

转载自http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html Hive简介　　首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性：　　1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的M

03

在shell中使用hiveSQL的注意事项

hive是数据分析人员常用的工具之一。实际工作中，使用hive基本都是在linux shell环境下。运行hiveSQL的方式有以下几种。

03

使用 CHNTPW 更改 Windows 密码

用U盘安装kali，并启动启动。将 Sam 文件复制到kali 桌面，或者用U盘启动工具复制Sam文件到U盘，然后在复制到kali中。

01

安装和配置Hive

直接通过MapReduce来对存储在Hadoop HDFS上的数据进行查询和分析比较繁琐而且还需要编程。Hive是一个数据仓库系统，构建在HDFS之上，它提供了类似SQL的语法（HQL），可以将HQL翻译成MapReduce作业进行查询，使得对数据的管理和检索更为便利。

03

linux 查看hive进程

在Linux系统中，Hive是一个基于Hadoop的数据仓库解决方案，用于查询和分析大规模数据集。在运行Hive时，有时我们需要查看Hive相关的进程信息，以便监控和管理。本篇文章将介绍如何在Linux系统中查看Hive进程的方法。

01

spark环境构建（4）

作者：王远东，重庆芝诺大数据分析有限公司大数据开发工程师。提前说明一下，大数据的搭建环境都是在Linux系统下构建，可能针对一些没有Linux编程基础的同学来说会有一些吃力，请各位客官放心，小店伙计后期会专门有几期来讲解Linux编程基础。绝对保证零基础完成大数据环境的构建。今天大数据环境构建后会暂停其他组件（hue、flume、kafka、oozie等）的构建，后面的文章就是基于该环境讲解大数据的应用。一安装zookeeper 参考：大数据开发Hadoop分布式集群环境构建（1）二安装spar

基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

在具体的实施中，基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1，调度平台为开源dolphinscheduler。

01

大数据入门基础系列之浅谈Hive的用户接口

09

hive安装配置实验

一、安装前准备 1. 安装配置Hadoop，见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld] basedir=/home/grid/mysql datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2 5. 初始化安装，并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL，修改初始密码 mysql -u root -p mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml，内容如下：

02

大数据经典学习路线（及供参考）不容错过

熟练使用Linux，熟练安装Linux上的软件，了解熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、高可靠的服务架构；

01

大数据学习过程中需要看些什么书？学习路线

很多朋友对大数据行业心向往之，却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书？今天给大家推荐一位知乎网友挖矿老司机的指导贴，作为参考。

03

大数据开发：Hive on Spark设计原则及架构

在Spark越来越受到主流市场青睐的大背景下，Hive作为Hadoop生态当中的数仓组件工具，在于Spark生态的配合当中，开始有了Hive on Spark的思路，那么具体是怎么实现的呢？今天的大数据开发分享，我们来讲讲Hive on Spark设计原则及架构。

02

学习大数据要有这样的学习思路才行?

我们在系统学习大数据的之前，要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识，这部分显得格外的重要。

00

2021年大数据Hive（二）：Hive的三种安装模式和MySQL搭配使用

元数据服务(metastore）作用是：客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。

03

Linux好用的管道命令

1)在当前目录中，查找后缀有 file 字样的文件中包含 test 字符串的文件，并打印出该字符串的行。此时，可以使用如下命令：

02

Hadoop数据分析平台实战——130Hive Shell命令介绍 02（熟悉Hive略过）离线数据分析平台实战——130Hive Shell命令介绍 02（熟悉Hive略过）

离线数据分析平台实战——130Hive Shell命令介绍 02（熟悉Hive略过）导入数据 Hive的导入数据基本上可以分为三类，第一种是从linux系统上导入数据到hive表中，第二种是从hdfs上导入数据到hive表中，第三种是从已有的hive表中导入数据到新的hive表中。其中第一种和第二种语法基本类似；在前面介绍的使用create table ... as... 命令创建表并导入数据，也属于第三种导入数据方法。使用前两种方式导入数据，只是复制或者移动数据文件，并不会对数据的

05

HDFS Federation在美团点评的应用与改进

背景 2015年10月，经过一段时间的优化与改进，美团点评HDFS集群稳定性和性能有显著提升，保证了业务数据存储量和计算量爆发式增长下的存储服务质量；然而，随着集群规模的发展，单组NameNode组成的集群也产生了新的瓶颈：扩展性：根据HDFS NameNode内存全景和HDFS NameNode内存详解这两篇文章的说明可知，NameNode内存使用和元数据量正相关。180GB堆内存配置下，元数据量红线约为7亿，而随着集群规模和业务的发展，即使经过小文件合并与数据压缩，仍然无法阻止元数据量逐渐接近红线。

08

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000

客户在用hive sql做几张表的组合分析，使用mr引擎。因为其中有一张表超过5万个分区，数据总量超过8千亿条，因此运行过程中出现失败，报错如下所示：

05

数仓工作的简单介绍和对比

参考：https://suncle.me/2018/04/16/Hadoop-MapReduce-HDFS-Introduction/

03

LDAP用户组信息异常导致Sentry授权失效问题分析

问题起因：“80040151”用户反映在Hue上通过Hive查询表数据出现异常，异常信息为权限拒绝，需要通过Sentry授权。然而通过beeline直连HiveServer2，访问同一张表，能够正常查询数据。

03

Hive表字段Comment中文乱码

默认Hive中创建有中文注释的表时，无论是在Hive CLI还是Hue中该注释显示都会是乱码。如使用以下建表语句：

Hive的用户权限体系理解

此前对Hive的用户体系一直是心存疑惑，最近有了一些新的体会，我发现一个此前困恼了很久的问题，随着经验的增长都会迎刃而解。

02

java转大数据的学习路线

大数据本质也是数据，但是又有了新的特征，包括数据来源广、数据格式多样化（结构化数据、非结构化数据、Excel文件、文本文件等）、数据量大（最少也是TB级别的、甚至可能是PB级别）、数据增长速度快等。

03

大数据技术学习路线

一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut、sed、awk linux定时任务crontab 2、shell编程 shell编程–基本语法 shell编程–流程控制 shell编程–函数 shell编程–综合案例–自

02

【大数据安全】Apache Kylin 安全配置(Kerberos)

本文首先会简单介绍Kylin的安装配置，然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin。

03

Hive源码系列（三）hive2.1.1源码导入eclipse并做初步运行

上一篇主要写了hive2.1.1源码编译并编译成eclipse项目，这一篇主要写将hive2.1.1源码导入eclipse以及运行hive命令的入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题，本文写了自己遇到的问题及解决方案。把项目跑起来非常重要，这些都是我们后面分析调试hive编译模块源码的基础。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭