开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mysql hive元数据库

基础概念

MySQL和Hive是两种不同类型的数据库系统，而“元数据库”通常指的是存储关于其他数据库的元数据（即数据的数据）的数据库。

MySQL：是一个关系型数据库管理系统，广泛用于Web应用程序。它使用结构化查询语言（SQL）进行数据操作和管理。
Hive：是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive内部使用HDFS来存储数据，使用MapReduce来执行查询。
元数据库：在Hive的上下文中，元数据库通常指的是存储Hive表结构、分区信息、列信息等元数据的数据库。默认情况下，Hive使用内嵌的Derby数据库作为元数据库，但也可以配置为使用外部的MySQL或其他关系型数据库。

相关优势

MySQL：
- 成熟稳定：拥有广泛的用户基础和长时间的使用历史。
- 性能优越：对于在线事务处理（OLTP）场景表现良好。
- 易于使用和管理：提供直观的SQL界面和丰富的管理工具。
Hive：
- 扩展性强：能够处理大规模数据集，与Hadoop生态系统紧密集成。
- 灵活的数据模型：支持多种数据格式和复杂的数据结构。
- 高效的查询性能：通过MapReduce实现并行计算，加速大数据查询。
使用MySQL作为Hive元数据库：
- 数据持久性：相比内嵌的Derby数据库，MySQL提供了更好的数据持久性和可靠性。
- 多用户支持：允许多个Hive实例共享同一个元数据库，便于管理和协作。
- 更强的管理功能：利用MySQL的管理工具可以更方便地监控和维护元数据。

类型

关系型元数据库：如MySQL，存储元数据为关系型数据表。
NoSQL元数据库：如MongoDB，适用于非结构化或半结构化的元数据存储。

应用场景

数据仓库：Hive常用于构建数据仓库，而MySQL作为元数据库可以存储这些仓库的结构信息。
大数据分析：在处理和分析大规模数据集时，Hive结合MySQL作为元数据库可以提供高效的数据查询和管理能力。
企业级应用：在需要多个部门或团队共享和使用数据的情况下，使用MySQL作为集中式的元数据库可以提高效率和协作性。

遇到的问题及解决方法

问题1：Hive元数据库连接失败

原因：可能是网络问题、配置错误或MySQL服务未启动。

解决方法：

检查网络连接，确保Hive服务器能够访问MySQL服务器。
验证Hive配置文件中的数据库连接信息（如URL、用户名、密码）是否正确。
确保MySQL服务正在运行，并检查其日志以获取更多信息。

问题2：Hive元数据损坏

原因：可能是硬件故障、软件错误或人为操作失误。

解决方法：

尝试使用Hive提供的工具（如schematool）进行元数据修复。
如果无法修复，考虑从备份中恢复元数据。
预防措施包括定期备份元数据库和实施完善的灾难恢复计划。

问题3：性能瓶颈

原因：随着数据量的增长，元数据库可能成为性能瓶颈。

解决方法：

优化MySQL配置，如调整内存分配、启用查询缓存等。
考虑使用更高性能的硬件或分布式数据库解决方案。
对元数据进行分区或分片，以提高查询效率。

参考链接

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

hive的安装

不要使用此安装方式，讲述这种安装方式，仅仅用于测试hive默认使用derby数据库的缺陷。你可以在下面的安装步骤中看到，我连环境变量都没有配置。

02

hive初始化元数据库乱码

无论是使用何种语言进行编程，碰到的第一个问题莫过于乱码的问题，而使用数据库的时候，也大致差不多。

04

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

Apache Hive 是基于 Apache Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供了 Hive SQL 进行查询和分析，在离线数仓中被广泛使用。

大数据入门与实战-Hive

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下Apache Hive为一个开源项目。它用在好多不同的公司。例如，亚马逊使用它在 Amazon Elastic MapReduce。

01

0791-5.13.1-Hive视图执行show create table被截断异常分析

当对Hive的VIEW执行SHOW CREATE TABLE时，结果输出只有部分，会被截断，这个表现在Hue，Beeline以及Hive CLI中都会存在，如下所示。

04

0916-5.16.2-如何将Hive元数据库从外部PostgreSQL转换到MySQL

2.停止Hive服务，在配置中搜索“database”，修改数据库配置到MySQL库

01

3.sparkSQL整合Hive

spark SQL经常需要访问Hive metastore，Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始，Spark SQL只需简单的配置，就支持各版本Hive metastore的访问。注意，涉及到metastore时Spar SQL忽略了Hive的版本。Spark SQL内部将Hive反编译至Hive 1.2.1版本，Spark SQL的内部操作(serdes, UDFs, UDAFs, etc)都调用Hive 1.2.1版本的class。

03

基于Hive进行数仓建设的资源元数据信息统计

在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类：

03

0709-5.16.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务

在前面的文章《5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL，因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。

02

0711-6.3.0-如何将CM的外部PostgreSQL数据库迁移至MySQL服务

在前面的文章《6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL，因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。

01

MacOS 下hive的安装与配置

之前的文章中我们提到了Hive是Hadoop生态系统中的重要的成员之一，允许用户使用类似SQL的方式，很方便地进行离线数据的统计分析。本节我们就在Hadoop集群的基础上进行Hive的安装与配置。

01

Hive中文乱码排查及解决方法

在 Mysql 修改Hive元数据表注释和字段注释的编码为 utf-8 在Hive的元数据库（MySQL）中运行: 修改表字段注解和表注解

05

Hive中文乱码排查及解决方法

在 Mysql 修改Hive元数据表注释和字段注释的编码为 utf-8 在Hive的元数据库（MySQL）中运行: 修改表字段注解和表注解

02

0695-5.10.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务

在前面的文章《如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》介绍了将CM内嵌的PostgreSQL迁移至外部PostgreSQL，因为CM内嵌的PostgreSQL数据库不支持直接迁移至MySQL。本篇文章Fayson主要介绍如何将集群使用的外部PostgreSQL迁移至MySQL数据库。

03

0576-6.1.0-Hive Comment中文乱码补充

Fayson 在前面的文章《Hive表字段Comment中文乱码》中，介绍了在Hive中如何解决表字段中文注释乱码的问题，为了完善上篇文档，本文整理Hive表所有与中文注释相关的属性项，包括表字段、分区、表名、视图中文乱码，同时包括对该问题的分析。

02

Hive 元数据更新

在大数据领域中，Hive 是一个常用的数据仓库工具，用于管理和查询大规模数据集。在使用 Hive 进行数据分析和处理时，经常需要更新元数据以确保数据的准确性和一致性。本文将介绍如何在 Hive 中进行元数据更新的相关操作。

02

如何修改CDH集群元数据库地址

在生产环境CDH集群中会遇到元数据库的迁移，迁移后数据库的IP地址发生变化或是元数据库做主备，在主节点挂掉后，我们需要将数据库CDH集群中的元数据库地址指向新的IP或备用元数据库。本篇文章Fayson主要介绍如何修改CDH集群元数据库IP地址。

03

元数据管理 | Hive 元数据迁移与合并

在网易集团内部有大大小小几百套 hive 集群，为了满足网易猛犸大数据平台的元数据统一管理的需求，我们需要将多个分别独立的 hive 集群的元数据信息进行合并，但是不需要移动 HDFS 中的数据文件，比如可以将 hive2、hive3、hive4 的元数据全部合并到 hive1 的元数据 Mysql 中，然后就可以在 hive1 中处理 hive2、hive3、hive4 中的数据。

03

如何给Hadoop集群划分角色

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量，真实要部署的哪些服务，硬件资源，配置，以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时，CM会根据主机的可用资源，自动的分配角色到各台主机，边

Hadoop数据分析平台实战——110Hive介绍和Hive环境搭建离线数据分析平台实战——110Hive介绍和Hive环境搭建

离线数据分析平台实战——110Hive介绍和Hive环境搭建 Hive介绍 Hive是构建在Hadoop之上的数据仓库平台，设计目标就是将hadoop上的数据操作同SQL结合，让熟悉SQL编程的开发人员能够轻松的向Hadoop平台上转移。 Hive可以在HDFS上构建数据仓库存储结构化数据，这些数据来源就是hdfs上，hive提供了一个类似sql的查询语言HiveQL来进行查询、变换数据等操作。当然HiveQL语句的底层是转换为相应的mapreduce代码进行执行的。 Hive组成 Hive包含用户接口

08

hive（1）——用mysql进行元数据存储

Hive可以将结构化的数据映射为一张数据表而默认hive进行存储的数据库是derby 启动我们的hadoop服务当我们安装好hive后，要将mysql-connector-java-xx.jar的文件包放到hive目录下的lib文件夹下：

01

hive核心基本概念

基于 Hadoop 的一个数据仓库工具： hive本身不提供数据存储功能，使用HDFS做数据存储， hive也不分布式计算框架，hive的核心工作就是把sql语句翻译成MR程序 hive也不提供资源调度系统，也是默认由Hadoop当中YARN集群来调度可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能

03

Hive部署及两种启动方式

Facebook解决海量日志数据的分析而开发了Hive，后来开源给了Apache软件基金会。

01

如何修改CM及CDH元数据库配置

在前面Fayson介绍了《如何实现CDH元数据库MySQL的主主互备》和《如何实现CDH元数据库MySQL的高可用》，实现了MySQL的高可用后访问地址有了变化，本篇文章主要介绍如何修改CM及CDH集群元数据库配置。

05

配置Hive使用MySql存储元数据

默认情况下，Hive会使用Derby来存储元数据（主要是表、列、分区Partition的信息）。Derby是一个嵌入式的本地数据库，只能单进程进行访问，不允许多个连接。因此，Derby只适合本地测试，不适合用在生产环境。Hive支持使用单独的数据库来存储元数据，比如MySql、PostgreSql等，本文将介绍如何配置Hive使用MySql存储元数据。

05

Spark on Hive & Hive on Spark，傻傻分不清楚

Spark通过Spark-SQL使用hive 语句,操作hive,底层运行的还是 spark rdd。

05

数据测试：必备的 Hive 安装&交互方式技能，赶紧GET！

hive 的下载地址为： https://archive.apache.org/dist/hive/

01

如何给Hadoop集群划分角色

Fayson在之前的文章中介绍过《CDH网络要求(Lenovo参考架构)》，《如何为Hadoop集群选择正确的硬件》和《CDH安装前置准备》，而我们在搭建Hadoop集群时，还一件很重要的事就是如何给集群分配角色。

07

一分钟看完 Hive 体系结构

①CLI（command line interface）:CLI启动的时候会同时启动一个Hive副本；

01

Hive中文注释乱码问题的解决

在HIVE中建表的时候，有时候难免要表中文注释，然而如果不经过配置，会导致desc某个表名的时候，直接以？的方式返回。

02

如何通过CM API优雅的获取元数据库密码

人啊，上了年纪了，总容易忘记一些事情，比如你一不小心就忘记了CDH集群Hive，Hue和Sentry服务的元数据库密码，对于数据库（MySQL/Oracle/PostgreSQL）管理员来说，可能有自己独特的一些奇技淫巧来找回密码。但对于咱普通人，其实Cloudera Manger提供了一种很优雅的方式让你找回元数据库密码，那就是神奇的Cloudera Manager API。

【Hive】Hadoop下的部署（未上接）

将MySQL的驱动jar包上传至虚拟机，然后将该jar包复制到hive安装路径下的lib文件夹中

05

安装mysql

如果提示-bash: wget: 未找到命令，请先执行 yum install wget 安装

03

0860-5.16.2-如何统计Hive表的分区数、小文件数量和表大小

本篇文章主要介绍如何在CDH 5.16.2集群中获取所有Hive表的分区数、小文件数量、表大小。

02

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是Spark on Hive！

本篇博客，博主为大家分享的内容是如何实现Spark on Hive,即让Hive只作为存储角色，Spark负责sql解析优化，执行…话不多说，直接上车！

05

如何对CDP中的Hive元数据表进行调优

在日常使用中，我们可以发现在hive元数据库中的TBL_COL_PRIVS，TBL_PRIVS 、PART_COL_STATS表相当大，部分特殊情况下NOTIFICATION_LOG也可能存在问题，如果集群中有关联的操作时会导致元数据库响应慢，从而影响整个Hive的性能，本文的主要目的通过对Hive 的元数据库部分表进行优化，来保障整个Hive 元数据库性能的稳定性。

01

0885-7.1.6-如何对CDP中的Hive元数据表进行调优

作者：唐辉 1.文档编写目的在日常使用中，我们可以发现在hive元数据库中的TBL_COL_PRIVS，TBL_PRIVS 、PART_COL_STATS表相当大，部分特殊情况下NOTIFICATION_LOG也可能存在问题，如果集群中有关联的操作时会导致元数据库响应慢，从而影响整个Hive的性能，本文的主要目的通过对Hive 的元数据库部分表进行优化，来保障整个Hive 元数据库性能的稳定性。测试环境 1.CDP7.1.6 、启用Kerberos 2.元数据版本 MariaDB-5.5.60 2.问题

03

Hive源码系列（一）hive2.1.1+hadoop2.7.3环境搭建

这是一篇工具类的文章，工欲善其事必先利其器，要分析调试hive源码，必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境，用了一个月的时间，才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题，也有好多次想放弃，幸好坚持了下来。

05

Hadoop数据分析平台实战——170Oozie介绍及环境搭建离线数据分析平台实战——170Oozie介绍及环境搭建

离线数据分析平台实战——170Oozie介绍及环境搭建 Oozie介绍 Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流. 同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。 Oozie以action为基本任务单位，可以将多个action构成一个DAG图（有向无环图Direct Acyclic Graph）的模式进行运行。 Oozie工作流通过HPDL(一种通过XML自定义处理的语言)来构造Oozie的

05

Hive表字段Comment中文乱码

默认Hive中创建有中文注释的表时，无论是在Hive CLI还是Hue中该注释显示都会是乱码。如使用以下建表语句：

CDP Private Cloud Base 7.1.4正式GA

2020年10月27日 1.平台支持如果使用Oracle 12作为元数据库，支持从HDP2.x到DC-Ambari的原地升级；支持使用Oracle 19作为元数据库，包括全新安装和升级；支持SLES 12 SP5操作系统，包括全新安装和升级；支持Postgres 11作为元数据库，支持全新安装和DC-Ambari； 2.功能 Hive 新增参数：hive.create.as.external.legacy，新增建表语法：CREATE [MANAGED] TABLE，方便老的CDH5/CDH6用户保

02

数据库和数据仓库你应该知道的

Hive作为Hadoop生态圈重要的一员已经被我们所熟知，它作为一个基于Hadoop的数据仓库工具，用来做离线的数据分析工作。那么什么是数据仓库，它与我们经常使用的数据库有什么不同呢？

02

Hive深入浅出

Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce fromwork to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that may not be supported by the built-in capabilities of the language.

02

0607-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表

在CDH中使用Hive时，为了统一数据文件的存储格式，推荐使用Parquet格式的文件存储，这样做也是为了能够同时能够兼容Impala的查询。有些用户在Hive中创建大量的ORC格式的表，并使用了DATE数据类型，这会导致在Impala中无法进行正常的查询，因为Impala不支持DATE类型和ORC格式的文件。本篇文章Fayson主要介绍如何通过脚本将ORC格式且使用了DATE类型的Hive表转为Parquet表。

03

0608-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表（续）

在上一篇文章《6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表》中主要介绍了非分区表的转换方式，本篇文章Fayson主要针对分区表进行介绍。

02

【玩转Lighthouse】利用LightHouse和LightDB实现零代码创建和管理API

最近因业务需要创建可以对外查询的API来供其他人使用，但是本人纯小白一枚，不会写相关代码，非常苦恼。而且处于项目初期，没有太多的经费购买服务器，之前了解过服务器的购买流程，对我这种个人来说，真的是很贵了。直到我遇到了LightHouse和LightDB：轻量应用服务器和轻量艺应用数据库。非常适合我这种小白个人开发者，不仅价格实惠，性能也不比服务器差，而且带宽也很高。所以本次教程就用LightHouse和LightDB来进行演示。

04

【说站】mysql如何获取hive表的元数据信息

2、获取表名称及表创建时间、库名及库注释，以S_ID作为关联关系获取C_ID，字段名称及字段注释在表中。

01

0842-7.1.6-如何使用authzmigrator 工具迁移Sentry权限到Ranger

1.CDP 的 CM 节点与 CDH 的元数据库节点没有网络限制，并且CDP 集群中的CM节点可以正常使用 sentry 元数据的用户密码登陆 CDH 的 sentry 元数据库

02

0671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2

这里我们假定一个场景，你需要迁移CDH5.12到CDH6.2，CDH5.12和CDH6.2分别是两个不同的集群，我们的工作主要是HDFS数据和各种元数据从CDH5.12迁移到CDH6.2，本文不讨论HDFS数据的迁移也不讨论其他元数据的迁移比如CM或Sentry，而只关注Hive元数据的迁移。这里的问题主要是CDH5.12的Hive为1.1，而CDH6.2中Hive已经是2.1.1，Hive的大版本更新导致保存在MySQL的schema结构都完全发生了变化，所以我们在将CDH5.12的MySQL数据导入到CDH6.2的MySQL后，需要更新Hive元数据的schema。首先Fayson会搭建2个集群包括CDH5.12和CDH6.2，为了真实，我们在接下来的模拟过程中，创建的Hive表包含分区，视图和UDF，好方便验证是否迁移到CDH6.2都能正常运行。具体如何迁移Fayson会在接下来的文章进行详细描述。

03

Hive配置元数据库为PostgreSQL

前一篇文章说了怎样搭建 Hive 环境，但是 Hive 使用的是默认 Derby 数据库作为元数据库，今天说说怎样把 Hive 的元数据库从默认的 Derby 改成 PostgreSQL 数据库。安

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭