开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Apache Hive中，具有大量外部表的数据库需要很长时间才能删除级联

。这是因为在删除数据库时，Hive会递归删除数据库中的所有表，而对于外部表来说，删除操作涉及到删除表的元数据以及底层存储中的数据。

具体来说，删除外部表的过程包括以下几个步骤：

删除表的元数据：Hive会删除表的元数据信息，包括表的结构、分区信息、表的属性等。这个操作相对较快，通常不会花费太多时间。
删除底层存储中的数据：对于外部表来说，数据存储在外部的文件系统（如HDFS）或对象存储（如S3）中。删除表时，Hive会尝试删除底层存储中与表相关的数据文件。如果表的数据量很大，删除操作可能会非常耗时，特别是在删除大量外部表的情况下。

由于删除外部表涉及到删除底层存储中的数据，这个过程可能会非常耗时，尤其是当数据库中有大量外部表时。因此，如果需要删除具有大量外部表的数据库，建议采取以下措施来加快删除操作的速度：

批量删除：可以通过编写脚本或使用Hive的命令行工具批量删除外部表，而不是逐个手动删除。这样可以减少删除操作的耗时。
并行删除：可以同时删除多个外部表，以提高删除操作的效率。可以使用Hive的并行执行功能或者使用多线程的方式来实现并行删除。
调整底层存储的配置：如果底层存储使用的是HDFS，可以调整HDFS的配置参数来提高删除操作的性能。例如，增加NameNode的内存、调整数据块的大小等。

总结起来，删除具有大量外部表的数据库在Apache Hive中可能需要很长时间，特别是涉及到删除底层存储中的数据时。为了加快删除操作的速度，可以采取批量删除、并行删除和调整底层存储配置等措施。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

盘点Hadoop让人讨厌的12件事

1. Pig vs. Hive 你在 Pig 里用不了 Hive UDFS。在 Pig 中你必须用 HCatalog 来访问 Hive 表。你在 Hive 里用不了Pig UDFS。在 Hive 中无

08

这12件事让我很讨厌Hadoop

文章作者Andrew C. Oliver是一位专业的软件顾问，同时还是北卡罗来纳州达勒姆大数据咨询公司Open Software Integrators的总裁和创始人。长时间的使用Hadoop，他发现

08

Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是 s

09

大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。

02

hive面试必备题

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

01

如何使用Sentry管理Hive外部表（补充）

/extwarehouse/student_hive数据目录不存，在创建外部表时自动生成，且数据目录属主为hive。

04

【Hive】Hive 的基本认识

Hive 是由 Facebook 开源的基于 Hadoop 的数据仓库工具，用于解决海量「结构化日志」的数据统计。

04

快速学习-DDL数据定义

1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。

01

hive面试题汇总

order by：order by 是要对输出的结果进⾏全局排序，这就意味着只有⼀个reducer才能实现（多个reducer⽆法保证全局有序）但是当数据量过⼤的时候，效率就很低。如果在严格模式下（hive.mapred.mode=strict）,则必须配合limit使⽤

02

CDP中的Hive3系列之分区介绍和管理

简要说明分区和性能的优势包括创建分区时必须避免的字符。创建分区和在分区中插入数据的示例介绍了基本的分区语法。也提到了分区的最佳实践。

03

CDP中的Hive3系列之保护Hive3

作为管理员，您需要了解运行 Hive 查询的 Hive 默认授权是不安全的，以及您需要做什么来保护您的数据。您需要了解您的安全选项：设置 Ranger 或基于存储的授权 (SBA)，它基于模拟和 HDFS 访问控制列表 (ACL)，或这些方法的组合。

03

Hive介绍与核心知识点

Facebook为了解决海量日志数据的分析而开发了Hive，后来开源给了Apache软件基金会。

04

Hive快速入门系列(8) | Hive的基本操作(不定期更新~)

说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的

02

将Hive数据迁移到CDP

使用Replication Manager 将 Hive 数据迁移到 CDP 后，您可能需要执行其他任务。您需要了解 Hive 3.x 和更早版本之间的语义差异。其中一些差异要求您更改 Hive 脚本或工作流程。此外，您需要将使用 CDP 不支持的 Hive CLI 的脚本转换为 Beeline。

03

Hive 基本操作(创建数据库与创建数据库表)

修改数据库可以使用alter database 命令来修改数据库的一些属性。但是数据库的元数据信息是不可更改的，包括数据库的名称以及数据库所在的位置

05

hive基础总结(面试常用)

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Metastore （hive元数据） Hive将元数据存储在数据库中，比如mysql ,derby.Hive中的元数据包括表的名称，表的列和分区及其属性，表的数据所在的目录 Hive数据存储在HDFS，大部分的查询、计算由mapreduce完成 Hive数据仓库于数据库的异同 (1）由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。（2）数据存储位置。 hdfs raw local fs （3）数据格式。分隔符（4）数据更新。hive读多写少。Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。 INSERT INTO … VALUES添加数据，使用UPDATE … SET修改数据不支持的 HDFS 一次写入多次读取（5）执行。hive通过MapReduce来实现的而数据库通常有自己的执行引擎。（6）执行延迟。由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致Hive执行延迟高的因素是MapReduce框架（7）可扩展性（8）数据规模。 hive几种基本表类型：内部表、外部表、分区表、桶表内部表（管理表）和外部表的区别：创建表外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径内部表会把数据复制或剪切到表的目录下删除表外部表在删除表的时候只会删除表的元数据信息不会删除表数据内部表删除时会将元数据信息和表数据同时删除表类型一、管理表或内部表Table Type: MANAGED_TABLE

03

【Hive】Hive简介

Hive有自己的类SQL，即HQL，它将SQL解析为M/R Job，然后在hadoop上执行。允许开发自定义mapper和reducer来处理内建的mapper和reducer无法完成的复杂分析工作再查询（UDF）。而启动MapReduce是一个高延迟的一件事，每次提交任务和执行任务都需要消耗很多时间，这也就决定Hive只能处理一些高延迟的应用。

05

大数据开发岗面试30天冲刺 - 日积月累，每日五题【Day01】——Hive1

Hive 和数据库除了拥有类似的查询语言，再无类似之处。 1）数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2）数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟 Hive 执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。 4）数据规模 Hive支持很大规模的数据计算；数据库可以支持的数据规模较小。

02

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例，描述业务场景，说明示例中包含的实体和关系，并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表，因此需要了解与Hive创建表相关的技术问题，包括使用Hive建立传统多维数据仓库时，如何选择适当的文件格式，Hive支持哪些表类型，向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上，我们就可以编写Hive的HiveQL脚本，建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。

01

Hive面试题持续更新【2023-07-07】

Hive是一个在Hadoop上构建的数据仓库基础架构，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析大规模的结构化数据。Hive的体系架构主要包括以下几个组件：

01

一篇文章彻底明白Hive数据存储的各种模式

Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没有为数据建立索引，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中　　Hive的数据分为表数据和元数据，表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。下面分别来介绍。一、Hive的数据存储　　在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没有为数据建立索引，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中，那么是将数据复制到表所在的目录中)。　　Hive中主要包含以下几种数据模型：Table(表)，External Table(外部表)，Partition(分区)，Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。　　1、表：Hive中的表和关系型数据库中的表在概念上很类似，每个表在HDFS中都有相应的目录用来存储表的数据，这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置，这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上)，我们可以根据实际的情况来修改这个配置。如果我有一个表wyp，那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。　　2、外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据;而如果你要删除表，该表对应的所有数据包括元数据都会被删除。　　3、分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。　　4、桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。　　来看下Hive数据抽象结构图

04

看完了108份面试题，我为你总结出了这 10 个【Hive】高频考点（建议收藏）

之前听 CSDN 头牌博主 @沉默王二说过一句话，我觉得十分在理：处在互联网时代，是一种幸福，因为各式各样的信息非常容易触达，如果掌握了信息筛选的能力，就真的是“运筹帷幄之中，决胜千里之外”。就像现在各行业都内卷不断，我们要从中破圈，只有想办法提升自己的竞争力！例如备战面试，广泛无脑地刷题只会消耗完你最后一丝精力，而多刷别人总结复盘记录下来的面经，有利于我们为下一次的“跨越”做好准备！

04

Hive 系列之基础知识和操作合集

今天，朋友圈和公众号被鸿蒙刷屏，作为开发者，由衷感叹人类科技已经发展得这么先进了，基于微内核的全场景分布式OS，虽然不太懂是什么意思，但仍然觉得高大上。

03

hive数据：名词解释

问题导读 1.hive数据分为那两种类型？ 2.什么表数据？ 3.什么是元数据？ 4.Hive表里面导入数据的本质什么？ 5.表、分区、桶之间之间的关系是什么？ 6.外部表和表的区别是什么？ Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。下面分别来介绍。　一、Hive的数据存储　　在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，

07

看完了108份面试题，我为你总结出了这 10 个【Hive】高频考点（建议收藏）

之前听 CSDN 头牌博主 @沉默王二说过一句话，我觉得十分在理：处在互联网时代，是一种幸福，因为各式各样的信息非常容易触达，如果掌握了信息筛选的能力，就真的是“运筹帷幄之中，决胜千里之外”。就像现在各行业都内卷不断，我们要从中破圈，只有想办法提升自己的竞争力！例如备战面试，广泛无脑地刷题只会消耗完你最后一丝精力，而多刷别人总结复盘记录下来的面经，有利于我们为下一次的“跨越”做好准备！

04

Hive基础学习

假设我们现在建立一张student表，它有两个字段，id(int)和name(string)。

03

大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla的架构原理第 4 部分 Impala的使用

invalidate metadata全量刷新，性能消耗较⼤，主要⽤于hive当中新建数据库或者数据库表的时候来进⾏刷新。

01

HIVE入门_2

05

Sentry到Ranger—简明指南

Cloudera Data Platform (CDP)通过合并来自Cloudera Enterprise Data Hub (CDH)和Hortonworks Data Platform (HDP)这两个传统平台的技术，为客户带来了许多改进。CDP 包括新功能以及一些先前存在的安全和治理功能的替代方案。CDH 用户的一项重大变化是将 Sentry 替换为 Ranger 以进行授权和访问控制。

04

大数据-hive基本语法整理

01

Apache Doris 简介：下一代实时数据仓库

Apache Doris 是一个开源实时数据仓库。它可以从各种数据源收集数据，包括关系数据库（MySQL、PostgreSQL、SQL Server、Oracle等）、日志和来自物联网设备的时间序列数据。能够进行报告、即席分析、联合查询和日志分析，因此可用于支持仪表板、自助式 BI、A/B 测试、用户行为分析等。

02

升级Hive3处理语义和语法变更

由于在CDH或HDP中运行的Hive的早期版本与CDP中的Hive 3之间的语义变化，您需要执行许多与迁移相关的更改。Hive 3中与db.table引用和DROP CASCADE相关的一些语法更改可能需要对应用程序进行更改。

01

Hive 内部表与外部表

托管表(内部表)和外部表是Hive中的两种不同类型的表，在这篇文章中，我们将讨论Hive中表的类型以及它们之间的差异以及如何创建这些表以及何时将这些表用于特定的数据集。

02

客快物流大数据项目（七十五）：使用impala创建kudu表

1、使用该impala-shell命令启动Impala Shell。默认情况下，impala-shell 尝试连接到localhost端口21000 上的Impala守护程序。要连接到其他主机，请使用该-i <host:port>选项。要自动连接到特定的Impala数据库，请使用该-d <database>选项。例如，如果您的所有Kudu表都位于数据库中的Impala中impala_kudu，则-d impala_kudu可以使用此数据库。

07

2021年大数据Hive（三）：手把手教你如何吃透Hive数据库和表操作（学会秒变数仓大佬）

1、CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

02

大数据入门基础系列之浅谈Hive的数据存储和元数据存储

数据测试：Hive 数据库表的基本操作，你怎能不知道？

说明：hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的，默认是存放在该配置文件设置的路径下，也可在创建数据库时单独指定存储路径。

00

实时离线一体化技术架构(万字，15张图）

基于TB级的在线数据，支持缴费帐单明细在线查询。大家都知道，像银行帐单流水一样，查几年的流水是常有的事。

02

hive学习笔记之三：内部表和外部表

至此，咱们对内部表和外部表已经有了基本了解，接下来的文章学习另一种常见的表类：分区表

01

HIve内部表外部表概念

1. 外部表（external table）有external修饰，表数据保存在HDFS上，该位置由用户指定。删除表时，只会删除表的元数据，所以外部表不是由Hive完全管理的 ---- 2. 内部表(internal table/managed table) 没有external修饰，表数据保存在Hive默认的路径下，数据完全由Hive管理，删除表时元数据和表数据都会一起删除。 ---- 3.区别 1. 外部表的表数据由HDFS管理，Hive管理外部表元数据，尔内部表的表数据和元数据都由Hive管理

01

Hive 3的ACID表

您可以创建ACID（原子性，一致性，隔离性和持久性）表用于不受限制的事务或仅插入的事务。这些表是Hive托管表。数据与Schema一起位于Hive metastore中。或者，您可以创建一个外部表用于非事务性使用。数据位于Hive Metastore外部。模式元数据位于Hive Metastore内部。因为外部表受Hive的控制很弱，所以该表不符合ACID。

01

Hadoop技术(三)数据仓库工具Hive

在这里可以回顾一下Hadoop的相关知识: 1.x job tracker 既管资源调度又管任务分配 2.x 分为ResourceManager(资源分配)和DataManager(任务分配) 牢记Hadoop 1.x与2.x架构图

03

【Hive】SQL语句大全

继承 org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

01

hive学习笔记之三：内部表和外部表

至此，咱们对内部表和外部表已经有了基本了解，接下来的文章学习另一种常见的表类：分区表；

00

HIVE中的表以及语法

HIVE中的表以及语法一、HIVE的表 HIVE使用的功能性的表格分为四种：内部表、外部表、分区表、分桶表。 1、内部表、外部表 1．特点创建hive表，经过检查发现TBLS表中，hive表的类型为MANAGED_TABLE，即所谓的内部表。内部表的特点是，先有表后有数据，数据被上传到表对应的hdfs目录下进行管理。其实内部表的流程和sql数据库的表流程是几乎一样的。但是在真实开发中，很可能在hdfs中已经有了数据，希望通过hive直接使用这些数据作为表内容

04

Hive学习3：Hive三种建表语句详解

注：hive其他语法在hive官网有说明，建议初学者，去官网学习一手的资料，官网：https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation

04

一脸懵逼学习Hive（数据仓库基础构架）

Hive是什么？其体系结构简介* Hive的安装与管理* HiveQL数据类型，表以及表的操作* HiveQL查询数据*** Hive的Java客户端** Hive的自定义函数UDF* 1：什

0870-CDP公有云发布Iceberg技术预览版

在过去的十年中，我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮，它可以引入更多的数据，应用更复杂的分析，并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域，不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对，这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天，我

04

Apache Hive 3架构概述

了解Apache Hive 3的主要设计功能（例如默认的ACID事务处理）可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭