首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Apache Hive中,具有大量外部表的数据库需要很长时间才能删除级联

。这是因为在删除数据库时,Hive会递归删除数据库中的所有表,而对于外部表来说,删除操作涉及到删除表的元数据以及底层存储中的数据。

具体来说,删除外部表的过程包括以下几个步骤:

  1. 删除表的元数据:Hive会删除表的元数据信息,包括表的结构、分区信息、表的属性等。这个操作相对较快,通常不会花费太多时间。
  2. 删除底层存储中的数据:对于外部表来说,数据存储在外部的文件系统(如HDFS)或对象存储(如S3)中。删除表时,Hive会尝试删除底层存储中与表相关的数据文件。如果表的数据量很大,删除操作可能会非常耗时,特别是在删除大量外部表的情况下。

由于删除外部表涉及到删除底层存储中的数据,这个过程可能会非常耗时,尤其是当数据库中有大量外部表时。因此,如果需要删除具有大量外部表的数据库,建议采取以下措施来加快删除操作的速度:

  1. 批量删除:可以通过编写脚本或使用Hive的命令行工具批量删除外部表,而不是逐个手动删除。这样可以减少删除操作的耗时。
  2. 并行删除:可以同时删除多个外部表,以提高删除操作的效率。可以使用Hive的并行执行功能或者使用多线程的方式来实现并行删除。
  3. 调整底层存储的配置:如果底层存储使用的是HDFS,可以调整HDFS的配置参数来提高删除操作的性能。例如,增加NameNode的内存、调整数据块的大小等。

总结起来,删除具有大量外部表的数据库在Apache Hive中可能需要很长时间,特别是涉及到删除底层存储中的数据时。为了加快删除操作的速度,可以采取批量删除、并行删除和调整底层存储配置等措施。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla架构原理第 4 部分 Impala使用

Impala使⽤服务⽅式避免 每次执⾏查询都需要启动开销,即相⽐ Hive没了MR启动时间。 * 使⽤LLVM(C++编写编译器)产⽣运⾏代码,针对特定查询⽣成特定代码。...Impalasql语法是⾼度集成了Apache Hivesql语法,Impala⽀持Hive⽀持数据类型以及部分Hive 内置函数。 * 需要注意⼏点: 1....如果我们使⽤此⼦句,则只有没有具有相同名称现有数 据库时,才会创建具有给定名称数据库。 ?...删除数据库 ImpalaDROP DATABASE语句⽤于从Impala删除数据库删除数据库之前,建议从中删除所有 。 如果使⽤级联删除,Impala会在删除指定数据库之前删除它。...drop database sample cascade; 2.2 特定语句 1. create table语句 CREATE TABLE语句⽤于Impala所需数据库创建新

95610

数据仓库之Hive快速入门 - 离线&实时数仓架构

执行计划生成过程动态优化方式 ---- Hive基本使用()内部/外部/分区/分桶 内部: 和传统数据库Table概念类似,对应HDFS上存储目录,删除时,删除元数据和数据...内部数据,会存放在HDFS特定位置,可以通过配置文件指定。当删除时,数据文件也会一并删除。适用于临时创建中间外部: 指向已经存在HDFS数据,删除时只删除元数据信息。...我们都知道关系型数据库基本是使用行式存储作为存储格式,而大数据领域更多是采用列式存储,因为大数据分析场景通常需要读取大量行,但是只需要少数几个列。...这就要求底层数据库为这个特点做专门设计,而不是盲目采用传统数据库技术架构。 大宽,读大量行但是少量列,结果集较小 OLAP场景,通常存在一张或是几张多列大宽,列数高达数百甚至数千列。...相比于行式存储,列式存储分析场景下有着许多优良特性: 如前所述,分析场景往往需要大量行但是少数几个列。

3.8K51

Kettle构建Hadoop ETL实践(四):建立ETL示例模型

我们可以创建一个外部指向这份数据,而并不需要对其具有所有权。(2)外部 我们来看一个Hive文档中外部例子。...外部方便对已有数据集成。 因为外部,所以Hive并不认为其完全拥有这个数据。在对外部执行删除操作时,只是删除掉描述元数据信息,并不会删除数据。...和非分区外部一样,Hive并不控制数据,即使删除,数据也不会被删除。 本示例Hive均为普通非分区管理,这出于两点考虑。...不允许从一个非ACID会话读写事务。换句话说,会话锁管理器变量必须设置成org.apache.hadoop.hive.ql.lockmgr.DbTxnManager,才能与事务一起工作。...在这个场景,源数据库就是操作型系统模拟。我们MySQL建立源数据库。RDS存储原始数据,作为源数据到数据仓库过渡,Hive建RDS库

1.9K10

Hive3查询基础知识

Hive支持“优化行列”(ORC)格式最大支持300PB。还支持其他文件格式。您可以创建类似于传统关系数据库。您可以使用熟悉插入、更新、删除和合并SQL语句来查询数据。...查询information_schema数据库 Hive支持ANSI标准information_schema数据库,您可以数据库查询有关、视图、列和Hive特权信息。...您可以使用UPDATE语句修改已经存储Apache Hive数据。...临时数据仅在当前Apache Hive会话期间持续存在。Hive会话结束时删除。如果使用永久名称来创建临时,则在会话期间无法访问该永久,除非您删除或重命名该临时。...默认情况下,Apache Hive将临时数据存储默认用户暂存目录/ tmp / hive- 。通常,默认情况下不会将此位置设置为容纳大量数据,例如临时产生数据。

4.6K20

hive面试必备题

删除影响 内部删除内部时,Hive删除元数据以及存储数据。这意味着一旦内部删除,其对应数据也会从HDFS上被永久删除。...外部删除外部时,Hive删除元数据,而数据仍然保留在HDFS上原位置。这是因为Hive认为外部数据可能被其他应用或查询所使用。 c....外部适用于:需要在多个服务或应用间共享数据。当数据由外部程序产生并管理,且Hive之外还要被其他应用访问时,应该使用外部。 d....对于需要长期和跨应用共享数据,推荐使用外部。 内部适合临时分析任务,数据处理完成后,和数据一起删除,便于管理。 删除外部前,需要明确这一操作仅移除元数据,而数据仍然保留在HDFS上。...启用Kerberos认证Hadoop集群,用户和服务都必须通过Kerberos认证后才能访问Hive。这提供了一种强大防止未授权访问方法。 d.

18510

实时离线一体化技术架构(万字,15张图)

时间无法归档数据,会造成数据越积越大,对于轻量级数据库MySQL来说,是个很大挑战。就算做好分库分准备。条件复杂查询聚合时候也一样容易搞爆内存。何况系统dal层设计得有所欠缺。...很长一段时间里,企业只能对数据仓库数据进行提前计算,再将算好后结果存储APP层或DW层上,再提供给用户进行查询。...需要解决问题: 即时系统存在Kudu数据,需要通过Hive能访问,这点仿照Impala,创建外部 ,将kudu映射到HiveHive能像Impala一样,能创建、查询、更新、删除操作...其中即时系统实时同步到Kudu数据,也需要创建Hive外部,把kudu映射到Hive来,也是KuduStorageHandler实现,包括数据查询、修改、删除。...再补充一点,先前即时查询系统,通过连接器同步过来Kudu数据,同步时候,在数据集成系统,要创建Impala外部,将kudu映射到impala上,这样Impala才能查到。

1.3K20

系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

MOLAP,基于多维数组存储模型,也是OLAP最初形态,特点是对数据进行预计算,以空间换效率,明细和聚合数据都保存在cube。但生成cube需要大量时间和空间。...三、OLAP数据库选型 大数据数仓架构,离线以Hive为主,实时计算一般是Spark+Flink配合,消息队列Kafka一家独大,后起之秀Pulsar想要做出超越难度很大,Hbase、Redis和MySQL...该场景涵盖面很广,例如: 实时指标监控 推荐模型 广告平台 搜索模型 Druid也有很多不足需要注意,由于druid属于时间存储,删除操作比较繁琐,且不支持查询条件删除数据,只能根据时间范围删除数据。...它能在亚秒内查询巨大Hive。 ?...场景特征: 大多数是读请求 数据总是以相当大批(> 1000 rows)进行写入 不修改已添加数据 每次查询都从数据库读取大量行,但是同时又仅需要少量列 宽,即每个包含着大量列 较少查询

2.2K30

Apache Doris 简介:下一代实时数据仓库

在这些情况下,数据平台必须同时处理大量用户请求(这些请求称为“高并发点查询”),而拥有列式存储引擎将放大每秒 I/O 操作,尤其是当数据排列平面时。...具有线性可扩展性,某些用例可以达到每秒 1000 万条记录吞吐量。...多租户管理 Apache Doris 具有复杂基于角色访问控制,它允许在数据库、行和列级别进行细粒度权限控制。...我们为提高可用性所做另一项努力是称为“轻架构更改”功能。这意味着如果用户需要添加或删除某些列,他们只需要更新前端元数据,而不必修改所有数据文件。光模式更改可以几毫秒内完成。...基准测试结果显示,Apache Doris Hive 查询中比 Trino 快 3~5 倍。

2K22

系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

MOLAP,基于多维数组存储模型,也是OLAP最初形态,特点是对数据进行预计算,以空间换效率,明细和聚合数据都保存在cube。但生成cube需要大量时间和空间。...三、OLAP数据库选型 大数据数仓架构,离线以Hive为主,实时计算一般是Spark+Flink配合,消息队列Kafka一家独大,后起之秀Pulsar想要做出超越难度很大,Hbase、Redis和MySQL...该场景涵盖面很广,例如: 实时指标监控 推荐模型 广告平台 搜索模型 Druid也有很多不足需要注意,由于druid属于时间存储,删除操作比较繁琐,且不支持查询条件删除数据,只能根据时间范围删除数据。...它能在亚秒内查询巨大Hive。 ?...场景特征: 大多数是读请求 数据总是以相当大批(> 1000 rows)进行写入 不修改已添加数据 每次查询都从数据库读取大量行,但是同时又仅需要少量列 宽,即每个包含着大量列 较少查询

2.4K20

hive基础总结(面试常用)

Metastore (hive元数据) Hive将元数据存储在数据库,比如mysql ,derby.Hive元数据包括名称,列和分区及其属性,数据所在目录 Hive数据存储HDFS...hive通过MapReduce来实现数据库通常有自己执行引擎。 (6)执行延迟。由于没有索引,需要扫描整个,因此延迟较高。...hive几种基本类型:内部外部、分区、桶 内部(管理)和外部区别: 创建 外部创建时候,不会移动数到数据仓库目录(/user/hive/warehouse),只会记录数据存放路径...内部会把数据复制或剪切到目录下 删除 外部删除时候只会删除元数据信息不会删除数据 内部删除时会将元数据信息和数据同时删除 类型一、管理或内部Table Type: MANAGED_TABLE...,对Hive性能具有非常大影响,特别是对于很难避免小文件场景或者task特别多场景,这类场景大多数执行时间都很短。

72030

Hadoop数据仓库工具Hive

它是HDFS之上构建开源数据仓库系统,为数据添加了结构。就像数据库一样,Hive具有创建数据库、创建和使用查询语言处理数据功能。用于Hive查询语言称为Hive查询语言(HQL)。...Meta Store:Hive 选择相应数据库服务器来存储数据库列、数据类型和 HDFS 映射模式或元数据。...: Hive可以有两种类型。第一种是普通,就像数据库任何其他一样。第二种是外部,除了删除部分外,它们与普通表相似。通过HDFS映射来创建外部,它们是指向HDFS中表指针。...这两种类型之间区别在于当删除外部时。删除数据并没有被删除。它数据存储HDFS,而在普通情况下,删除时数据也会被删除。 分区:分区是指存储目录不同子目录切片。...它将在大量数据集上执行,并以并行方式执行查询。通过此模式,可以实现对大数据集处理,并获得更好性能。 Hive特点 Hive,首先创建数据库,然后将数据加载到这些

36620

Hadoop技术(三)数据仓库工具Hive

(图3) # 6.5 我们可以插入数据然后访问hdfsnamenode图形化界面查看我们新建数据(数据插入时间很漫长~~~后面会优化) 图1 ?...删除(包括内部, 外部) drop table 名; 区分内外部(面试会问) : 创建时 ,内部直接存储默认hdfs路径 .外部需要自己指定路径 删除时 ,内部将数据和元数据全部删除...,外部删除元数据,HDFS数据不删除 内部外部使用原则 先有,后有数据,使用内部。...注意: 关系数据库 写时检查( mysql / oracle,我们向数据库插入数据时会进行sql语句检查 ) Hive 读时检查(读取数据时 ,符合规则才能被读取到 ,否则为null ;...) # hive shell 执行外部命令文件 二 脚本方式 举例 bash shell执行查询数据库操作 ,并在脚本运行 # 1.编写脚本 vim show_emp_table ---

1.8K30

看完了108份面试题,我为你总结出了这 10 个【Hive】高频考点(建议收藏)

Hive元数据信息包含名,列名,分区及其属性,属性(包括是否为外部),数据所在目录等。...4、Hive内部外部、分区、分桶区别,以及各自使用场景 内部 如果Hive没有特别指定,则默认创建都是管理,也称内部。...由Hive负责管理数据,管理不共享数据。删除管理时,会删除管理数据和元数据信息。 外部 当一份数据需要被共享时,可以创建一个外部指向这份数据。...删除并不会删除掉原始数据,删除元数据。当结构或者分区数发生变化时,需要进行一步修复操作。...与数据库 order by区别在于 hive 严格模式下(hive.mapred.mode = strict)下,必须指定 limit ,否则执行会报错!

94440

Apache Hive Table

Apache Hive Table (数据库操作) Apache Hive Hive操作(I) ⊙文本文件 -CSV:以逗号分隔文本文件 -TSV:以制表符分隔文本文件...,这个例子我们使用了默认路径,Hive默认将创建目录放置所属数据库后 但defult库是个例外,他/user/hive/warehouse下没有对应库目录,所以defult库目录直接位于...对于外部元数据信息会被删除,但是数据不会被删除。...Hive执行查询,可以创建一个外部指向这份数据,并不需要对其具有所有权限 外部 --文件位于分布式文件系统/data/test CREATE EXTERNAL TABLE IF NOT EXISTS...这个外部,LOCATION告诉Hive数据位于哪个路径下 2.因为是外部,所以Hive并非认为其完全拥有这份数据,删除时并不会删除这份数据,只会删除描述元数据信息 管理VS外部

67810

大数据技术之_08_Hive学习_02_DDL数据定义(创建查询修改删除数据库+创建+分区+修改+删除)+DML数据操作(数据导入+数据导出+清除数据)

删除时候,内部元数据和数据会被一起删除,而外部删除元数据,不删除数据。 (3)COMMENT:为和列添加注释。 (4)PARTITIONED BY:表示创建分区。...在建时候,用户还需要指定列,用户指定同时也会指定自定义SerDe,Hive通过SerDe确定具体数据。   ...在外部(原始日志基础上做大量统计分析,用到中间、结果使用内部存储,数据通过SELECT+INSERT进入内部。 3、案例实操 分别创建部门和员工外部,并向中导入数据。...小结:实际开发过程,针对原始数据建外部,因为原始数据会有很多人用。 所以我们删除外部后,不用怕,因为数据还在,我们只需要重新新建该,数据即可恢复。...5.3 清除数据(truncate) 注意:truncate只能删除管理,不能删除外部数据 hive (default)> truncate table student;

1.6K20

看完了108份面试题,我为你总结出了这 10 个【Hive】高频考点(建议收藏)

Hive元数据信息包含名,列名,分区及其属性,属性(包括是否为外部),数据所在目录等。...4、Hive内部外部、分区、分桶区别,以及各自使用场景 内部 如果Hive没有特别指定,则默认创建都是管理,也称内部。...由Hive负责管理数据,管理不共享数据。删除管理时,会删除管理数据和元数据信息。 外部 当一份数据需要被共享时,可以创建一个外部指向这份数据。...删除并不会删除掉原始数据,删除元数据。当结构或者分区数发生变化时,需要进行一步修复操作。...与数据库 order by区别在于 hive 严格模式下(hive.mapred.mode = strict)下,必须指定 limit ,否则执行会报错!

1.1K40

使用 Replication Manager 迁移到CDP 私有云基础

例如,如果正在复制数据库具有外部,则所有外部 HDFS 数据位置也应该是可快照。否则可能会导致Replication Manager无法生成差异报告。...Note 如果您复制作业需要很长时间才能完成,并且复制完成之前文件已更改,则复制可能会失败。...笔记 如果您复制作业需要很长时间才能完成,并且复制完成之前发生了变化,则复制可能会失败。考虑将 Hive 仓库目录和任何外部目录设为可快照,以便复制作业复制文件之前创建目录快照。...将快照与复制结合使用 某些复制,尤其是那些需要很长时间才能完成复制,可能会因为源文件复制过程中被修改而失败。 您可以通过将快照与复制结合使用来防止此类故障。...显示Hive 仓库目录属性。 如果您在 Hive 中使用外部,还要使托管任何未存储 Hive 仓库目录外部目录快照表。

1.8K10

hive面试题汇总

Hivemetastore三种模式 内嵌Derby⽅式 这个是Hive默认启动模式,⼀般⽤于单元测试,这种存储⽅式有⼀个缺点:同⼀时间只能有⼀个进程连接使⽤数据库。...⾃⼰指定location 删除时,外部不会删除对应数据,只会删除元数据信息,内部则会删除 其他⽤法是⼀样 Hive 四种排序⽅式区别...desc Hivejoin⼩优化⽅法 和⼤进⾏join时,将⼩放在前边,效率会⾼,hive会将⼩进⾏缓存 Hivejoin都有哪些 Hive除了⽀持和传统数据库⼀样内关联(...LEFT SEMI JOIN 以LEFT SEMI JOIN关键字前⾯为主表,返回主表KEY也记录 笛卡尔积关联(CROSS JOIN) 返回两个笛卡尔积结果,不需要指定关联键...Impala使⽤服务⽅式避免每次执⾏查询都需要启动开销,即相⽐Hive没了MapReduce启动时间

1.3K20

CDPHive3系列之保护Hive3

使用 SBA 权限模型 您必须添加访问 ACL 以允许组或用户 SBA 管理空间中创建数据库。如果您对基础数据具有文件级访问权限,则您有权查询。...使用 Ranger 授权模型 如果禁用 SBA 并仅使用 Ranger 授予不在 sales 组特定用户 sales-report 数据库创建外部权限,则该用户可以登录并创建数据库。...确定您环境数据库所需权限。 3. Hive 创建数据库,然后使用 HDFS 文件系统命令手动修改 POSIX 权限。...基于存储操作权限 如果您使用 SBA,您需要知道哪些 Hive 操作对您 Hive 数据库具有读写访问权限。...您需要适当存储权限才能写入目标分区或位置。您需要配置 HWC 读取选项。您需要配置 HWC 读取选项。

2.2K30
领券