开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Apache Hive中，具有大量外部表的数据库需要很长时间才能删除级联

。这是因为在删除数据库时，Hive会递归删除数据库中的所有表，而对于外部表来说，删除操作涉及到删除表的元数据以及底层存储中的数据。

具体来说，删除外部表的过程包括以下几个步骤：

删除表的元数据：Hive会删除表的元数据信息，包括表的结构、分区信息、表的属性等。这个操作相对较快，通常不会花费太多时间。
删除底层存储中的数据：对于外部表来说，数据存储在外部的文件系统（如HDFS）或对象存储（如S3）中。删除表时，Hive会尝试删除底层存储中与表相关的数据文件。如果表的数据量很大，删除操作可能会非常耗时，特别是在删除大量外部表的情况下。

由于删除外部表涉及到删除底层存储中的数据，这个过程可能会非常耗时，尤其是当数据库中有大量外部表时。因此，如果需要删除具有大量外部表的数据库，建议采取以下措施来加快删除操作的速度：

批量删除：可以通过编写脚本或使用Hive的命令行工具批量删除外部表，而不是逐个手动删除。这样可以减少删除操作的耗时。
并行删除：可以同时删除多个外部表，以提高删除操作的效率。可以使用Hive的并行执行功能或者使用多线程的方式来实现并行删除。
调整底层存储的配置：如果底层存储使用的是HDFS，可以调整HDFS的配置参数来提高删除操作的性能。例如，增加NameNode的内存、调整数据块的大小等。

总结起来，删除具有大量外部表的数据库在Apache Hive中可能需要很长时间，特别是涉及到删除底层存储中的数据时。为了加快删除操作的速度，可以采取批量删除、并行删除和调整底层存储配置等措施。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla的架构原理第 4 部分 Impala的使用

Impala使⽤服务的⽅式避免每次执⾏查询都需要启动的开销，即相⽐ Hive没了MR启动时间。 * 使⽤LLVM(C++编写的编译器)产⽣运⾏代码，针对特定查询⽣成特定代码。...Impala的sql语法是⾼度集成了Apache Hive的sql语法，Impala⽀持Hive⽀持的数据类型以及部分Hive 的内置函数。 * 需要注意的⼏点： 1....如果我们使⽤此⼦句，则只有在没有具有相同名称的现有数据库时，才会创建具有给定名称的数据库。 ?...删除数据库 Impala的DROP DATABASE语句⽤于从Impala中删除数据库。在删除数据库之前，建议从中删除所有表。如果使⽤级联删除，Impala会在删除指定数据库中的表之前删除它。...drop database sample cascade; 2.2 表特定语句 1. create table语句 CREATE TABLE语句⽤于在Impala中的所需数据库中创建新表。

9701 0

数据仓库之Hive快速入门 - 离线&实时数仓架构

：在执行计划生成的过程中动态优化的方式 ---- Hive基本使用（中）内部表/外部表/分区表/分桶表内部表：和传统数据库的Table概念类似，对应HDFS上存储目录，删除表时，删除元数据和表数据...内部表的数据，会存放在HDFS中的特定的位置中，可以通过配置文件指定。当删除表时，数据文件也会一并删除。适用于临时创建的中间表。外部表：指向已经存在的HDFS数据，删除时只删除元数据信息。...我们都知道关系型数据库基本是使用行式存储作为存储格式，而大数据领域更多的是采用列式存储，因为大数据分析场景中通常需要读取大量行，但是只需要少数的几个列。...这就要求底层数据库为这个特点做专门设计，而不是盲目采用传统数据库的技术架构。大宽表，读大量行但是少量列，结果集较小在OLAP场景中，通常存在一张或是几张多列的大宽表，列数高达数百甚至数千列。...相比于行式存储，列式存储在分析场景下有着许多优良的特性：如前所述，分析场景中往往需要读大量行但是少数几个列。

4K5 1

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

我们可以创建一个外部表指向这份数据，而并不需要对其具有所有权。（2）外部表我们来看一个Hive文档中外部表的例子。...外部表方便对已有数据的集成。因为表是外部的，所以Hive并不认为其完全拥有这个表的数据。在对外部表执行删除操作时，只是删除掉描述表的元数据信息，并不会删除表数据。...和非分区外部表一样，Hive并不控制数据，即使表被删除，数据也不会被删除。本示例中的Hive表均为普通非分区管理表，这出于两点考虑。...不允许从一个非ACID的会话读写事务表。换句话说，会话中的锁管理器变量必须设置成org.apache.hadoop.hive.ql.lockmgr.DbTxnManager，才能与事务表一起工作。...在这个场景中，源数据库表就是操作型系统的模拟。我们在MySQL中建立源数据库表。RDS存储原始数据，作为源数据到数据仓库的过渡，在Hive中建RDS库表。

2K1 0

Hive3查询基础知识

Hive支持“优化行列”（ORC）格式的表最大支持300PB。还支持其他文件格式。您可以创建类似于传统关系数据库中的表的表。您可以使用熟悉的插入、更新、删除和合并SQL语句来查询表数据。...查询information_schema数据库 Hive支持ANSI标准的information_schema数据库，您可以在该数据库中查询有关表、视图、列和Hive特权的信息。...您可以使用UPDATE语句修改已经存储在Apache Hive表中的数据。...临时表数据仅在当前Apache Hive会话期间持续存在。Hive在会话结束时删除表。如果使用永久表的名称来创建临时表，则在会话期间无法访问该永久表，除非您删除或重命名该临时表。...默认情况下，Apache Hive将临时表数据存储在默认用户暂存目录/ tmp / hive- 中。通常，默认情况下不会将此位置设置为容纳大量数据，例如临时表产生的数据。

4.6K2 0

hive面试必备题

删除表的影响内部表：删除内部表时，Hive会删除表的元数据以及表中存储的数据。这意味着一旦内部表被删除，其对应的数据也会从HDFS上被永久删除。...外部表：删除外部表时，Hive仅删除表的元数据，而表中的数据仍然保留在HDFS上的原位置。这是因为Hive认为外部表的数据可能被其他应用或查询所使用。 c....外部表适用于：需要在多个服务或应用间共享的数据。当数据由外部程序产生并管理，且在Hive之外还要被其他应用访问时，应该使用外部表。 d....对于需要长期和跨应用共享的数据，推荐使用外部表。内部表适合临时分析任务，数据处理完成后，表和数据一起删除，便于管理。删除外部表前，需要明确这一操作仅移除元数据，而数据仍然保留在HDFS上。...在启用Kerberos认证的Hadoop集群中，用户和服务都必须通过Kerberos认证后才能访问Hive。这提供了一种强大的防止未授权访问的方法。 d.

3321 0

实时离线一体化技术架构(万字，15张图）

长时间无法归档数据，会造成数据越积越大，对于轻量级数据库MySQL来说，是个很大的挑战。就算做好分库分表的准备。条件复杂的查询在聚合的时候也一样容易搞爆内存。何况系统在dal层设计得有所欠缺。...在很长一段时间里，企业只能对数据仓库中的数据进行提前计算，再将算好后的结果存储在APP层或DW层上，再提供给用户进行查询。...需要解决的问题：即时系统中存在Kudu表数据，需要通过Hive能访问，这点仿照Impala，创建外部表，将kudu的表映射到Hive上 Hive能像Impala一样，能创建表、查询、更新、删除操作...其中即时系统实时同步到Kudu的表数据，也需要创建Hive外部表，把kudu表映射到Hive来，也是在KuduStorageHandler中实现，包括数据的查询、修改、删除。...再补充一点，先前的即时查询系统中，通过连接器同步过来的Kudu表数据，在同步的时候，在数据集成系统中，要创建Impala的外部表，将kudu的表映射到impala上，这样Impala才能查到。

1.4K2 0

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

MOLAP，基于多维数组的存储模型，也是OLAP最初的形态，特点是对数据进行预计算，以空间换效率，明细和聚合数据都保存在cube中。但生成cube需要大量时间和空间。...三、OLAP数据库选型在大数据数仓架构中，离线以Hive为主，实时计算一般是Spark+Flink配合，消息队列Kafka一家独大，后起之秀Pulsar想要做出超越难度很大，Hbase、Redis和MySQL...该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Druid也有很多不足需要注意，由于druid属于时间存储，删除操作比较繁琐，且不支持查询条件删除数据，只能根据时间范围删除数据。...它能在亚秒内查询巨大的Hive表。 ?...场景特征：大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列宽表，即每个表包含着大量的列较少的查询

2.2K3 0

Apache Doris 简介：下一代实时数据仓库

在这些情况下，数据平台必须同时处理大量用户的请求（这些请求称为“高并发点查询”），而拥有列式存储引擎将放大每秒的 I/O 操作，尤其是当数据排列在平面表中时。...具有线性可扩展性，在某些用例中可以达到每秒 1000 万条记录的吞吐量。...多租户管理 Apache Doris 具有复杂的基于角色的访问控制，它允许在数据库、表、行和列级别进行细粒度的权限控制。...我们为提高可用性所做的另一项努力是称为“轻架构更改”的功能。这意味着如果用户需要添加或删除表中的某些列，他们只需要更新前端的元数据，而不必修改所有数据文件。光模式更改可以在几毫秒内完成。...基准测试结果显示，Apache Doris 在 Hive 表的查询中比 Trino 快 3~5 倍。

2.7K2 2

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

MOLAP，基于多维数组的存储模型，也是OLAP最初的形态，特点是对数据进行预计算，以空间换效率，明细和聚合数据都保存在cube中。但生成cube需要大量时间和空间。...三、OLAP数据库选型在大数据数仓架构中，离线以Hive为主，实时计算一般是Spark+Flink配合，消息队列Kafka一家独大，后起之秀Pulsar想要做出超越难度很大，Hbase、Redis和MySQL...该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Druid也有很多不足需要注意，由于druid属于时间存储，删除操作比较繁琐，且不支持查询条件删除数据，只能根据时间范围删除数据。...它能在亚秒内查询巨大的Hive表。 ?...场景特征：大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列宽表，即每个表包含着大量的列较少的查询

2.4K2 0

hive基础总结(面试常用)

Metastore （hive元数据） Hive将元数据存储在数据库中，比如mysql ,derby.Hive中的元数据包括表的名称，表的列和分区及其属性，表的数据所在的目录 Hive数据存储在HDFS...hive通过MapReduce来实现的而数据库通常有自己的执行引擎。（6）执行延迟。由于没有索引，需要扫描整个表，因此延迟较高。...hive几种基本表类型：内部表、外部表、分区表、桶表内部表（管理表）和外部表的区别：创建表外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径...内部表会把数据复制或剪切到表的目录下删除表外部表在删除表的时候只会删除表的元数据信息不会删除表数据内部表删除时会将元数据信息和表数据同时删除表类型一、管理表或内部表Table Type: MANAGED_TABLE...，对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或者task特别多的场景，这类场景大多数执行时间都很短。

7353 0

Hadoop数据仓库工具Hive

它是在HDFS之上构建的开源数据仓库系统，为数据添加了结构。就像数据库一样，Hive具有创建数据库、创建表和使用查询语言处理数据的功能。用于Hive的查询语言称为Hive查询语言（HQL）。...Meta Store：Hive 选择相应的数据库服务器来存储表、数据库、表中列、数据类型和 HDFS 映射的模式或元数据。...表: Hive中可以有两种类型的表。第一种是普通表，就像数据库中的任何其他表一样。第二种是外部表，除了删除部分外，它们与普通表相似。通过HDFS映射来创建外部表，它们是指向HDFS中表的指针。...这两种类型的表之间的区别在于当删除外部表时。删除的数据并没有被删除。它的数据存储在HDFS中，而在普通表的情况下，删除表时数据也会被删除。分区：分区是指存储在表目录中不同子目录中的表的切片。...它将在大量数据集上执行，并以并行方式执行查询。通过此模式，可以实现对大数据集的处理，并获得更好的性能。 Hive的特点在Hive中，首先创建表和数据库，然后将数据加载到这些表中。

3882 0

Hadoop技术(三)数据仓库工具Hive

(图3) # 6.5 我们可以在表中插入数据然后访问hdfs中namenode的图形化界面查看我们新建的表中的数据(数据插入时间很漫长~~~后面会优化) 图1 ?...删除表(包括内部表, 外部表) drop table 表名; 区分内外部表(面试会问) : 创建表时 ,内部表直接存储在默认的hdfs路径 .外部表需要自己指定路径删除表时 ,内部表将数据和元数据全部删除...,外部表只删除元数据，HDFS数据不删除内部表外部表使用原则先有表，后有数据，使用内部表。...注意: 关系数据库 写时检查( mysql / oracle,在我们向数据库中插入数据时会进行sql语句的检查 ) Hive 读时检查（读取数据时 ,符合规则的才能被读取到 ,否则为null ;...) # 在hive shell 中执行外部命令文件二脚本方式举例在bash shell中执行查询数据库表操作 ,并在脚本中运行 # 1.编写脚本 vim show_emp_table ---

1.8K3 0

看完了108份面试题，我为你总结出了这 10 个【Hive】高频考点（建议收藏）

Hive中的元数据信息包含表名，列名，分区及其属性，表的属性（包括是否为外部表），表数据所在目录等。...4、Hive内部表、外部表、分区表、分桶表的区别，以及各自的使用场景内部表如果Hive中没有特别指定，则默认创建的表都是管理表，也称内部表。...由Hive负责管理表中的数据，管理表不共享数据。删除管理表时，会删除管理表中的数据和元数据信息。外部表当一份数据需要被共享时，可以创建一个外部表指向这份数据。...删除该表并不会删除掉原始数据，删除的是表的元数据。当表结构或者分区数发生变化时，需要进行一步修复的操作。...与数据库中 order by的区别在于在 hive 的严格模式下(hive.mapred.mode = strict)下，必须指定 limit ，否则执行会报错！

9564 0

将Hive数据迁移到CDP

表名中不允许使用点 (.)。您需要更改使用此类引用的查询，以防止 Hive 将整个 db.table 字符串解释为表名。查找具有问题表参考的表。...版本可能支持在查询中使用 LOCATION 子句来创建托管或外部表或为托管和外部表创建数据库。...配置对表的授权虽然升级过程不会改变外部表的位置，但您需要在 HDFS 中设置对外部表的访问。...升级前在/user/hive/warehouse 中HDFS 上的托管表在转换为外部后仍保留在那里。升级前位于外部的表不会重新定位。...您在 CDP 中创建的新托管表存储在 Hive 仓库中。新的外部表存储在 Hive 外部仓库中 /warehouse/tablespace/external/hive。

1.2K3 0

大数据技术之_08_Hive学习_02_DDL数据定义(创建查询修改删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。（3）COMMENT：为表和列添加注释。（4）PARTITIONED BY：表示创建分区表。...在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。 ...在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、结果表使用内部表存储，数据通过SELECT+INSERT进入内部表。 3、案例实操分别创建部门和员工外部表，并向表中导入数据。...小结：实际开发过程中，针对原始数据建表建的是外部表，因为原始数据会有很多人用。所以我们删除掉外部表后，不用怕，因为数据还在，我们只需要重新新建该表，数据即可恢复。...5.3 清除表中数据（truncate）注意：truncate只能删除管理表，不能删除外部表中数据 hive (default)> truncate table student;

1.7K2 0

使用 Replication Manager 迁移到CDP 私有云基础

例如，如果正在复制的数据库具有外部表，则所有外部表 HDFS 数据位置也应该是可快照的。否则可能会导致Replication Manager无法生成差异报告。...Note 如果您的复制作业需要很长时间才能完成，并且在复制完成之前文件已更改，则复制可能会失败。...笔记如果您的复制作业需要很长时间才能完成，并且在复制完成之前表发生了变化，则复制可能会失败。考虑将 Hive 仓库目录和任何外部表的目录设为可快照，以便复制作业在复制文件之前创建目录的快照。...将快照与复制结合使用某些复制，尤其是那些需要很长时间才能完成的复制，可能会因为源文件在复制过程中被修改而失败。您可以通过将快照与复制结合使用来防止此类故障。...显示Hive 仓库目录属性。如果您在 Hive 中使用外部表，还要使托管任何未存储在 Hive 仓库目录中的外部表的目录快照表。

1.8K1 0

看完了108份面试题，我为你总结出了这 10 个【Hive】高频考点（建议收藏）

Hive中的元数据信息包含表名，列名，分区及其属性，表的属性（包括是否为外部表），表数据所在目录等。...4、Hive内部表、外部表、分区表、分桶表的区别，以及各自的使用场景内部表如果Hive中没有特别指定，则默认创建的表都是管理表，也称内部表。...由Hive负责管理表中的数据，管理表不共享数据。删除管理表时，会删除管理表中的数据和元数据信息。外部表当一份数据需要被共享时，可以创建一个外部表指向这份数据。...删除该表并不会删除掉原始数据，删除的是表的元数据。当表结构或者分区数发生变化时，需要进行一步修复的操作。...与数据库中 order by的区别在于在 hive 的严格模式下(hive.mapred.mode = strict)下，必须指定 limit ，否则执行会报错！

1.2K4 0

hive面试题汇总

Hive的metastore的三种模式内嵌Derby⽅式这个是Hive默认的启动模式，⼀般⽤于单元测试，这种存储⽅式有⼀个缺点：在同⼀时间只能有⼀个进程连接使⽤数据库。...⾃⼰指定location 删除表时，外部表不会删除对应的数据，只会删除元数据信息，内部表则会删除其他⽤法是⼀样的 Hive 四种排序⽅式的区别...desc Hive中⼤表join⼩表的优化⽅法在⼩表和⼤表进⾏join时，将⼩表放在前边，效率会⾼，hive会将⼩表进⾏缓存 Hive中join都有哪些 Hive中除了⽀持和传统数据库中⼀样的内关联（...LEFT SEMI JOIN 以LEFT SEMI JOIN关键字前⾯的表为主表，返回主表的KEY也在副表中的记录笛卡尔积关联（CROSS JOIN）返回两个表的笛卡尔积结果，不需要指定关联键...Impala使⽤服务的⽅式避免每次执⾏查询都需要启动的开销，即相⽐Hive没了MapReduce启动时间。

1.3K2 0

Sentry到Ranger—简明指南

在CDH中，Apache Sentry为Apache Hive和Apache Impala等Hadoop SQL组件以及Apache Solr、Apache Kafka和HDFS（仅限于Hive表数据）...要创建函数，需要在 Hadoop SQL 中的“udf”策略中具有适当的权限。...⇒ public ⇒ select权限允许用户自助创建自己的数据库 允许用户在默认数据库中自助创建表允许用户查询有关表、视图、列和您的 Hive 权限的信息 “public”组- 这是 Ranger...RMS 当前仅适用于表级同步，而不适用于数据库级（即将推出）在 Hive 中使用 Ranger 创建外部表 (1) 用户应具有对 HDFS 位置的直接读写访问权限 (2) Ranger Hadoop...,file:”（这是默认设置） ) 在 Hive 和 Hive on Tez 服务中在 Hive 中使用自定义 LOCATION 子句创建外部表时，需要以下附加访问之一 (1) 或 (2) 用户“hive

1.5K4 0

CDP中的Hive3系列之保护Hive3

使用 SBA 权限模型您必须添加访问 ACL 以允许组或用户在 SBA 管理的空间中创建数据库和表。如果您对基础数据具有文件级访问权限，则您有权查询表。...使用 Ranger 授权模型如果禁用 SBA 并仅使用 Ranger 授予不在 sales 组中的特定用户在 sales-report 数据库中创建外部表的权限，则该用户可以登录并创建数据库。...确定您环境中的表和数据库所需的权限。 3. 在 Hive 中创建表或数据库，然后使用 HDFS 文件系统命令手动修改 POSIX 权限。...基于存储的操作权限如果您使用 SBA，您需要知道哪些 Hive 操作对您的 Hive 数据库和表具有读写访问权限。...您需要适当的存储权限才能写入目标分区或表位置。您需要配置 HWC 读取选项。您需要配置 HWC 读取选项。

2.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭