Impala表中的压缩

是指对表中的数据进行压缩以减少存储空间和提高查询性能的技术。通过压缩数据，可以减少磁盘空间的使用量，并且在查询时可以更快地读取和处理压缩的数据。

压缩可以在不影响数据的完整性和查询结果的准确性的前提下，将数据存储在更紧凑的格式中。这样可以节省存储成本，并且在数据传输和处理过程中减少I/O操作的次数，从而提高查询性能。

在Impala中，支持多种压缩算法和压缩格式，包括Snappy、Gzip、Deflate等。不同的压缩算法和格式适用于不同类型的数据和查询场景。例如，Snappy压缩算法适用于需要快速压缩和解压缩的场景，而Gzip压缩算法则适用于需要更高的压缩比的场景。

使用压缩可以带来以下优势：

节省存储空间：通过压缩数据，可以减少磁盘空间的使用量，降低存储成本。
提高查询性能：压缩的数据可以更快地读取和处理，减少I/O操作的次数，从而提高查询性能。
加快数据传输：压缩的数据在网络传输过程中占用更少的带宽，可以加快数据传输速度。

在Impala中，可以通过以下方式进行表的压缩设置：

创建表时指定压缩格式：在创建表时，可以通过指定压缩格式的方式来设置表的压缩。例如，可以使用"STORED AS PARQUET"语句创建一个使用Parquet格式进行压缩的表。
修改表的压缩属性：可以使用ALTER TABLE语句修改表的压缩属性，包括压缩格式和压缩算法。例如，可以使用"ALTER TABLE table_name SET FILEFORMAT PARQUET"语句将表的压缩格式设置为Parquet。

腾讯云提供了多个与Impala表压缩相关的产品和服务，包括云数据库CDH、云数据仓库CDW、弹性MapReduce等。这些产品和服务可以帮助用户在腾讯云上快速搭建和管理Impala集群，并提供了丰富的功能和工具来优化表的压缩设置和性能。

更多关于Impala表压缩的信息，可以参考腾讯云的官方文档：

Impala表压缩概述：https://cloud.tencent.com/document/product/849/18384
Impala表压缩设置指南：https://cloud.tencent.com/document/product/849/18385

页面内容是否对你有帮助？

有帮助

没帮助

Impala中表的压缩

、、

我想用Impala压缩镶木地板压缩的桌子。是否有任何方法来压缩该表，因为在HDFS中有1000个文件到该特定表。

浏览 0提问于2020-06-22得票数 1

1回答

在我的工作中，通过将文件复制到HDFS中，将AVRO文件导入到impala表中，然后在impala中执行“刷新”。但是当我想用压缩文件来做的时候，它不起作用。我找到的关于使用avro表启用压缩的唯一文档是以下链接：。以下是我所做的：在蜂巢壳中启用蜂巢压缩： hive>集hive.exec.compress.output=true； hive>集avro.output.codec=bzip2；创建一个表：创建表log_bzip2( timestamp bigint注释“from反序列化器”、appid字符串注释“from反序列化器”、clientid string

浏览 6提问于2016-03-10得票数 1

回答已采纳

1回答

黑斑羚蜂巢和火花Parquet文件格式大小

、、、

我对黑斑羚、蜂巢和星火之间的地板压缩几乎没有什么疑问。表是单元，数据是使用Impala插入的，表大小如下所示，表文件扩展名为"data.0.parq“59.0M 177.1 M/user/ Hive /仓库/database.db/tablename(在黑帕拉中创建的parquet +) 使用Tablename ( tablename_snappy )将在Hive tablename_snappy中创建的、设置为TBLPROPERTIES ("parquet.compression"=" snappy ")数据的SNAPPY压缩设置为相同的表。

浏览 2提问于2021-01-14得票数 0

1回答

如何找到拼图文件生成时使用的COMPRESSION_CODEC？

、、

通常在Impala中，我们在将数据插入到表中之前使用COMPRESSION_CODEC，表的底层文件是Parquet格式的。用于设置COMPRESSION_CODEC的命令： set compression_codec=snappy; set compression_codec=gzip; 是否可以通过对拼图文件执行任何类型的操作来找出所使用的压缩编解码器的类型？

浏览 20提问于2019-08-20得票数 2

回答已采纳

1回答

如何为多租户配置Hive Impala/Spark？

、、、

试着找出答案，但当我想到以下几点时却找不到答案。它涵盖星火，黑斑羚，先生，蜂巢多租户。与黑斑羚有关的情景。我觉得它可以应用到火花，也因为黑斑羚/火花都是占用记忆。场景1说，我们为MR、Hive和Impala创建了一个具有多租户的10节点集群，其中40%的资源静态分配给了Impala。为了运行黑斑羚，我们创建了带有256 GB RAM数据节点的集群。问题是基于这种配置的，我们正在失去低成本的优势，即32~40 GB的5-6个核心节点，这是MR/Hadoop在处理100 the数据时的主要卖点之一。场景2：创建一个包含256 GB RAM和32-40 GB RAM节点的集群。问题是，在本

浏览 5提问于2017-09-29得票数 2

1回答

与合并的地板文件的Impala表的性能问题

、、、、

这里，我让python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为数据集的大小在一天内是很大的。这里的拼花文件包含10K的拼板行组，在每个分割的拼花文件中，最后我们将分裂的文件组合成一个文件来创建一个大的单一的拼花文件。这里，我创建了两个Impala表，其中包含一个合并文件和多个拆分文件。当分割文件数据加载在Impala表中并试图查询它时，结果在几秒钟内就会更快地出现，但是当Impala表创建在单个合并的拼花文件上时。它将提供性能问题，与提到的分割文件Impala表。当试图计算Impala表上的统计数据时，我无法识别这两个表之间的差异。有任何想法，为什么这种性能

浏览 0提问于2019-01-28得票数 0

回答已采纳

1回答

无法使用impala-shell在kudu中创建表格

、

我在做hadoop、hive、impala和kudu的研发。已安装HADOOP、HIVE、IMPALA和KUDU服务器。我已经在/etc/default -> impala文件中配置了--kudu_master_hosts=：。如下所示： IMPALA_SERVER_ARGS=" \ -log_dir=${IMPALA_LOG_DIR} \ -catalog_service_host=${IMPALA_CATALOG_SERVICE_HOST} \ -state_store_port=${IMPALA_STATE_STORE_PORT} \ -u

浏览 2提问于2018-07-03得票数 0

1回答

使用java在impala表中插入数据

、

我使用mysql将hdfs表复制到sqoop中，然后使用"create external table“命令在impala中创建同名表。现在，我有更多的数据要插入到impala表中，使用java api of Impala，即ImpalaService.jar。请帮助我在表中使用java api插入数据。谢谢。

浏览 2提问于2014-05-14得票数 1

回答已采纳

1回答

有没有办法显示表是在什么时候更新/创建的？

、、

有几个Impala表应该不断更新。我怀疑由于某些其他原因，更新脚本停止工作。在Impala中，有没有什么命令可以用来跟踪Impala表的更新状态，或者列出表更新的最新时间步长。

浏览 4提问于2016-04-26得票数 0

2回答

将pandas表写入impala

、、、

使用impyla模块，我已经将impala查询的结果下载到pandas数据帧中，完成了分析，现在希望将结果写回到impala上的一个表中，或者至少写到一个hdfs文件中。但是，我找不到任何关于如何做到这一点的信息，甚至找不到如何ssh到impala shell中并从那里写入表的信息。我想做的是： from impala.dbapi import connect from impala.util import as_pandas # connect to my host and port conn=connect(host='myhost', port=111) # c

浏览 8提问于2015-09-02得票数 10

回答已采纳

1回答

使用加载路径加载数据时出错: AccessControlException:由粘滞位拒绝的权限: user=impala

、

总之，我是新手，很少尝试用例。我在hdfs中有一个文件，并且希望加载到黑斑马表中。 -文件在上的位置:hdfs://xxx/user/hive// - TABLE ：创建表impala_test_table (File_Format STRING，Rank TINYINT，Splitable_ind STRING )行格式，行格式以'\，‘结束为文本文件； -中的加载语法:在路径中加载数据‘hdfs://xxx/user/ hive //impala_test’到表impala_test_table中；P.S :我能够成功地用hive加载它。 path="/user/hive

浏览 0提问于2017-03-17得票数 1

1回答

如何使用JDBC在Spark中的其他数据库中获取表的创建语句

、、、

问题陈述： I有一个Impala数据库，其中存在多个表，我正在创建到Impala的Spark连接，并将这些表加载到spark中，以便进行像这样的验证，这很好： spark.read.format("jdbc") .option("url"，"url") .option("dbtable"，"tablename") .load() 现在是下一步，我的实际问题是我需要找到create语句，该语句用于在Impala本身中创建表，因为我不能像下面这样运行命令，因为它会产生错误，所以是否可以为Impala中的表获取sho

浏览 2提问于2020-08-13得票数 2

回答已采纳

1回答

无法访问impala中的配置单元表

、、、

无法访问Impala中的配置单元表，该表对日期列创建了分区。使用dynamic partition column选项插入数据。现在，impala中不支持日期数据类型。我应该怎么做才能在impala中访问这个表。是否有在配置单元中创建时间戳分区的选项?如果有，方法是什么？

浏览 3提问于2019-05-20得票数 1

1回答

我希望使用黑斑羚来计数表中的总记录，并将其存储到一个文件中，.But不确定如何做。

、、、、

我在一个文件中有一个表列表：tables.txt 内容如下： db.tab1 db.tab2 等等，现在我将它传递给一个函数，并计算每个表中的记录数。 def rec_count(table_name): impala_cmd_cnt = "impala-shell -i %s -q 'select count(*) from %s'"%(impala_node,table_name) impala_cmd_res = os.system(impala_cmd_cnt) impala_cmd_res包含执行代码，即成功的执行代码为0，失败的代码

浏览 2提问于2018-10-17得票数 0

回答已采纳

1回答

Impala表中的压缩

、

我想知道Impala表中的压实情况，但找不到可以研究的材料。什么是不同的技术，在哪里我可以找到学习它的材料。

浏览 10提问于2020-06-30得票数 4

回答已采纳

1回答

Apache钻机和Apache -无法使用Apache钻机运行"select * from < table>“，用于通过Apache在库都创建的表

、、

我能够通过Apache演练连接到Kudu，并且能够很好地列出表。但是，当我不得不从下面的"impala::default.customer“表中获取数据时，我尝试了不同的选项，但没有一种是适合我的。 Kudu中的表是通过Impala-Shell作为外部表创建的。与库都的初始连接以及列出对象 ubuntu@ubuntu-VirtualBox:~/Downloads/apache-drill-1.19.0/bin$ sudo ./drill-embedded Apache Drill 1.19.0 "A Drill is a terrible thing to waste.

浏览 3提问于2021-10-01得票数 0

1回答

如何从列标题中的大型rdd创建rdd

、、、

我有大的rdd，我想创建4个不同的rdd的基础上提供的标题列表，并通过创建4个parquest文件将其保存在impala表中。如下所示： a b c d e f g h -------------------------------- abc 1 3 4 5 7 9 11 xyz 2 5 7 4 9 4 12 我有impala侧表的列的列表： table 1 impala side :- a,b,c table 2 impala side :- d, e, f ... 还需要为用户定义的主键的每个表

浏览 10提问于2018-07-21得票数 0

1回答

通过impala jdbc在kudu上创建表

、、

我正在尝试通过impala jdbc通过URL在kudu上创建表 jdbc:impala://host:21050/default;AuthMech=0;UID=impala; 但出现错误:表所有者不能为null或空。有什么帮助吗？

浏览 12提问于2021-05-31得票数 0

1回答

使用Dask库连接到Impala DB

、、、

我正在尝试通过Dask Library连接到Impala DB，以便使用read_sql_table()从表中获取所有数据。需要连接字符串连接，我已经尝试使用连接字符串，我通常在Dbeaver连接，但它失败了，无法加载插件：'impala‘。是否有人可以帮助我使用Dask库连接到Impala DB，或者让我知道Dask是否支持Impala连接？谢谢。

浏览 46提问于2021-11-09得票数 0

3回答

自定义SerDe不支持Impala，用双引号查询CSV文件的最好方法是什么？

、、、

我有一个CSV数据，每个字段都用双引号括起来。当我使用serde 'com.bizo.hive.serde.csv.CSVSerde‘创建配置单元表时，当在Impala中查询上面的表时，我得到错误SerDe not found。我在/usr/lib/impala/lib文件夹中添加了CSV Serde JAR文件。后来在Impala文档中研究发现，Impala不支持自定义SERDE。在这种情况下，我如何克服这个问题，以便我的CSV数据与引号是小心的。我想使用CSV Serde，因为它在值中使用逗号，这是一个合法的字段值。非常感谢

浏览 0提问于2014-09-03得票数 6

1回答

Impala不支持Unicode字符

、、、

在Impala上返回错误字符的Select语句。第一张图片显示了Hive的结果，第二张图片显示了Impala的结果。它是在配置单元中创建的托管表，源表在外部

浏览 1提问于2019-11-06得票数 0

2回答

在Impala中将非Kudu表变成Kudu表

、

当我使用下面的代码时，我遇到了impala update statement的问题 update john_estares_db.tempdbhue set QU=concat(account_id,"Q",quarter(mrs_change_date)," ",year(mrs_change_date)); 它返回错误消息： AnalysisException: Impala does not support modifying a non-Kudu table: john_estares_db.tempdbhue 我想知道我是否可以将我的非Kudu表更改

浏览 681提问于2019-05-17得票数 2

2回答

查询以在impala中仅显示列名

、、

在hive中，我们可以做“在TABLE_NAME中显示列”，为了只获得table.But的列名，我想要一个查询在IMPALA.How中只显示表的列名，我可以在IMPALA中只得到表的列名吗？

浏览 5提问于2017-09-19得票数 3

1回答

错误:使用Tableau查询Cloduera上的Impala时，表达式不在Group BY键中

、、、

我们运行的是Cloudera 5.9、Tableau 10.1和Impala ODBC连接器版本2.5.35 (尽管我已经尝试了很多版本)。在设置到Cloudera Hadoop的Tableau连接时，我使用端口10000 (不知道这是否正确)来输入Impala。我可以看到Impala中的各种表以及这些表中的一些行。当我在工作簿中执行一个简单的查询时，我遇到了这个错误：在Impala中执行查询时出错: 42000 :编译语句时出错:失败: SemanticException错误10025:第1行:7表达式不在GROUP BY key 'bar‘中它生成了这个查询，当我在impala

浏览 0提问于2016-11-23得票数 0

1回答

Cloudera Impala性能测试-空缓存

、、

我尝试在cloudera集群上执行性能测试。但是，就Impala使用缓存来存储以前的查询而言，我如何才能空缓存？ Impala使用缓存吗？Impala不缓存数据，但它缓存一些表和文件元数据。虽然查询在后续迭代中可能运行得更快，因为数据集被缓存在OS缓冲区缓存中，但Impala并没有显式地控制这一点。引用自：

浏览 4提问于2015-04-20得票数 0

1回答

Impala能创建一个中文列名的表吗？

我试图在Impala-Shell中创建一个具有中文列名的表，但是Impala似乎不接受这样的DDL。 sql如下所示： create table aa(`编号` string); 并且Impala-shell会抱怨编号是一个无效的列名。我也用双引号或单引号，两者都不起作用。但是Spark和Hive接受这个DDL..。我是不是做错什么了，或者黑斑羚就是这样做的？ P.S.我使用的是Impala CHD 5.8.0

浏览 3提问于2017-02-28得票数 1

回答已采纳

1回答

是否可以使用SQLAlchemy创建Kudu表？

、、、

我在Impala中有一个数据库，我需要在其中使用Kudu表。我想在我的Python代码中使用SQLAlchemy与数据库进行交互。虽然Impala在SQLALchemy中不是受支持的方言，但我已经能够访问数据，并对我现有的Kudu表和非Kudu表进行基本修改。我已经阅读了问题及其答案，以及链接在其中的GitHub页面，但它们都是关于连接到Impala db的，我设法做到了。 (我还考虑过使用而不是SQLAlchemy，但这不起作用，因为我的代码将运行在Ubuntu18.04上，它是。) 我的问题是关于使用SQLAlchemy创建Kudu表的具体问题。当我使用普通SQL时，如下所示： CREA

浏览 4提问于2021-09-16得票数 0

回答已采纳

1回答

将snappy.parquet文件作为表格移动到黑斑点或直线中

、、、

我有一个snappy.parquet文件，我想通过impala或beeline将它完整地移动到一个表中，通过以下方式创建表 CREATE EXTERNAL TABLE IF NOT EXISTS first_test LIKE PARQUET '/user/my_user/my_table/part-00000-c0544fc8-b709-4408-8e90-f0f9e4050691-c000.snappy.parquet' 由于某种原因无法工作，因为当我通过spark.read.parquet在spark中读取这个文件时，它显示为Fetched 0 row(s) in 0.3

浏览 30提问于2018-06-07得票数 0

回答已采纳

2回答

在写入Impala时自动创建Impala表的Dataframe

、、

我想知道Spark Dataframe保存是否有任何功能，即当它将数据写入Impala表时，它也会创建该表，而该表之前不是在Impala中创建的。例如，代码： myDataframe.write.mode(SaveMode.Overwrite).jdbc(jdbcURL, "books", connectionProperties) 如果表不存在，则应该创建表。表模式应根据数据帧模式确定。我期待着您的建议/想法。致以敬意，弗洛林

浏览 0提问于2018-06-22得票数 0

1回答

Cloudera : File的版本号无效。这可能是由于陈旧的元数据造成的。

、、、、

我正在使用Impala(版本2.4.0)运行一个CDH发行版(Version5.6.0)。我在HDFS中存储了一些Parquet文件。接下来，我使用以下查询将这些文件加载到Impala外部表中： create external table parquetTable like parquet 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet' store

浏览 4提问于2016-04-08得票数 1

回答已采纳

1回答

将文本分隔表的输出写入本地unix时hadoop -cat命令中的错误

、

我在一个文本分隔表中存储了大量数据，我通过Impala创建了这个表的Impala，我用Hive中的数据编写了它，我想在一个文件中把它放到Unix中的local file system中。在HDFS表位置路径中有多个文件，这是我使用的命令： hadoop fs -cat '<tablelocationinHDFS>/*' > /unixlocalpathandfilename.csv 我有两个错误： cat: is a directory error 因为其中只有一个error?cat: Unable to write to output stream目录，所以

浏览 5提问于2020-04-29得票数 2

回答已采纳

1回答

通过Python从Impala访问表

、、

我需要在同一个cloudera服务器上使用python通过CLI访问Impala中的表我尝试了下面的代码来建立连接： def query_impala(sql): cursor = query_impala_cursor(sql) result = cursor.fetchall() field_names = [f[0] for f in cursor.description] return result, field_names def query_impala_cursor(sql, params=None): conn = connect(

浏览 7提问于2019-07-23得票数 2

2回答

如何在imapla中启用递归读取

、、、

我需要查询Imapala的每小时map reduce批处理结果 output directory structure will be /data/access/web1/2015/Jan/day1/09/part-r-00000 /data/access/web1/2015/Jan/day1/09/part-r-00001 ... /data/access/web1/2015/Jan/day1/20/part-r-00000 /data/access/web1/2015/Jan/day1/20/part-r-00001 ... /data/access/web1/2015/Jan/day2/

浏览 38提问于2015-04-08得票数 2

1回答

如何将数据加载到Hive表并使其在Impala中也可访问

、

我在蜂巢有张桌子： CREATE EXTERNAL TABLE sr2015( creation_date STRING, status STRING, first_3_chars_of_postal_code STRING, intersection_street_1 STRING, intersection_street_2 STRING, ward STRING, service_request_type STRING, division STRING, section STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde

浏览 0提问于2018-12-03得票数 2

1回答

使用DBI包从R dataframe创建数据并将其插入Cloudera Impala

、、、、

我已经在R中创建了几个表(数据框)，我需要上传到Cloudera Impala，我正在使用DBI包与Impala连接。所以我举了个例子： df<-data.frame(x) 如何将df作为表插入Impala？我已经看到使用dbSendUpdate()可以做到这一点，所以我做了这样的事情： dbSendUpdate(dbh，paste0("Create Table db.df as select * from "，db)) 但没那么走运。有没有关于如何使用这个函数或任何其他我可以使用的函数来处理这个问题的想法？

浏览 5提问于2018-12-11得票数 0

1回答

带hdfs的Impala并行表

、、

我将数据以下面的格式存储在hdfs中，并使用"alter table add partition“命令将这些数据插入到impala分区表中。 /user/impala/subscriber_data/year=2013/month=10/day=01 /user/impala/subscriber_data/year=2013/month=10/day=02 一切都运行得很好。现在我有了一个新数据，其中月份和年份分别为10和01。现在我需要处理这些数据，并将这些数据附加到现有的hdfs目录中(year=2013/month=10/day=01)。当我尝试处理并插入到hdfs目录中时

浏览 2提问于2014-11-19得票数 2

1回答

人造板支持的蜂巢表:在Impala中数组列不可查询

、、

尽管Impala比Hive快得多，但我们使用Hive是因为它支持复杂(嵌套)数据类型，如数组和映射。我注意到，像一样，Impala现在支持复杂的数据类型。因为在Impala上运行Hive也是可能的，所以我们可以在Impala上做我们想做的任何事情，但是速度要快得多。这是个好消息！当我扫描文档时，我看到Impala期望以Parquet格式存储数据。我的数据，以其原始形式，恰好是一个两列CSV，其中第一列是ID，第二列是由管道分隔的字符串数组，例如： 123,ASDFG|SDFGH|DFGHJ|FGHJK 234,QWERT|WERTY|ERTYU 创建了一个Hive表： CREATE TAB

浏览 1提问于2016-05-15得票数 3

回答已采纳

1回答

列出需要失效/刷新的Impala表

如何以编程方式查找所有需要INVALIDATE METADATA语句的Impala表(因为它们是在Hive中创建的，但尚不为Impala所知)或REFRESH (因为添加了列、添加了数据文件等)？

浏览 0提问于2018-08-28得票数 3

1回答

在配置单元中，MYSQL数据库的nvarchar，bit的合适数据类型是什么？

、、、

我需要通过创建hive/impala表将数据从mysql数据库摄取到Hadoop。我在mysql中有nvarchar和bit数据类型，所以在创建hive表时，在HIVE/Impala中声明什么是最合适的数据类型。我在考虑使用字符串吗？

浏览 19提问于2017-03-14得票数 0

1回答

Impala 2.7无法从用Tez创建的蜂巢中读取任何数据

、、

我正在使用一个使用多个union操作符的查询来填充一个分区的Hive表。使用Tez执行查询，默认设置会导致多个并发的Tez编写器创建HDFS结构，其中parquet文件位于分区文件夹下的子文件夹中(文件夹名为Tez写器ID )。例如/apps/hive/warehouse/scratch.db/test_table/part=p1/8/000000_ 即使在使元数据失效并收集表上的统计数据之后，Impala在查询表时仍会返回零行。问题似乎与Impala没有穿越到分区子文件夹寻找拼花文件。如果我将hive.merge.tezfiles设置为true (默认情况下为false )，则实际上迫使T

浏览 1提问于2017-11-08得票数 0

回答已采纳

1回答

Impala 1.2.1错误:无法打开本地主机的传输:26000(连接()失败:连接被拒绝)

、

使用黑斑羚，我可以看到蜂巢的转移，使用任何由Hive创建的数据库，并查询由hive创建的任何表。当我试图在黑斑羚中创建一个表或做一个“无效元数据”时，我会得到错误:无法打开本地主机的传输:26000(连接()失败:连接被拒绝) 具有以下配置。这是一个多节点集群配置*手工构建，即不使用Cloudera * CentOS 6 CDH4.5 黑斑羚1.2.1 蜂巢MySQL Metastore impalad运行在具有数据节点的多个节点上。状态和目录在一个节点上运行，而该节点不是impalad节点。在/etc/default/impala中，我已经将IMPALA_S

浏览 0提问于2013-12-12得票数 0

1回答

可以通过Impala和其他方式访问配置单元表吗？

、、

我正在尝试使用Impala访问由hive创建的一个表。这样的访问有什么问题吗？另外，访问由Impala由Hive创建的表也很好。

浏览 7提问于2016-09-19得票数 0

1回答

Hive/Impala -在层次结构表中查找End子节点

、、、

我有一个场景，从具有parent_node_id和child_node_id的层次结构表中查找最低级别的子节点，如下所示。源表位于Hive和Impala数据库中。请建议hive/impala查询，以查找源表中每个父节点的最低级别子节点。我尝试在Impala中使用CTE递归查询，但我想它不受支持。提前谢谢你！资料来源表： +-------------+--------------+ |child_node_id|parent_node_id| +-------------+--------------+ | C1 | P1 | +-----------

浏览 0提问于2019-02-01得票数 0

回答已采纳

1回答

用于在IMPALA中同时显示所有列、表和架构名称的查询

、、

我想在一个查询中获得impala数据库的元数据。可能会是这样的 SELECT columnname,tablename,schemaname from SYSTEM.INFO 有没有办法做到这一点？例如，我不想只获取当前表的列； SHOW COLUMN STATS db.table_name 这个问题不是我的问题的答案。我想在一个查询中选择所有元数据。

浏览 164提问于2020-07-02得票数 1

回答已采纳

4回答

黑斑羚时间戳不匹配蜂巢-一个时区问题？

、、

我在HDFS中有一些事件日志数据，其原始格式如下所示： 2015-11-05 19:36:25.764 INFO [...etc...] 一个外部表指向这个HDFS位置： CREATE EXTERNAL TABLE `log_stage`( `event_time` timestamp, [...]) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS INPUTFORMAT 'org.apache.hado

浏览 5提问于2015-11-05得票数 4

回答已采纳

2回答

以很少的条件将数据从hive/impala表导出到文件

、、

如何有效地将带有条件的hive/impala表中的数据导出到文件中(数据将是巨大的，接近10 GB)？hive表的格式是paraquet，压缩了snappy，文件是csv。该表每天进行分区，数据需要每天提取，我想知道是否 1) Imapala方法 impala-shell -k -i服务器名:portname -B -q 'select * from表，其中year_month_date=$$$$$$$$‘-o文件名’ 2)蜂巢法从year_month_date=$$$$$$$$的表中插入覆盖目录'/path‘select * 会很有效率

浏览 2提问于2016-08-08得票数 0

回答已采纳

1回答

如何在Apache Kudu中索引模式

、

我必须在Apache Kudu中创建一个表。我知道我们可以使用Apache Impala在Apache kudu中查询，但我想在Apache kudu中创建一些索引，以使查询处理更快，我的问题是Apache Kudu和Apache Impala支持create INDEX查询，还有分区和index.if之间的区别我对Kudu表进行分区，这对索引足够了吗？

浏览 15提问于2018-06-08得票数 3

1回答

在Zeppelin Impala输出表列中生成HTML链接？

、

我正在设法从Zeppelin注释中的Impala查询中生成输出表中的HTML链接(每行一个链接，它们将在表中自己的列中)。单击链接将导致相关的数据文件从文件系统下载到用户的计算机(这是容易的位)。棘手之处在于如何在Impala输出表中生成链接。是否有特定的SELECT查询可执行此操作？我可以为Zeppelin用于显示Impala结果的输出表生成一个自定义模板吗？还有别的解决办法吗？每个链接将有一个稍微不同的href，因为系统上将有一个与每个输出行相关的不同文件，我认为基于行数据生成href很简单，但是这更多地是关于哪种语法会导致生成HTML链接并显示在列中呢？谢谢

浏览 2提问于2021-03-05得票数 1

回答已采纳

3回答

在Impala中失效元数据和刷新命令之间的区别？

、

我在这个链接上看到了影响的链接从Impala 1.1开始，REFRESH语句只适用于现有表。对于新表，需要发出“失效元数据”语句。对于后来版本的Impala来说，这仍然成立吗？

浏览 9提问于2017-02-15得票数 14

1回答

在Impala中自动执行“验证元数据”

、、、

我有Tableau连接到Cloudera Impala数据。我从Metastore读取的表一直在更新，所以当我想要更新viz (按下F5)时，我必须在刷新viz之前转到Cloudera中的Impala并执行“无效元数据”。我知道这可以使用到Hive Server2的连接来完成，但执行查询需要很长时间。我的问题是，在Impala Cloudera中如何自动执行“验证元数据”和“刷新”查询？谢谢, Amr

浏览 2提问于2015-04-15得票数 1