从Spark作业读取Impala表和列名

、、、、

我在不同的impala数据库中有表格，存储为拼图文件，结构如下。我正在尝试找出一个好方法来扫描所有数据库下的所有表名和列名，我希望从那里检查表名或列名是否包含某些值，如果是，我想读取值等。我知道有像describe database.tablename这样的impala查询，但由于所有其他处理，我希望在spark工作中完成这项工作。有人能帮我解释一下吗？非常感谢。

浏览 101提问于2021-08-17得票数 0

1回答

Impala能创建一个中文列名的表吗？

我试图在Impala-Shell中创建一个具有中文列名的表，但是Impala似乎不接受这样的DDL。sql如下所示：并且Impala-shell会抱怨编号是一个无效的列名。我是不是做错什么了，或者黑斑羚就是这样做的？ P.S.我使用的是Impala CHD 5.8.0

浏览 3提问于2017-02-28得票数 1

回答已采纳

3回答

如何在hive或impala中计算表统计数据，以加快Spark中的查询？

、、、

为了提高性能(例如对于联接)，建议首先计算表静力学。在蜂巢里我能做到：在黑帕拉：我的spark应用程序(从蜂窝表中读取)是否也从预先计算的统计数据中受益？我在Cloudera 5.5.4上使用spark 1.6.1 注意:在参数的Spark1.6.1( spark</e

浏览 6提问于2016-09-22得票数 11

1回答

使用Spark或Flink将基于Kafka事件的数据转换为关系星型模式

、、、、

对于卷和用例，我不认为需要基于Hadoop的系统，但Kafka Connect，Spark和Flink是可能的。我打算构建一个基于星型模式的报告数据库，独立于主生产数据库，由维度和事实表组成，并允许Tableau报告这一点。我的微服务将使用Avro模式注册表将事件推送到相关主题，然后报告微服务将使用这些事件并更新星型模式。现在我的问题是:实现从Kafka到相关星型模式的事件转换的最佳方式是什么？可以编写代码来检查每个事件，然后更新事实表，但是考虑到我可能会在事实<em

浏览 0提问于2018-03-23得票数 3

1回答

Kudu兼容性的火花数据铸造柱

、、、

(我对星火、黑帕拉和库杜都很陌生。)我试图通过Kudu将Oracle DB中的表复制到具有相同结构的Impala表中。当代码试图将Oracle NUMBER映射到Kudu数据类型时，我会收到一个错误。这是一份从Oracle到Impala的1到1的数据副本.我提取了源表的Oracle模式，并创建了一个具有相同结构的目标Impala表(相同的列名和合理的数据类型映射)。我希望Spark+Kudu能自动映

浏览 3提问于2019-05-15得票数 0

回答已采纳

1回答

spark集群模式下的Impala JDBC连接问题

、、、

在群集模式下运行spark作业时，Impala jdbc连接在异常下抛出。Spark job创建hive表，并使用JDBC执行impala表无效/刷新。相同的作业在spark客户端模式下成功执行。at com.cloudera.hivecommon.core.HiveJDBCCommonConnection.connect(Unknown Source) at com.cloudera.impala

浏览 228提问于2018-02-26得票数 1

回答已采纳

1回答

用Apache Kudu实现多租户

、、

客户将在Kudu上编写Spark，用于分析用例。每个表都有tenantID列，来自所有租户的所有数据将与相应的tenantID存储在同一个表中。Customer1将访问表cust1.table，以便使用黑斑马JDBC驱动程序或从Spark访问cust1 1的数据。Custo

浏览 3提问于2017-04-25得票数 0

回答已采纳

2回答

使用PySpark2:错误与KuduStorageHandler

、、、、

我正在尝试使用PySpark 2.1.0读取以Kudu格式存储的数据>>> from pyspark.sqlimport SparkSession>>> spark = SparkSession.builder \ .masterhive.metastore.warehouse.dir", &qu

浏览 0提问于2017-08-24得票数 0

1回答

将snappy.parquet文件作为表格移动到黑斑点或直线中

、、、

我有一个snappy.parquet文件，我想通过impala或beeline将它完整地移动到一个表中，通过以下方式创建表由于某种原因无法工作，因为当我通过spark.read.parquet在spark中

浏览 30提问于2018-06-07得票数 0

回答已采纳

3回答

使元数据无效/从spark代码中刷新imapala

、、

我正在开发NRT解决方案，它要求我经常更新Impala表上的元数据。目前，此无效是在我的火花代码运行后完成的。我希望通过直接从我的Spark代码执行刷新/无效操作来加快速度。

浏览 3提问于2016-07-06得票数 5

回答已采纳

1回答

从spark作业中调用JDBC到impala/hive并装入一个表

、

我正在尝试用java编写一个spark作业，它将打开与Impala的jdbc连接，并允许我加载表和执行其他操作。我该怎么做呢？任何例子都会有很大的帮助。谢谢!

浏览 1提问于2016-02-02得票数 0

1回答

Spark与Hive的差异与ANALYZE TABLE命令-

、、、

从Spark对Hive表运行的ANALYZE TABLE命令不会提供与从Hive发出的相同命令相同的性能改进。例如，我将一个数据帧插入到一个空的Hive表中： output.write.insertInto(“XXXXXXXX”) 然后运行analyze table命令：- spark.sql("ANALYZE

浏览 261提问于2019-01-05得票数 2

回答已采纳

1回答

从spark作业中调用JDBC到impala/hive并创建表

、、、

我正在尝试用scala编写一个spark作业，它将打开与Impala的jdbc连接，并允许我创建表和执行其他操作。我该怎么做呢？任何例子都会有很大的帮助。谢谢!

浏览 1提问于2014-10-29得票数 6

回答已采纳

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。|spark.master| yarn| >>> spark.sql(&q

浏览 0提问于2020-02-23得票数 0

回答已采纳

4回答

如何使用JDBC将Impala表直接加载到Spark？

、、、、

我正在尝试用Python编写一个spark作业，它将打开与Impala的jdbc连接，并将视图直接从Impala加载到Dataframe中。这个问题非常接近，但在scala中：#!JDBC_PATH=/home/anave/impala_jdbc_2.5.30.1049/Cloudera_ImpalaJDBC41_2.5.30 # --jars $SRCDIR/spark</e

浏览 7提问于2016-09-09得票数 5

1回答

授权没有Sentry的Hadoop用户

、、、

它们都使用shell、impala-shell、hive和sqoop将数据吞并到Hive表中(让我们称这些表为SensitiveTables)。要求这些新BI用户：应该能够将作业spark-submit到集群。我设法(通过hadoop fs -chmod o-rwx /user/hive/warehouse/sensitive)通过Hive (使用用户模拟)限制对SensitiveTabl

浏览 3提问于2017-09-22得票数 2

回答已采纳

1回答

将csv导入impala

、

因此，在我之前的家庭作业中，我们被要求将一个没有列名的csv文件导入到impala，其中我们在创建表时显式地给出了每个列的名称和类型。但是，现在我们有了csv文件，但给定了列名，在这种情况下，即使数据中提供了它的名称和类型，我们还需要写下它的名称和类型吗？

浏览 0提问于2018-04-15得票数 0

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。df = spark.read.format('ORC') \ .option('header',True) \

浏览 12提问于2019-12-23得票数 1

回答已采纳

1回答

在PySpark中是否有一种使用黑斑羚而不是蜂巢的方法？

、、、

当我运行这个脚本时，查询会得到我在Hive编辑器中运行时所遇到的错误(它们在Impala编辑器中工作)。有没有办法解决这个问题，这样我就可以使用Impala在脚本中运行这些查询了吗？

浏览 1提问于2020-03-25得票数 0

回答已采纳

3回答

如何使用apache spark访问从impala创建的apache kudu表

、、、

我下载了apache kudu的快速入门VM，并遵循了页面中出现的示例，实际上我创建了一个名为"sfmta“的表，但当我尝试使用spark-shell访问kudu表时，使用了以下语句： val df =spark.sqlContext.read.options(Map("kudu.master" -> "quickstart.cloudera:7051","kudu.table" -> "sfmtaorg.apache.kudu.c

浏览 1提问于2017-05-24得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Impala能创建一个中文列名的表吗？

如何在hive或impala中计算表统计数据，以加快Spark中的查询？

使用Spark或Flink将基于Kafka事件的数据转换为关系星型模式

Kudu兼容性的火花数据铸造柱

spark集群模式下的Impala JDBC连接问题

用Apache Kudu实现多租户

使用PySpark2:错误与KuduStorageHandler

将snappy.parquet文件作为表格移动到黑斑点或直线中

使元数据无效/从spark代码中刷新imapala

从spark作业中调用JDBC到impala/hive并装入一个表

Spark与Hive的差异与ANALYZE TABLE命令-

从spark作业中调用JDBC到impala/hive并创建表

如何使火花放电和SparkSQL在星火上执行蜂巢？

如何使用JDBC将Impala表直接加载到Spark？

授权没有Sentry的Hadoop用户

将csv导入impala

在不更改列名的情况下创建PySpark数据框

在PySpark中是否有一种使用黑斑羚而不是蜂巢的方法？

如何使用apache spark访问从impala创建的apache kudu表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐