腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
Spark
作业
读取
Impala
表
和
列名
、
、
、
、
我在不同的
impala
数据库中有表格,存储为拼图文件,结构如下。我正在尝试找出一个好方法来扫描所有数据库下的所有
表
名
和
列名
,我希望从那里检查表名或
列名
是否包含某些值,如果是,我想
读取
值等。我知道有像describe database.tablename这样的
impala
查询,但由于所有其他处理,我希望在
spark
工作中完成这项工作。有人能帮我解释一下吗?非常感谢。
浏览 101
提问于2021-08-17
得票数 0
1
回答
Impala
能创建一个中文
列名
的
表
吗?
我试图在
Impala
-Shell中创建一个具有中文
列名
的
表
,但是
Impala
似乎不接受这样的DDL。sql如下所示:并且
Impala
-shell会抱怨编号是一个无效的
列名
。我是不是做错什么了,或者黑斑羚就是这样做的? P.S.我使用的是
Impala
CHD 5.8.0
浏览 3
提问于2017-02-28
得票数 1
回答已采纳
3
回答
如何在hive或
impala
中计算
表
统计数据,以加快
Spark
中的查询?
、
、
、
为了提高性能(例如对于联接),建议首先计算
表
静力学。在蜂巢里我能做到:在黑帕拉:我的
spark
应用程序(
从
蜂窝
表
中
读取
)是否也
从
预先计算的统计数据中受益?我在Cloudera 5.5.4上使用
spark
1.6.1 注意:在参数的
Spark
1.6.1(
spark</e
浏览 6
提问于2016-09-22
得票数 11
1
回答
使用
Spark
或Flink将基于Kafka事件的数据转换为关系星型模式
、
、
、
、
对于卷
和
用例,我不认为需要基于Hadoop的系统,但Kafka Connect,
Spark
和
Flink是可能的。我打算构建一个基于星型模式的报告数据库,独立于主生产数据库,由维度
和
事实
表
组成,并允许Tableau报告这一点。我的微服务将使用Avro模式注册
表
将事件推送到相关主题,然后报告微服务将使用这些事件并更新星型模式。 现在我的问题是:实现从Kafka到相关星型模式的事件转换的最佳方式是什么?可以编写代码来检查每个事件,然后更新事实
表
,但是考虑到我可能会在事实<em
浏览 0
提问于2018-03-23
得票数 3
1
回答
Kudu兼容性的火花数据铸造柱
、
、
、
(我对星火、黑帕拉
和
库杜都很陌生。)我试图通过Kudu将Oracle DB中的
表
复制到具有相同结构的
Impala
表
中。当代码试图将Oracle NUMBER映射到Kudu数据类型时,我会收到一个错误。这是一份
从
Oracle到
Impala
的1到1的数据副本.我提取了源
表
的Oracle模式,并创建了一个具有相同结构的目标
Impala
表
(相同的
列名
和合理的数据类型映射)。我希望
Spark
+Kudu能自动映
浏览 3
提问于2019-05-15
得票数 0
回答已采纳
1
回答
spark
集群模式下的
Impala
JDBC连接问题
、
、
、
在群集模式下运行
spark
作业
时,
Impala
jdbc连接在异常下抛出。
Spark
job创建hive
表
,并使用JDBC执行
impala
表
无效/刷新。相同的
作业
在
spark
客户端模式下成功执行。at com.cloudera.hivecommon.core.HiveJDBCCommonConnection.connect(Unknown Source) at com.cloudera.
impala
浏览 228
提问于2018-02-26
得票数 1
回答已采纳
1
回答
用Apache Kudu实现多租户
、
、
客户将在Kudu上编写
Spark
,用于分析用例。 每个
表
都有tenantID列,来自所有租户的所有数据将与相应的tenantID存储在同一个
表
中。Customer1将访问
表
cust1.table,以便使用黑斑马JDBC驱动程序或
从
Spark
访问cust1 1的数据。Custo
浏览 3
提问于2017-04-25
得票数 0
回答已采纳
2
回答
使用PySpark2:错误与KuduStorageHandler
、
、
、
、
我正在尝试使用PySpark 2.1.0
读取
以Kudu格式存储的数据>>> from pyspark.sqlimport SparkSession>>>
spark
= SparkSession.builder \ .masterhive.metastore.warehouse.dir", &qu
浏览 0
提问于2017-08-24
得票数 0
1
回答
将snappy.parquet文件作为表格移动到黑斑点或直线中
、
、
、
我有一个snappy.parquet文件,我想通过
impala
或beeline将它完整地移动到一个
表
中,通过以下方式创建
表
由于某种原因无法工作,因为当我通过
spark
.read.parquet在
spark
中
浏览 30
提问于2018-06-07
得票数 0
回答已采纳
3
回答
使元数据无效/
从
spark
代码中刷新imapala
、
、
我正在开发NRT解决方案,它要求我经常更新
Impala
表
上的元数据。 目前,此无效是在我的火花代码运行后完成的。我希望通过直接
从
我的
Spark
代码执行刷新/无效操作来加快速度。
浏览 3
提问于2016-07-06
得票数 5
回答已采纳
1
回答
从
spark
作业
中调用JDBC到
impala
/hive并装入一个
表
、
我正在尝试用java编写一个
spark
作业
,它将打开与
Impala
的jdbc连接,并允许我加载
表
和
执行其他操作。 我该怎么做呢?任何例子都会有很大的帮助。谢谢!
浏览 1
提问于2016-02-02
得票数 0
1
回答
Spark
与Hive的差异与ANALYZE TABLE命令-
、
、
、
从
Spark
对Hive
表
运行的ANALYZE TABLE命令不会提供与
从
Hive发出的相同命令相同的性能改进。例如,我将一个数据帧插入到一个空的Hive
表
中: output.write.insertInto(“XXXXXXXX”) 然后运行analyze table命令:-
spark
.sql("ANALYZE
浏览 261
提问于2019-01-05
得票数 2
回答已采纳
1
回答
从
spark
作业
中调用JDBC到
impala
/hive并创建
表
、
、
、
我正在尝试用scala编写一个
spark
作业
,它将打开与
Impala
的jdbc连接,并允许我创建
表
和
执行其他操作。 我该怎么做呢?任何例子都会有很大的帮助。谢谢!
浏览 1
提问于2014-10-29
得票数 6
回答已采纳
1
回答
如何使火花放电
和
SparkSQL在星火上执行蜂巢?
、
、
、
、
我已经安装
和
设置了
和
集成。通过使用
spark
-shell / pyspark,我还遵循并实现了创建Hive
表
,加载数据,然后正确选择。|
spark
.master| yarn| >>>
spark
.sql(&q
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
4
回答
如何使用JDBC将
Impala
表
直接加载到
Spark
?
、
、
、
、
我正在尝试用Python编写一个
spark
作业
,它将打开与
Impala
的jdbc连接,并将视图直接
从
Impala
加载到Dataframe中。这个问题非常接近,但在scala中:#!JDBC_PATH=/home/anave/
impala
_jdbc_2.5.30.1049/Cloudera_ImpalaJDBC41_2.5.30 # --jars $SRCDIR/
spark</e
浏览 7
提问于2016-09-09
得票数 5
1
回答
授权没有Sentry的Hadoop用户
、
、
、
它们都使用shell、
impala
-shell、hive
和
sqoop将数据吞并到Hive
表
中(让我们称这些
表
为SensitiveTables)。要求这些新BI用户: 应该能够将
作业
spark
-submit到集群。我设法(通过hadoop fs -chmod o-rwx /user/hive/warehouse/sensitive)通过Hive (使用用户模拟)限制对SensitiveTabl
浏览 3
提问于2017-09-22
得票数 2
回答已采纳
1
回答
将csv导入
impala
、
因此,在我之前的家庭
作业
中,我们被要求将一个没有
列名
的csv文件导入到
impala
,其中我们在创建
表
时显式地给出了每个列的名称
和
类型。但是,现在我们有了csv文件,但给定了
列名
,在这种情况下,即使数据中提供了它的名称
和
类型,我们还需要写下它的名称
和
类型吗?
浏览 0
提问于2018-04-15
得票数 0
1
回答
在不更改
列名
的情况下创建PySpark数据框
、
、
、
我使用下面的CTAS命令使用SparkSQL创建
表
。FROM TBL1 在那之后,我正在使用下面的PySpark代码
读取
新创建的位置(TBL2)下面的文件。但是,下面的data frame仅使用lowercase中的所有
列名
创建。df =
spark
.read.format('ORC') \ .option('header',True) \
浏览 12
提问于2019-12-23
得票数 1
回答已采纳
1
回答
在PySpark中是否有一种使用黑斑羚而不是蜂巢的方法?
、
、
、
当我运行这个脚本时,查询会得到我在Hive编辑器中运行时所遇到的错误(它们在
Impala
编辑器中工作)。有没有办法解决这个问题,这样我就可以使用
Impala
在脚本中运行这些查询了吗?
浏览 1
提问于2020-03-25
得票数 0
回答已采纳
3
回答
如何使用apache
spark
访问
从
impala
创建的apache kudu
表
、
、
、
我下载了apache kudu的快速入门VM,并遵循了页面中出现的示例,实际上我创建了一个名为"sfmta“的
表
,但当我尝试使用
spark
-shell访问kudu
表
时,使用了以下语句: val df =
spark
.sqlContext.read.options(Map("kudu.master" -> "quickstart.cloudera:7051","kudu.table" -> "sfmtaorg.apache.kudu.c
浏览 1
提问于2017-05-24
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从入门到精通-Fayson带你玩转CDH
数据仓库调研
Impala在网易大数据的优化和实践
0487-CDH6.1的新功能
Spark SQL在字节跳动数据仓库领域的优化实践
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券