Spark上的配置单元不返回聚合或连接查询的结果

、、

Aggregation或Join不会从外部表的配置单元查询中返回任何结果。我已经将配置单元设置为使用Spark (独立)作为查询引擎，而不是使用MR.。有了SELECT，一切都好，数据返回： SELECT * FROM table1 LIMIT 100 尝试使用简单的count no data return： SELECT count(*) FROMtable1

浏览 15提问于2019-06-10得票数 1

1回答

使用jdbc spark sql的配置单元查询

、

我有一个使用jdbc连接运行多个配置单元查询的java应用程序。我是否可以在不使用/没有hive的情况下，在与jdbc连接的spark sql上运行相同的查询。我现在的查询就像创建表，进行简单的聚合和连接，不会发生重大的转换。我没有任何UDF。

浏览 14提问于2018-02-16得票数 0

回答已采纳

1回答

Spark-sql在没有安装hive的情况下能工作吗？

、、

我已经在一个干净的ubuntu实例上安装了spark 2.4.0。Spark数据帧工作得很好，但是当我尝试对数据帧使用spark.sql时，比如在下面的例子中，我得到了一个错误“无法访问metastore。这个类不应该在运行时被访问”。.createOrReplaceTempView("some_

浏览 176提问于2018-12-17得票数 3

回答已采纳

1回答

用于聚合的Spark数据集或Dataframe

、、、、

我们有一个Spark version2.0的MapR集群，我们正在尝试测量一个配置单元查询的性能差异，该查询当前运行在TEZ引擎上，然后在Spark-sql上运行，只需将该查询写入.hql文件，然后通过外壳文件调用它查询包含大量的连接，这肯定会创建多个阶段，在这种情况下会发生混洗，最优的选择是什么？在执行groupBy、max、

浏览 0提问于2017-10-18得票数 0

1回答

一个查询运行map reduce，另一个不运行

、

问题是：给出的结果与以下内容截然不同：为什么会这样呢？第二个查询似乎正在运行hadoop map reduce，而第一个没有-它只是返回结果。该表未分区或分桶，它采用文本(csv)格式。

浏览 0提问于2017-01-11得票数 0

1回答

如何向spark thrift服务器提交配置单元查询？

下面是一个简短的故事： BI工具(PowerBI)连接到Spark集群，并使用HiveThriftServer2应用程序通过hive查询获取聚合数据。但是，由于每次从文件读取数据时，每次查询都要花费大量时间。我想在此应用程序中缓存我的表，并寻找通过相同通道发送查询“缓存表myTable”的方法，以便下一步查询将快速运行。将配置单元查询发送到特定应用程序的<

浏览 0提问于2016-03-24得票数 1

1回答

在spark中使用配置单元数据库

、、、

我是spark的新手，正在尝试使用HortonWorks沙盒在tpcds基准表上运行一些查询。在沙箱上通过外壳或配置单元视图使用配置单元时没有问题。问题是，如果我想使用spark，我不知道如何连接到数据库。如何使用spark中的配置单元数据库来运行查询？到目前为止，我所知道的

浏览 4提问于2016-08-04得票数 2

2回答

如何从Apache访问Hive表？

、、

我已经设置了一个hive datamart，并使用spark框架来查询表和执行ETL活动，现在我希望用户通过从他们的本地机器连接来访问蜂箱表，并且查询应该使用spark框架。

浏览 1提问于2019-04-11得票数 0

回答已采纳

1回答

如何解决在aws emr上运行配置单元查询时设备上没有剩余空间问题

、、、

我已经安装了aws emr，我可以在上面运行配置单元查询。到目前为止，硬件设置如下。- m3.xlarge 8 vCPU，15 GiB内存，80固态硬盘GB存储EBS存储:无我的查询处理了大约5亿条记录，它们成为内部配置单元表的一部分。我在这些内部表上执行合并查询。现在我知道了一个解决方案，如果我增加核心节点

浏览 0提问于2017-11-05得票数 1

1回答

在数据帧上使用聚合操作比使用spark.sql()直接实现SQL聚合有好处吗？

、

我见过来自数据仓库和SQL背景的人正在使用SQL实现聚合和其他转换逻辑(where spark is the sparkSession object) spa

浏览 1提问于2019-05-05得票数 0

1回答

使用spark从一个配置单元读取所有表，然后写入另一个群集上的另一个配置单元

、、

我们可以通过将hive-site.xml设置为spark.But的"conf“方向来读取或写入配置单元中的表。现在，我有两个可以连接到每个other.Let`s的群集，分别是群集上的配置单元1和另一个群集上的配置单元2 现在我需要从配置单元1读取数据并执行一些转换，

浏览 12提问于2018-12-20得票数 2

回答已采纳

1回答

如何使SQL大小写对字段值不敏感

、、

如何编写Spark命令以返回不区分大小写结果的字段？Sample_DF| name || Johnny|| ROBERT|+--------+spark.sql("select name from Sample_DF where status like '

浏览 4提问于2022-10-03得票数 0

回答已采纳

1回答

如何使用Spark* Execution Engine运行配置单元(Apache Hive版本2.1.1和Apache Spark版本2.2.0)*

、

我们已经将配置单元执行引擎从MapReduce切换到Spark，并尝试使用beeline和jdbc在配置单元外壳中运行查询。我们能够运行简单的查询(例如：select * from table)，因为它不需要处理数据，但是当我们尝试运行包含聚合函数的查询(例如：select count(*) from table)时，我们面临以下错误order to set a constant number of

浏览 17提问于2018-01-05得票数 0

1回答

支持从c++代码读取或写入配置单元的驱动程序

、、、、

我有核心产品建立在c++上，它使用关系型数据库，即oracle DB。我们正处于在此产品上启用大数据并可访问Hive表的阶段。我从apache spark了解到，我们有库可以直接访问hive表。现在有了C++作为基础语言，有什么可能的方法在cloudera上的hive上读/写数据？注意:不寻找从配置单元和RDBMS到/从RDBMS的拉取数据。(Sqoop)。希望

浏览 1提问于2018-06-08得票数 0

4回答

使用scala从Spark将$group聚合写入mongodb时重复键错误

、、、

编辑:这个编辑可能会改变这个问题的过程.以下是我所做的：我拿了一个小数据集，并将(聚合)星火代码的结果打印到控制台，而不是写入集合中。我打印了完整的结果</em

浏览 6提问于2017-01-11得票数 2

2回答

Mapr发行版中的Spark上的Hive

、、、

目前我们正在开发Hive，默认情况下，它使用map reduce作为MapR集群中的处理框架。现在我们希望将map reduce更改为spark，以获得更好的性能。根据我的理解，我们需要设置hive.execution.engine=spark。非常感谢您的帮助。谢谢

浏览 0提问于2016-08-05得票数 1

1回答

PySpark -遍历数据帧的每一行并运行配置单元查询

、、

我有一个包含100行名称、年龄、日期、小时的数据帧。我需要用不同的日期值对这个数据帧进行分区。假设这100行中有20个不同的日期值，那么我需要产生20个并行配置单元查询，其中每个配置单元QL都会将这些分区中的每个分区与一个配置单元表连接起来。Hive表很大，因此我需要将这些连接优化为多个较小的连接，然后聚合这些

浏览 0提问于2017-09-19得票数 0

1回答

我是不是错过了什么来激活pyspark中蜂巢的酸？

、、、

我想要更新我的hive表中的一些行。因为pyspark根本无法识别更新，所以我选择了DELETE和INSERT，但在DELETE操作上得到了"Operation not allowed“。为了解决这个问题，我将表指定为orc，并尝试了这个站点上提到的其余要求：sqlCtx.sql("""SET spar

浏览 17提问于2019-07-26得票数 0

2回答

外部配置单元表刷新表与MSCK修复

、、、

我有一个外部蜂窝表，存储为Parquet，分区在一个列上，比如as_of_dt，数据通过spark streaming插入。现在，每天都会添加新的分区。我正在执行msck repair table，以便配置单元元存储获得新添加的分区信息。这是唯一的办法，还是有更好的办法？我担心如果下游用户查询表，msck repair是否会导致数据不可用或数据陈旧的问题？我正在浏览HiveContext应用程序接口并查看refres

浏览 8提问于2018-08-07得票数 13

3回答

对hive表中的大型数据集执行Spark* select查询失败*

、、、、

我的以下代码是使用spark从hive表中读取数据。该表中有1亿条记录。当我在Rdd中选择这么多记录并尝试执行result.show()时，它给出了严重的问题异常。我基本上是想通过从这个表中选择几列来插入其他表中的记录，以获得1亿条记录集。下面是我的代码：import org.apache.spark.sql._ val sqlContext = new org.apac

浏览 0提问于2017-11-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用jdbc spark sql的配置单元查询

Spark-sql在没有安装hive的情况下能工作吗？

用于聚合的Spark数据集或Dataframe

一个查询运行map reduce，另一个不运行

如何向spark thrift服务器提交配置单元查询？

在spark中使用配置单元数据库

如何从Apache访问Hive表？

如何解决在aws emr上运行配置单元查询时设备上没有剩余空间问题

在数据帧上使用聚合操作比使用spark.sql()直接实现SQL聚合有好处吗？

使用spark从一个配置单元读取所有表，然后写入另一个群集上的另一个配置单元

如何使SQL大小写对字段值不敏感

如何使用Spark* Execution Engine运行配置单元(Apache Hive版本2.1.1和Apache Spark版本2.2.0)*

支持从c++代码读取或写入配置单元的驱动程序

使用scala从Spark将$group聚合写入mongodb时重复键错误

Mapr发行版中的Spark上的Hive

PySpark -遍历数据帧的每一行并运行配置单元查询

我是不是错过了什么来激活pyspark中蜂巢的酸？

外部配置单元表刷新表与MSCK修复

对hive表中的大型数据集执行Spark* select查询失败*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐