如何使用java连接到spark-shell并执行hive查询

使用Java连接到Spark-Shell并执行Hive查询的步骤如下：

首先，确保已经安装了Java和Spark，并且配置了正确的环境变量。
在Java代码中，导入必要的Spark和Hive相关的类和包：

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.Dataset;

创建一个SparkSession对象，用于连接到Spark集群：

SparkSession spark = SparkSession.builder()
        .appName("Java Spark Hive Example")
        .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
        .enableHiveSupport()
        .getOrCreate();

这里的/user/hive/warehouse是Hive元数据存储的目录，可以根据实际情况进行修改。

使用SparkSession对象执行Hive查询，并将结果保存到一个Dataset对象中：

Dataset<Row> result = spark.sql("SELECT * FROM table_name");

这里的table_name是你要查询的Hive表的名称，可以根据实际情况进行修改。

可以对结果进行进一步的处理和分析，例如打印查询结果：

result.show();

最后，记得关闭SparkSession对象：

spark.close();

这样，你就可以使用Java连接到Spark-Shell并执行Hive查询了。

关于腾讯云相关产品，推荐使用腾讯云的云服务器（CVM）和弹性MapReduce（EMR）来搭建Spark集群和Hive环境。你可以在腾讯云官网上找到更多关于这些产品的详细介绍和文档。

参考链接：

腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云弹性MapReduce（EMR）：https://cloud.tencent.com/product/emr

在“火花-defaults.conf”中设置属性“spark.sql.hive.metastore.jars”后出现的异常

、、、

下面是我在系统中安装的Spark & Hive的版本星火：spark-1.4.0-bin-hadoop2.6 蜂巢：apache-hive-1.0.0-bin 我已经将Hive安装配置为使用MySQL作为Metastore。目标是访问MySQL Metastore &在spark-shell中执行HiveQL查询(使用HiveContext) 到目前为止，我能够通过访问Derby来执行HiveQL查询(如所描述的，相信Spark-1.4与Hive 0.13.1捆绑在一起，后者使用内部Derby数据库作为Metastore)。然后，我试图将spark-shell指向我的外部M

浏览 3提问于2015-07-17得票数 5

1回答

Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport()是必要的吗？

、、

我对Hive的理解是，它提供了一种使用SQL命令查询HDFS的方法。好吧，但是还有Spark。Spark拥有所有的RDD类方法，这些方法完全有能力，但我更喜欢使用SQL。输入Spark SQL。既然我可以使用Spark SQL通过SQL查询我的数据库，那么为什么Hive会进入这个画面呢？医生说： enableHiveSupport(): Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined fun

浏览 1提问于2018-08-16得票数 0

1回答

为什么启动火花壳失败了“我们找不到任何外部IP地址！”在Windows上？

我现在在Windows电脑上启动火花壳有困难了.我正在使用的Spark版本是1.5.2预为Hadoop2.4或更高版本构建的。我认为火花-贝类. and可以在没有任何配置的情况下直接运行，因为它是预先构建的，我不知道是什么问题使我无法正确启动火花。除了打印出来的错误消息外，我还可以在命令行上执行一些基本的scala命令，但显然这里出了问题。以下是cmd中的错误日志： log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.li b.MutableMetricsFactory). log

浏览 5提问于2015-11-18得票数 3

回答已采纳

1回答

spark如何从Hive读取和写入数据？

、

val spark = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocation) .enableHiveSupport() .getOrCreate() 当我使用spark-shell执行spark-sql从Hive查询表时，spark如何从Hive读取和写入数据？是通过JDBC还是别的什么？

浏览 1提问于2017-11-10得票数 1

1回答

spark psv文件到数据帧转换错误

、、

我正在使用的spark版本是2.0+，我所要做的就是将一个管道(|)分隔的值文件读取到一个Dataframe中，然后运行SQL查询。我也尝试过逗号分隔的文件。我正在使用spark-shell与spark进行交互，我已经下载了spark-csv jar，并运行了spark-shell并使用--package选项将其导入到我的会话中。已成功导入。 import spark.implicits._ import org.apache.spark.sql.SQLContext import org.apache.spark.sql._ val session = SparkSession.build

浏览 1提问于2017-03-24得票数 0

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。我看到了这个错误： "Failed with exception java.io.IOException:java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循的步骤 scala >val sqlContext = new org.apache.

浏览 3提问于2016-01-20得票数 1

1回答

如何使用spark读取hive管理表数据？

、、

我可以使用spark-shell读取hive外部表，但当我尝试从hive管理表中读取数据时，它只显示列名。请在此处查找查询： ? ?

浏览 19提问于2020-03-17得票数 0

1回答

CDH5.4.2火花可以在火花壳中使用HiveContent，但不能打开火花-sql

、、

我使用的是CDH5.4.2的火花(独立的) 在将hive-site.xml复制到$SPARK_HOME/conf之后，我可以从spark-shell中的hive查询，如下所示： org.apache.spark.sql.hive.HiveContext@6c6f3a15 scala> hiveContext =新的org.apache.spark.sql.hive.HiveContext(sc)；hiveContext: org.apache.spark.sql.hive.HiveContext = scala> hiveContext.sql(“显示表”).show()；

浏览 8提问于2016-07-26得票数 0

1回答

在SparkSQL中缓存表时出错

、、

我正在尝试缓存一个在Hive中可用的表(使用spark-shell)。下面是我的代码 scala> val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) scala> hiveContext.cacheTable("sparkdb.firsttable") 我得到了下面的例外 org.apache.spark.sql.catalyst.analysis.NoSuchTableException at org.apache.spark.sql.hive.client.ClientInt

浏览 5提问于2015-07-18得票数 2

回答已采纳

1回答

如何让Spark和小偷服务器看到同样的蜂巢转移？

、、

使用spark-shell和HiveContext，我试图显示所有的蜂巢表。但是，当我启动thirft server并使用beeline检查所有表时，它在那里是空的。在spark文档中，它说：(1)如果我将hive-site.xml放到conf/中，那么用于DataFrame的saveAsTable方法将持久化表以保存在xml文件中指定的单元格。(2)如果我将hive-site.xml放到conf/中，thriftServer将连接到xml文件中指定的单元。现在，我在conf/中没有任何这样的xml文件，所以我认为它们都应该使用默认配置。但很明显情况并非如此，有人能帮我指出原因吗？非常感

浏览 1提问于2015-07-24得票数 1

3回答

Spark不允许我创建一个表，抱怨默认的转移目录

、

在我的本地机器上安装了火花1.5火花-1.5.0-bin-hadoop2.6。在之后，运行$./bin/shell尝试创建一个表，得到如下结果： > SQL context available as sqlContext. > > scala> sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value > STRING)"); 15/09/22 22:18:13 ERROR DDLTask: > org.apache.hadoop.hive.ql.metadata.Hive

浏览 1提问于2015-09-23得票数 0

回答已采纳

3回答

Spark中的配置单元元存储警告

、、

在启动spark-shell时，我经常收到这样的警告 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException java.lang.RuntimeException: 它们是什么意思，我该如

浏览 6提问于2016-12-14得票数 3

1回答

未找到捕获exceptionorg.apache.spark.sql.AnalysisException:表或视图

、、

我正在尝试从spark scala代码中查询hive表，并得到以下错误： catch exceptionorg.apache.spark.sql.AnalysisException: Table or view not found: `databaseName`.`register`; line 1 pos 35; 'Distinct +- 'Project ['computer_name] +- 'UnresolvedRelation `databaseName`.`register` job failed 这是从Hive读取数据的代码。 impor

浏览 13提问于2019-02-25得票数 0

1回答

无法使用spark-shell从EMR集群连接到远程MongoDB

、、、

我正在尝试从EMR集群连接到远程Mongo数据库。使用命令spark-shell --packages com.stratio.datasource:spark-mongodb_2.10:0.11.2执行以下代码 import com.stratio.datasource.mongodb._ import com.stratio.datasource.mongodb.config._ import com.stratio.datasource.mongodb.config.MongodbConfig._ val builder = MongodbConfigBuilder(Map(Host

浏览 16提问于2016-07-27得票数 0

回答已采纳

1回答

在蟾蜍数据点中设置属性失败

、、、

我正在使用蟾蜍数据点V4.0连接到Hive。我尝试使用蟾蜍设置下面的属性。设置hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat；设置hive.optimize.bucketmapjoin=true；设置hive.optimize.bucketmapjoin.sortedmerge=true；虽然我可以通过Beeline设置这些属性，但蟾蜍在运行set命令时会抛出以下错误。 Hortonworks (80)在执行查询时在服务器中抛出语法或语义分析错误。来自服务器的错误消息

浏览 2提问于2017-09-14得票数 0

1回答

Dataproc中的火花错误- java运行时环境内存不足

、、

在使用Hive之后，我尝试在Dataproc中执行spark-shell命令，并且由于内存不足而导致错误； OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00007f79e8443000, 12288, 0) failed; error='Cannot allocate memory' (errno=12) here is insufficient memory for the Java Runtime Environment to continue. Native memory allocation (

浏览 3提问于2020-06-06得票数 0

1回答

通过SpagoBI 5.0进行0.13连接

、、

当我查询时，我已经从SpagoBI 5.0连接到了Hive0.13 select * from table 我成功了。但是，当我尝试一些联接或聚合时，我会得到以下错误： An unexpected error occured while executing dataset: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 我使用的是ubuntu 14.04 本地安装的SpagoBI 5.0

浏览 3提问于2015-03-24得票数 0

回答已采纳

2回答

通过Java应用程序连接Spark失败

、、、、

我编写了一个Java应用程序，使用Spark在基于蜂巢的数据库上执行SQL查询。但是，通过JDBC从我的Java连接到Spark会给我一个连接拒绝的错误。我编写的代码如下： public static void main(String args[]) { Class.forName("org.apache.hive.jdbc.HiveDriver"); conn = DriverManager.getConnection("jdbc:hive2://<ip>:10015/default","","");

浏览 7提问于2017-01-12得票数 0

回答已采纳

1回答

是否可以使用Hadoop3.x和Hive3.x使用火花2.4？

、、、、

我们使用spark 2.4.0连接到Hadoop2.7集群，并从2.3版本进行查询。但是集群管理团队已经决定升级到Hadoop3.x和Hive3.x。我们还不能迁移到spark 3，这与Hadoop 3和Hive 3兼容，因为我们无法测试是否有任何故障。是否有可能继续使用2.4.x版本，并且仍然能够使用Hadoop 3和Hive 3? 我知道回溯是一种选择，如果你能指出我的方向，那就太好了。

浏览 8提问于2020-07-06得票数 2

2回答

如何在Spark中获取默认属性值

、、

我正在使用这个版本的Spark：spark-1.4.0-bin-hadoop2.6。我想检查几个默认属性。因此，我在spark-shell中给出了以下语句 scala> sqlContext.getConf("spark.sql.hive.metastore.version") 我期望对方法getConf的调用会返回此中描述的0.13.1值。但是我得到了下面的异常 java.util.NoSuchElementException: spark.sql.hive.metastore.version at org.apache.spark.sql.SQLConf$$a

浏览 0提问于2015-07-17得票数 6

回答已采纳

1回答

星火和MySQL元存储的蜂巢

、、、

我正在尝试用Hive和一个MySQL支持的元数据存储来配置Apache。我得到以下异常 Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://<correct-information> 我能够用下面的命令启动shell bin/spark-shell --jars /usr/share/java/mysql-connector-java.jar 然后我运行以下命令 scala> Class.forName("com.mysql.jdbc.Driver") res0

浏览 0提问于2014-11-20得票数 2

回答已采纳

2回答

使用utf-8字符编码从配置单元中选择数据

、、、、

我从hive表/视图中选择数据，但是spark-shell或beeline没有提取字符编码，但是如果我从Ambari(直接throguh Hive)选择相同的数据，但是出于安全原因，从命令行Hive被禁用。请参考以下数据： Ambari Data: •Construction Maintenance • 524 N. Martin Luther King Jr. ‘SS-MN-BAE – Other’ ¿NPM¿ GOVT/GS SCD US ARM ¿MCCRAY,LORENZO beeline data: ?Construction Mai... ? 524 N. Martin L

浏览 19提问于2019-01-11得票数 0

回答已采纳

1回答

在SerDe服务器上添加Hive SparkSQL jar

、、、、

我有指向JSON文件作为内容的Hive表，这些表需要JSON (来自SerDe )来查询这些表。在承载Hadoop发行版的机器(或VM)中，我可以简单地在Hive或Beeline CLI中执行： ADD JAR /<local-path>/json-serde-1.0.jar; 然后，我能够对我的Hive表执行选择查询。我需要使用这些Hive表作为我的Tableau的数据源(安装在我的主机Windows中)，所以我在Spark中启动了Th深层服务器。对于不包含JSON (且不需要SerDe)的Hive表，Tableau可以轻松地连接和读取这些表。但是，当谈到包含JSON数据的

浏览 4提问于2015-12-07得票数 1

回答已采纳

1回答

如何在发射火花壳时为驱动程序和执行器设置额外的类路径

关于如何配置和运行火花外壳的文档--可能类似于火花提交--还不完全清楚。以下是我尝试过的： spark-shell --master <master IP:port> --executor-memory 8gb \ --total-executor-cores 10 --driver-memory 8gb \ --driver-class-path /opt/cloudera/CDH/lib/hive/lib \ --driver-java-options "-Dspark.executor.extraClassPath=/opt/cloudera/CDH/lib/hi

浏览 5提问于2015-03-01得票数 0

回答已采纳

1回答

如何通过执行内部联接并将数据带入配置单元来从hbase表中检索数据

、、、、

我有两个Hbase表'hbaseTable'，'hbaseTable1‘和Hive表'hiveTable’，我的查询如下： 'insert overwrite hiveTable select col1, h2.col2, col3 from hbaseTable h1,hbaseTable2 h2 where h1.col=h2.col2'; 我需要在hbase中执行内部联接，并将数据带到hive。我们使用的是hive和java，它的性能非常差。因此，计划通过使用spark来改变方法。也就是说，如何使用SPARK从我的java代码连接到hbas

浏览 16提问于2017-02-02得票数 0

回答已采纳

4回答

德比蜂巢亚稳态结构

、、、

在RedHat测试服务器中，我安装了Hadoop2.7，运行了Hive、Pig & Spark，在尝试从Spark访问Hive转移点时运行了hive、Pig&Spark，我发现了错误，所以我想将hive-site.xml (在提取' apache -hive-1.2.1-bin.tar.gz‘文件之后，我只是在每个教程中添加$HIVE_HOME到bashrc，除了与Spark的集成之外，一切都在工作)我发现我需要将hive-site.xml作为转移配置，我创建了这个文件如下所示 <configuration> <property> <n

浏览 0提问于2016-02-05得票数 2

回答已采纳

3回答

Hive客户端抛出SQLException

、、、、

我正在使用JDBC客户端代码连接到一个单元安装。我已经创建了一个包含两列(column1、column2)和字符串类型的测试表。当我尝试执行诸如"select* from test“之类的简单查询时，我会在java程序中获得结果，但是带有where子句和其他复杂查询的查询会抛出以下异常。查询返回非零代码: 1，原因:失败:执行错误，从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码1 我尝试过在文件存在的地方更改hdfs目录的权限，在本地目录上更改/tmp，但这不起作用。这是我的连接代码 Connection con = DriverMan

浏览 2提问于2013-07-06得票数 1

2回答

星火壳按分区加载现有的蜂窝表？

、、、

在spark-shell中，如何加载现有的Hive表，但只加载其中的一个分区？ val df = spark.read.format("orc").load("mytable") 我正在寻找一种方法，所以它只加载这个表的一个特定分区。谢谢!

浏览 19提问于2020-04-30得票数 0

回答已采纳

1回答

星星之火，总是错误的executor_cores在工作申请从火花主web用户界面。

、、

我试图把hive 2.1.1上的地图还原为蜂箱的火花。正如在星星之火官方网站上的hive中所告诉的那样，我构建了一个spark 1.6.0(比如在hive2.1.1源代码中触发rev )，而不使用hive。星火是一个好的火花-submit/spark-shell测试。我设置了核心/火花.执行程序.内存在hive-site.xml中，也将这2限制为火花工芯/火花工记忆在spark-env.sh中。但是，在我从hive启动了一个像select count(*)这样的单元查询之后，星火主web UI中的作业总是应用了0 CPU核，所以作业不会被执行，而蜂巢查询就像在cli中永

浏览 4提问于2017-05-02得票数 0

0回答

Windows上的Spark设置

、

我正在尝试在我的Windows10 PC上设置Spark。执行spark-shell命令后，我得到以下错误： java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState': at rg.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$reflect

浏览 9提问于2017-01-04得票数 0

1回答

无法从Eclipse建立到配置单元的JDBC连接

、、、、

我正在尝试建立到Hive的JDBC连接，这样我就可以从Eclipse中查看和创建表以及查询Hive表。我使用了HiveClient示例代码：，然后将所有必需的jars添加到eclipse中的java构建路径中，并启动了Hive Thrift Server。端口10000正在侦听。我使用的是Cloudera QuickstartVM 4.6.1和它附带的eclipse。这是当我尝试运行代码时在IDE中得到的错误。 Exception in thread "main" java.sql.SQLException: org.apache.thrift.transport.TTrans

浏览 2提问于2014-03-16得票数 8

回答已采纳

1回答

在spark-shell中可访问正确的配置单元转移存储，但不能在spark- file.jar中访问

、、、

当我跑的时候 spark-shell 在linux shell中，然后尝试： spark.sql("show databases").show() 我得到了正确的数据库列表(因为我连接到了正确的metastore)。现在，当我使用以下代码提交我的jar时：通过以下方式提交： spark-submit file.jar Jar代码- SparkConf conf = new SparkConf().setAppName("test"); SparkSession spark = SparkSession .builder()

浏览 1提问于2019-04-02得票数 0

1回答

ClassNotFoundException: com.databricks.spark.csv.DefaultSource

、、、

我正在尝试使用scala从Hive导出数据。但我会跟着错误走。 Caused by: java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource 我的scala脚本如下所示。 import org.apache.spark.sql.hive.HiveContext val sqlContext = new HiveContext(sc) val df = sqlContext.sql("SELECT * FROM sparksdata") df.write.format("com.dat

浏览 1提问于2017-08-22得票数 0

2回答

Spark SQL无法读取带有org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe serde配置单元表

、

浏览 217提问于2020-06-08得票数 0

1回答

电子病历LinkageError上的Spark + Cassandra

、、、、

我已经在EMR 4.4.0上部署了Spark 1.6，我正在连接到在EC2上部署的datastax cassandra 2.2.5。该连接使用spark-connector 1.4.2_s2.10将数据保存到cassandra中(因为它有guava14)，但是使用1.4.2版本的connector从cassandra读取数据失败。正确的组合建议使用1.5.x，因此我开始使用1.5.0。首先，我遇到了芭乐问题，并使用userClasspathFirst解决方案解决了它。 spark-shell --conf spark.yarn.executor.memoryOverhead=2048 -

浏览 0提问于2016-03-29得票数 4

1回答

Spark read as jdbc将所有行作为列名返回

、、、

我在Scala 2.12中使用Spark 3.x SQL查询Spark的数据库表。我遵循了互联网上给出的例子。我正在使用的db : Spark SQL的数据库，使用Centos 7。我正在查询的表(示例)包含以下列： create table example( tutorial_title VARCHAR(22) NOT NULL) ; var example= spark.read.format("jdbc") .option("url", "jdbc:hive2://localhost:10000/test2") .option("

浏览 4提问于2020-07-31得票数 4

1回答

配置单元元存储中的上次访问时间更新

、、、

我在配置单元控制台/ .hiverc文件中使用了以下属性，以便每当我查询该表时，它都会更新配置单元元存储的TBLS表中的LAST_ACCESS_TIME列。 set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec; 但是，如果我使用spark-sql或spark-shell，它似乎无法工作，并且LAST_ACCESS_TIME在配置单元转移存储中不会更新。下面是我读表的方式： >>> df = spark.sql("select * fro

浏览 1提问于2020-02-25得票数 5

2回答

使用RJDBC/RHive从R连接到远程Hive服务器

、、、

我使用RJDBC0.2-5连接到Rstudio中的Hive。我的服务器有hadoop-2.4.1和hive0.14。我按照下面提到的步骤连接到蜂巢。 library(DBI) library(rJava) library(RJDBC) .jinit(parameters="-DrJava.debug=true") drv <- JDBC("org.apache.hadoop.hive.jdbc.HiveDriver", c("/home/packages/hive/New folder3/commons-logging-1

浏览 5提问于2015-10-08得票数 1

1回答

无法通过spark sql中的scala连接到配置单元

、

我尝试连接到hive并选择一些数据，以便通过scala在spark sql中进行测试，但失败了。我使用的代码如下： object LoadHive { def main(args: Array[String]) { if (args.length < 2) { println("Usage: [sparkmaster] [tablename]") exit(1) } val master = args(0) val tableName = args(1) val sc = new SparkContext(master, "LoadHiv

浏览 2提问于2016-11-29得票数 2

1回答

执行有效的select语句时，到Hive的LibreOffice基本JDBC连接返回“不支持的方法”

、、、

我正在尝试获得LibreOffice的Base5.1.4.2，它运行在Ubuntuv16.04上，通过JDBC连接到Hive1.2.1数据库。我将从Maven Central下载的以下jars添加到LibreOffice的类路径('Tools -> LibreOffice -> Advanced-> Class Path')： hive-common-1.2.1.jar hive-jdbc-1.2.1.jar hive-metastore-1.2.1.jar hive-service-1.2.1.jar hadoop-common-2.6.2.jar http

浏览 0提问于2016-07-11得票数 1

回答已采纳

1回答

通过JDBC查询Hive Derby数据库时引发的异常

、、

我是Hive的新用户，刚刚开始在一个项目中使用它。我在使用java连接到数据库时遇到了问题。解释如下：我在我的机器上运行Hive数据库，它使用嵌入式derby驱动程序创建了一个Derby metastore_db。现在，我希望通过一个单独的metastore_db程序来查询这个查询。我在网上找到了很多窍门，但仍然无法做到这一点。 Java文件的快照： String url = "jdbc:derby:metastore_db;create=true"; String username = "APP"; String password = "min

浏览 3提问于2013-12-08得票数 0

1回答

使用JdbcStorageHandler从星火库读取蜂巢表时出错

、、、、

我已经通过我的Spark/Hive部署设置了对外部关系存储(PostgreSQL)的访问。我可以通过Hive/Beeline读取这个表，但是当我尝试通过SparkSQL/pyspk3jupyter笔记本阅读时，它失败了，因为它找不到JdbcStorageHandler。我尝试过以几种方式添加适当的jar，但是我正在全面地执行相同的堆栈跟踪--对于我需要什么样的jar和版本，以及我应该把它放在哪里，我有什么建议吗？堆栈跟踪： java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error in

浏览 1提问于2020-09-11得票数 2

1回答

如果存在星火错误，请删除蜂巢表

、、

我有蜂巢，MySQL和星火。MySQL是蜂巢metastore_db。我遵循这个指南来配置它()。在hive环境下执行drop命令是可以的。但是当我进入火花弹env时，我使用hiveContext.hql("DROP TABLE IF EXISTS hivetesting")。然后，我得到了以下错误： ERROR Hive: NoSuchObjectException(message:default.hivetesting table not found) at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$g

浏览 4提问于2014-07-21得票数 1

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。然后转到下一步，设置。通过使用hive / beeline，我还可以创建Hive表，加载数据，然后进行适当的选择。蜂箱在纱线/火花上正确地执行。我怎么知道它起作用了？hive外壳显示以下内容： hive> select sum(col1) from test_table; .... Query Hive on Spark job[0] stages: [0, 1] Spark job[0] status = RUNNING ---------------

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

在HDP 3.1中，spark如何在作为外部的配置单元中写入(创建)表

、、、、

默认设置 spark-shell --conf spark.hadoop.metastore.catalog.default=hive val df:Dataframe = ... df.write.saveAsTable("db.table") 在尝试写入内部/托管/事务性表时失败(请参阅How to write a table to hive from spark without using the warehouse connector in HDP 3.1)。我如何告诉spark不要创建一个托管的表，而是创建一个外部表？

浏览 24提问于2019-10-16得票数 0

2回答

如何通过Scala spark-shell将大型RDD写入本地磁盘？

、、、、

通过Scala spark-shell，我可以使用elasticsearch-hadoop-5.5.0连接器访问Elasticsearch数据库。我通过在spark-shell中传递以下命令来生成RDD： val myRdd = sc.esRDD("myIndex/type", myESQuery) myRDD包含跨越15个分区的210万条记录。我一直在尝试将所有数据写入到本地磁盘上的一个文本文件中，但是当我尝试运行将RDD转换为数组的操作时，比如myRdd.collect()，我的java堆就超载了。是否有导出数据的方法(例如，一次100k条记录)递增，这样我就永远不会使

浏览 50提问于2017-08-04得票数 1

2回答

不能用直线连接到蜂箱，用户根目录不能模拟匿名。

、、

我试图用直线!connect jdbc:hive2://localhost:10000连接到蜂箱，并被要求提供用户名和密码 Connecting to jdbc:hive2://localhost:10000' Enter username for jdbc:hive2://localhost:10000: Enter password for jdbc:hive2://localhost:10000: 由于我不知道我应该输入什么用户名或密码，所以我将它保留为空，这会导致错误：Error: Failed to open new session: java.lang.Runtime

浏览 1提问于2017-04-03得票数 8

回答已采纳

2回答

JMeter 3.3 connect Spark 2.2.1错误：“无法创建PoolableConnectionFactory (方法不受支持)”

、、、

使用这个jars列表，我可以成功地将Spark连接到SQuirrel 2.2.1： commons-logging-1.1.3.jar hadoop-common-2.7.3.jar hive-exec-1.2.1.spark2.jar hive-jdbc-1.2.1.spark2.jar hive-metastore-1.2.1.spark2.jar http-client-1.0.4.jar httpclient-4.5.2.jar httpcore-4.4.4.jar libfb303-0.9.3.jar libthrift-0.9.3.jar log4j-1.2.17.jar slf4

浏览 1提问于2018-04-03得票数 0

1回答

将Visual Studio HDInsight模拟器连接到纱线群集上的配置单元时出现问题

、、、

我想使用Visual Studio从安装在Centos7 X64下的YARN集群上的hive中进行查询。集群有一个主节点和4个工作节点。我已经成功连接到WebHDFS和SSH，但无法连接到HiveServer2。所有服务都已启动并运行，包括HDFS、YARN和HiveServer2。我在hive-site.xml中为HiveServer2设置了端口10000，Web显示在端口10002上。我安装了配置单元ODBC驱动程序并对其进行了配置。它成功地通过端口10000连接到我的HiveServer2。 HDInsight模拟器只显示‘无法打开连接。请检查您的连接字符串。有关失败的详细信息，请参阅

浏览 1提问于2019-07-24得票数 0

1回答

Oozie Java Action使用委托令牌访问Hive Server 2(Kerberized)

、、、

目前我有一个问题，真的需要一些帮助。我们正在尝试用角化我们的hadoop集群，包括hive、server2和oozie。我的oozie作业在数据节点中派生出一个java操作，该操作试图连接到kerberized服务器2。没有用户的kerberos键选项卡进行身份验证。因此，我只能使用java操作中由oozie传递的委托令牌连接到hive服务器2。我的问题是:我是否可以在oozie java操作中使用委托令牌连接到hive服务器2？如果是这样的话，我如何通过hive来做到这一点？谢谢贾里

浏览 4提问于2015-08-15得票数 0