在Scala Spark应用程序中使用Impala JDBC_无法使用Impala JDBC驱动程序通过Java应用程序连接到Impala_无法在Scala应用程序中创建Spark SQLContext - 腾讯云开发者社区

impala、apache-spark-2.0、apache-kudu

我想用火花2壳读黑帕拉的“古都”，在很多方面都失败了：输入火花2-外壳： spark2-shell --jars commons-codec-1.3.jar,hive_metastore.jar,httpclient-4.1.3.jar,ImpalaJDBC41.jar,libthrift-0.9.0.jar,ql.jar,slf4j-log4j12-1.5.11.jar,zookeeper-3.4.6.jar,commons-logging-1.1.1.jar,hive_service.jar,httpcore-4.1.3.jar,libfb303-0.9.0.jar,log4j-1.2.

浏览 0提问于2018-01-10得票数 0

回答已采纳

4回答

如何使用JDBC将Impala表直接加载到Spark？

jdbc、apache-spark、pyspark、kerberos、impala

我正在尝试用Python编写一个spark作业，它将打开与Impala的jdbc连接，并将视图直接从Impala加载到Dataframe中。这个问题非常接近，但在scala中：我该怎么做呢？有很多其他数据源的示例，比如MySQL、PostgreSQL等，但我还没有看到一个用于Impala + Python + Kerberos的示例。举个例子会有很大帮助。谢谢! 用网络上的信息试过了，但不起作用。 SPARK笔记本 #!/bin/bash export PYSPARK_PYTHON=/home/anave/anaconda2/bin/python export HADOOP_CONF_DIR

浏览 7提问于2016-09-09得票数 5

1回答

火花KUDU复杂更新语句直接或通过Impala JDBC驱动程序？

apache-spark、impala、apache-kudu

如果我查看Imapala Shell或Hue，我可以为KUDU编写足够复杂的IMPALA更新语句。例如，使用子选择更新和不更新的内容。很好。看看过去的JDBC连接方法，比如通过SPARK / SCALA进行mySQL，通过这种连接进行复杂的更新的可能性不大，这是可以理解的。不过，有了古都，我想情况会发生变化。查看有关使用Apache KUDU开发应用程序的KUDU - Apache KUDU的文档，这些问题如下：还不清楚我是否可以通过IMPALA JDBC驱动程序(由于KUDU的安全问题)从SPARK / SCALA环境发出复杂的update SQL语句。在星星之火中，本机模式

浏览 2提问于2017-11-08得票数 1

回答已采纳

1回答

Kudu兼容性的火花数据铸造柱

scala、apache-spark、impala、apache-kudu

(我对星火、黑帕拉和库杜都很陌生。)我试图通过Kudu将Oracle DB中的表复制到具有相同结构的Impala表中。当代码试图将Oracle NUMBER映射到Kudu数据类型时，我会收到一个错误。如何更改星火DataFrame的数据类型，使其与Kudu兼容？这是一份从Oracle到Impala的1到1的数据副本.我提取了源表的Oracle模式，并创建了一个具有相同结构的目标Impala表(相同的列名和合理的数据类型映射)。我希望Spark+Kudu能自动映射所有数据，只需复制数据即可。相反，Kudu抱怨说它不能映射DecimalType(38,0)。我想指定“名为SOME_COL的第1

浏览 3提问于2019-05-15得票数 0

回答已采纳

1回答

如何使用JDBC在Spark中的其他数据库中获取表的创建语句

scala、apache-spark、jdbc、impala

问题陈述： I有一个Impala数据库，其中存在多个表，我正在创建到Impala的Spark连接，并将这些表加载到spark中，以便进行像这样的验证，这很好： spark.read.format("jdbc") .option("url"，"url") .option("dbtable"，"tablename") .load() 现在是下一步，我的实际问题是我需要找到create语句，该语句用于在Impala本身中创建表，因为我不能像下面这样运行命令，因为它会产生错误，所以是否可以为Impala中的表获取sho

浏览 2提问于2020-08-13得票数 2

回答已采纳

1回答

从spark作业中调用JDBC到impala/hive并创建表

scala、jdbc、apache-spark、impala

我正在尝试用scala编写一个spark作业，它将打开与Impala的jdbc连接，并允许我创建表和执行其他操作。我该怎么做呢？任何例子都会有很大的帮助。谢谢!

浏览 1提问于2014-10-29得票数 6

回答已采纳

1回答

火花流中的c3p0误差

spark-streaming、c3p0

我使用c3po连接jdbc(impala)，但它可以帮助我：) ConnectPool.scala class ConnectPool extends Serializable{ private val cpds: ComboPooledDataSource = new ComboPooledDataSource(true) private val conf = Utils.getPropmap("env.properties") try { cpds.setJdbcUrl(conf("kudu.produce.url")) cpds

浏览 1提问于2018-03-16得票数 1

回答已采纳

1回答

spark集群模式下的Impala JDBC连接问题

apache-spark、jdbc、hadoop-yarn、impala

在群集模式下运行spark作业时，Impala jdbc连接在异常下抛出。Spark job创建hive表，并使用JDBC执行impala表无效/刷新。相同的作业在spark客户端模式下成功执行。 java.sql.SQLException: [Simba][ImpalaJDBCDriver](500164) Error initialized or created transport for authentication: [Simba][ImpalaJDBCDriver](500169) Unable to connect to server: GSS initiate failed. a

浏览 228提问于2018-02-26得票数 1

回答已采纳

1回答

，从Oracle中的Varchar2转换到日期类型失败

java、oracle、apache-spark、apache-spark-sql、apache-spark-2.0

我有一个usecase，其中我想从一个Oracle表中读取数据，其中所有字段都是varchar类型，并将其保存到另一个具有类似字段但具有理想的正确数据类型的Oracle表中。这只能用java来完成。因此，我想从下表读取数据集： create table employeeStr ( name varchar2(50), empid varchar2(50), age varchar2(50), salary varchar2(50), dt_joined varchar2(50)); 并写到下表： create table employeeNorm ( name varchar2(5

浏览 5提问于2017-10-22得票数 0

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

apache-spark、spark-jdbc

当我为表同步运行spark应用程序时，错误消息如下所示： 19/10/16 01:37:40 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 51) com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packet

浏览 3提问于2019-10-16得票数 0

回答已采纳

1回答

如何使用impala连接池触发流媒体(JDBC to kudu)

spark-streaming、impala

我使用impala(JDBC)两次来获取kafka偏移量并将数据保存在foreachRDD中。但是黑斑鹿和库度总是关门。现在，我想要设置连接池，但对scala的设置很少。这是我的伪代码： #node-1 val newOffsets = getNewOffset() // JDBC read kafka offset in kudu val messages = KafkaUtils.createDirectStream(*,newOffsets,) messages.foreachRDD(rdd => { val spark = SparkSession.build

浏览 0提问于2018-03-15得票数 0

2回答

从远程机器到MySql的JDBC连接

mysql、apache-spark、jdbc

我已经在Linux (在windows桌面)上安装了MySql，我正在尝试从运行在父windows操作系统上的Spark应用程序连接到MySql。在连接过程中，我遇到以下错误... 以下是示例代码 def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark

浏览 0提问于2018-09-26得票数 0

1回答

我们可以保持IMPALA JDBC连接打开多长时间？

sql、apache-spark、jdbc、connection、impala

我们有一个spark应用程序，它使用impala jdbc连接运行很少的SQL。应用程序在不同的时间内完成，如15分钟，1小时和3小时最长。我们可以在作业完成之前打开JDBC连接吗?还是需要在短时间内关闭和打开？

浏览 1提问于2021-02-08得票数 0

3回答

在Spark中使用Presto时无法识别的连接属性“url”

apache-spark、apache-spark-sql、presto、presto-jdbc

下面是我的星星之火sql代码，在这里，我试图根据本指南读取一个预置表； val df = spark.read .format("jdbc") .option("driver", "com.facebook.presto.jdbc.PrestoDriver") .option("url", "jdbc:presto://localhost:8889/mycatalog") .option("query", "select * from mydb.mytable limit 1

浏览 11提问于2021-08-30得票数 3

回答已采纳

2回答

Postgresql UUID[]到Cassandra:转换错误

scala、apache-spark、cassandra、apache-spark-sql、spark-cassandra-connector

它给了我java.lang.ClassCastException：[Ljava.util.UUID；不能投给[Ljava.lang.String；我的工作是从一个包含PostgreSQL类型列的user_ids uuid[]表中读取数据，所以当我试图保存user_ids uuid[]上的数据时，会得到上面的错误。但是，在Cassandra上创建相同的表很好！user_ids list<text>。我无法更改源表的类型，因为我正在读取遗留系统中的数据。我一直在看日志上打印的点，在org.apache.spark.sql.execution.datasources.jdbc.J

浏览 1提问于2017-09-26得票数 0

1回答

火花误差-十进制精度39超过最大精度38

r、oracle、apache-spark

当我试图从收集数据时，我会得到一个错误声明 "java.lang.IllegalArgumentException:要求失败:十进制精度39超过最大精度38“。 Spark数据中的所有数据都来自Oracle数据库，在那里，我相信十进制精度小于38。有什么办法可以做到这一点，而不修改数据？ # Load required table into memory from Oracle database df <- loadDF(sqlContext, source = "jdbc", url = "jdbc:oracle:thin:usr/pass@ur

浏览 7提问于2017-05-23得票数 9

1回答

从Spark连接到sql数据库

apache-spark

我正在尝试从spark连接到SQL数据库，我使用了以下命令： scala> import org.apache.spark.sql.SQLContext import org.apache.spark.sql.SQLContext scala> val

浏览 1提问于2018-09-27得票数 1

回答已采纳

1回答

向mysql发送带有空错误的jdbc.write

python、apache-spark、jdbc、null

我在Dataframe中创建了一个列，该列被设置为null (通过None)，但是当发送到JDBC时，我得到了“无法获得用于null的JDBC类型”。任何帮助都将不胜感激。 update_func = (when(col("SN") != col("SNORIGINAL"), None)) aPACKAGEDF = aPACKAGEDF.withColumn('SNORIGINAL_TEMPCOL', update_func) 在org.apache.spark.sql.execution.datasources.jdbc.JdbcUtil

浏览 0提问于2018-07-05得票数 2

回答已采纳

1回答

火花MySql连接器缸

mysql、apache-spark、jdbc

我正在从spark应用程序连接到一个MySql DB (星火-2.0.0-bin-hadoop2.7)。当连接时，我得到以下错误。这是我的代码： def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark = Sp

浏览 1提问于2018-09-25得票数 0

1回答

包括aws jdbc驱动程序，同时运行spark应用程序

maven、apache-spark、amazon-redshift

我正在尝试在spark应用程序中从红移中提取数据。我包含了一些依赖项，并且我能够在本地计算机上做到这一点。但是当我尝试在Amazon EMR上运行应用程序时，我得到了以下错误。以下是我正在尝试执行的命令： spark-submit --class classname --packages com.databricks:spark-avro_2.11:3.0.0,com.databricks:spark-redshift_2.11:2.0.1,com.databricks:spark-csv_2.11:1.5.0,com.amazon.redshift:redshift-jdbc41:1.2.1

浏览 1提问于2017-02-13得票数 0

2回答

将具有字符串列的数据集写入teradata时获取SQLException

apache-spark、spark-dataframe、teradata

当我试图将数据集从spark写到teradata时，同时在数据集中有一些字符串数据时，我得到了下面的错误： 2018-01-02 15:49:05 [pool-2-thread-2] ERROR c.i.i.t.spark2.algo.JDBCTableWriter:115 - Error in JDBC operation: java.sql.SQLException: [Teradata Database] [TeraJDBC 15.00.00.20] [Error 3706] [SQLState 42000] Syntax error: Data Type "TEXT"

浏览 25提问于2018-01-02得票数 0

回答已采纳

1回答

从Spark连接到HANA

python、apache-spark、hana

我正在编写一个python应用程序从SAP HANA加载数据。 dfr = DataFrameReader(sqlContext) df = dfr.jdbc(url='jdbc:sap://ip_hana:30015/?user=<user>&password=<pwd>',table=table) df.show() 它抛出一个错误，说明： y4j.protocol.Py4JJavaError: An error occurred while calling o59.showString. : org.apache.spark.SparkEx

浏览 0提问于2016-02-24得票数 2

1回答

Pyspark天青

python、apache-spark、pyspark、azure-sql-database

我在mac os上使用pyspark并尝试从AzureSQL中读取，我得到了下面所说的错误。 Spark 2.4.6；Scala 2.11；java 1.8.0_251 pyspark --jars spark-mssql-connector_2.11_2.4-1.0.2.jar dbname = "db-test" servername = "jdbc:sqlserver://" + "samplesql.database.windows.net:1433" url = servername + ";" + "dat

浏览 14提问于2021-10-05得票数 0

回答已采纳

1回答

凤凰星火插件

apache-spark、hbase、apache-phoenix

插件更新是为了激发2.0吗？我不能用这个插件 val df = spark.read .format("org.apache.phoenix.spark") .option("table", "web_stat") .option("zkUrl", "localhost:2181") .option("driver","org.apache.phoenix.jdbc.PhoenixDriver")

浏览 2提问于2017-01-18得票数 1

1回答

在有多个分区时失败

jdbc、pyspark、teradata、azure-databricks

我正在尝试使用FASTLOAD将一个火花数据数据写入teradata中。如果我通过使用df_final = df_final.repartition(1)强迫dataframe只有一个分区，那么写操作就能工作。但是，如果有多个分区，则会失败。由于数据大小很大，如果将重新分区(1)应用于数据帧，则将在主节点上进行开销。我甚至尝试将分区与它不起作用的会话#相匹配。 df_final.write.option("truncate",truncate)\ .mode(mode).option("batchsize",100000)\ .jdbc(

浏览 5提问于2022-01-13得票数 0

1回答

java.sql.SQLException: Io异常:生成NL异常

scala、apache-spark、apache-spark-sql、spark-streaming、datastax

当我试图使用我的spark程序连接oracle db时，我使用的是星星之火-sql 2.4.1 星火计划 val o_url =//"jdbc:oracle:thin: etc ... it is correct and working val query ="( SELECT 1 FROM DUAL ) T"; val dfReader = spark.read.format("jdbc") .option("url", o_url) .option("driver", "or

浏览 2提问于2019-10-02得票数 0

1回答

尝试通过scala/spark应用程序连接到postgres数据库时的ClassNotFoundException

java、scala、jdbc、sbt、classnotfoundexception

我需要通过scala/spark应用程序连接到postgres数据库。当我在我的IDE中运行它时，它工作得很好，但是，当我尝试使用以下命令运行打包的可执行jar时，我得到了以下日志消息：使用以下命令触发可执行jar： java -cp HighestPerformingCampaign-assembly-1.0.jar com.scala.Executor 抛出异常： Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: jdbc. Please fin

浏览 31提问于2021-05-21得票数 0

1回答

java.sql.SQLException:其他错误:在使用mysql-连接器-java5.1.6连接器连接到数据库时，请求过时

mysql、apache-spark、jdbc、mysql-connector、tidb

在使用TIDB通过Spark连接到mysql-connector-java 5.1.6 connector时获取以下错误。请注意，我使用并行连接选项创建了jdbc连接，其中我们指定了列名、下限、上限和分区数。 Spark然后将其分解为(分区数目)查询，将列名的下限和上界划分为相同的大小。 java.sql.SQLException: other error: request outdated. at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1055) at com.mysql.jdbc.SQLError.createS

浏览 2提问于2018-10-05得票数 0

回答已采纳

2回答

如何在Bluemix中将SQL数据库加载到Apache的分析中？

scala、jdbc、apache-spark、ipython-notebook、ibm-cloud

我在我的应用程序中添加了SQL数据库和Spark，并成功地将数据导入数据库。现在，我正在尝试将这些数据加载到Spark中，以便使用JDBC进行处理。我已经通过Spark选项卡连接了数据库，并通过数据源将它作为源导入了Spark，.The数据库从"Connect应用程序“选项卡中给出了以下SSL字符串 jdbc:db2://75.126.155.153:50001/SQLDB:securityMechanism=9 或更多的我试着连接到Spark (用Scala编写) val sqlContext = new org.apache.spark.sql.SQLContext(s

浏览 5提问于2016-01-28得票数 0

1回答

如何将spark数据帧写入impala数据库

jdbc、apache-spark-sql、impala

我使用以下代码通过JDBC连接将spark数据帧写入impala。 df.write.mode("append").jdbc(url="jdbc:impala://10.61.1.101:21050/test;auth=noSasl",table="t_author_classic_copy", pro) 但我得到以下错误: java.sql.SQLException:找不到合适的驱动程序然后我改变模式： df.write.mode("overwrite").jdbc(url="jdbc:impala://10.61.1

浏览 1提问于2016-08-19得票数 0

1回答

与Spark / Scala的Netezza连接

scala、apache-spark、jdbc、netezza

我已经使用IntelliJ IDE上的Scala2.11.8在我的Windows机器上设置了Spark2.2.0。我正在尝试使用JDBC驱动程序使Spark连接到Netezza。我已经阅读了，并通过Maven将com.ibm.spark.netezzajars添加到我的项目中。我试图运行下面的Scala脚本来测试连接： package jdbc object SimpleScalaSpark { def main(args: Array[String]) { import org.apache.spark.sql.{SparkSession, SQLContext} im

浏览 4提问于2017-07-27得票数 0

回答已采纳

1回答

Spark 2.2 Scala中的TRUNCATE命令会删除SAP HANA表，而不是截断

scala、apache-spark、hana

我正在尝试截断SAP HANA中的一个表，并使用Spark Scala向其中插入数据。但是，当我运行该脚本时，我的SAP HANA表被删除(而不是被截断)，并且代码失败，并显示以下JDBC错误。按照规定，我使用.mode(SaveMode.Overwrite).option("truncate"，"true")来避免删除表，但它的功能并不像文档中提到的那样。有人能帮我写代码吗？代码： import spark.implicits._ import org.apache.spark.SparkContext; import org.apache.spark.

浏览 0提问于2019-09-18得票数 0

1回答

找不到SparkSQL键:缩放

apache-spark、apache-spark-sql、cloudera、cloudera-cdh

火花版本为1.6.0。我试图使用Spark对远程Oracle 11gDB执行一个简单的SQL查询。当然，ojdbc驱动程序被添加到类路径中，对DB的ping也是可以的。 SparkConf conf = new SparkConf().setAppName(APP_NAME).setMaster("yarn-client"); JavaSparkContext jsc = new JavaSparkContext(conf); SqlContext sqlContext = new SqlContext(jsc ); Map<String, String> c

浏览 4提问于2017-01-26得票数 3

回答已采纳

1回答

无法从azure databricks连接到sql server托管实例

scala、azure、jdbc、databricks、azure-databricks

我正在尝试从databricks连接到Azure Sql托管实例。我正在使用Scala连接到它。我从复制的代码我的实际scala代码：(我已经更改了凭据和IP。但是我已经确保它们是正确的，因为我已经从sql server托管实例选项中的连接字符串中复制了它们) Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver") val jdbcHostname = "dev-migdb.nf53e3653n43.database.windows.net" val jdbcPort = 1433 val j

浏览 0提问于2019-01-09得票数 1

回答已采纳

2回答

在写入Impala时自动创建Impala表的Dataframe

apache-spark、apache-spark-sql、impala

我想知道Spark Dataframe保存是否有任何功能，即当它将数据写入Impala表时，它也会创建该表，而该表之前不是在Impala中创建的。例如，代码： myDataframe.write.mode(SaveMode.Overwrite).jdbc(jdbcURL, "books", connectionProperties) 如果表不存在，则应该创建表。表模式应根据数据帧模式确定。我期待着您的建议/想法。致以敬意，弗洛林

浏览 0提问于2018-06-22得票数 0

1回答

将SQLserver jdbc驱动程序连接到Dataproc集群

pyspark、pyspark-sql、google-cloud-dataproc

我正在研究分析航空数据的PySpark应用程序。数据库是MS SQLServer DB。同时连接到服务器上的数据库。我得到一个错误“没有合适的驱动程序”。但是，当我使用CLI在本地机器上运行，并将JDBC驱动程序jar文件添加到driver-class-path中时，它会运行并连接到DB。但是当我尝试在Dataproc集群上运行时，它抛出了一个错误“没有合适的驱动程序”。代码片段如下： from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.dataframe import

浏览 0提问于2018-11-26得票数 1

1回答

如何将Spark与我的SQL数据库Scala连接

mysql、scala、apache-spark、apache-spark-sql

问题陈述：嗨，我是星火世界的新手。我想查询MySQL数据库，然后将一个表加载到Spark中。然后，我想使用SQL查询在表上应用一些过滤器。一旦过滤了结果，我想以JSON的形式返回结果。我们必须从一个独立的Scala应用程序中完成所有这些工作。我正在努力初始化星火上下文并得到一个错误。我知道我漏掉了一些信息。有人能看看密码然后告诉我该怎么做吗。代码： import application.ApplicationConstants import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{S

浏览 0提问于2019-08-19得票数 0

回答已采纳

1回答

Spark将不会加载大型MySql表: Java通信链路故障-超时

apache-spark、jdbc、pyspark、apache-spark-sql、databricks

我正在尝试从mysql中获取一个相当大的表，这样我就可以使用spark/databricks进行操作。我不能让它加载到spark中--我已经尝试了更小的子集，但即使在最小的合理单元，它仍然无法加载。我尝试过在mysql中使用wait_timeout和interactive_timeout，但似乎没有什么不同我还加载了一个较小的(不同的)表，并且加载得很好。 df_dataset = get_jdbc('raw_data_load', predicates=predicates).select('field1','field2', 'f

浏览 2提问于2018-01-08得票数 1

2回答

使用spark.read对Server表读取错误(通过JDBC连接)

sql-server、apache-spark、apache-zeppelin

当我试图创建直接从SQL表读取数据时，Zeppelin中出现了一个问题。问题是，我不知道如何读取带有地理类型的SQL列。这是我正在使用的代码，以及我获得的错误。创建JDBC连接 import org.apache.spark.sql.SaveMode import java.util.Properties val jdbcHostname = "XX.XX.XX.XX" val jdbcDatabase = "databasename" val jdbcUsername = "user" val jdbcPassword = "X

浏览 7提问于2019-10-23得票数 2

3回答

Spark/Scala将Oracle表加载到蜂巢

oracle、apache-spark、hive

我正在将少量的Oracle表加载到Hive中，它似乎工作正常，但有两个表出现了错误-- IllegalArgumentException: requirement failed: Decimal precision 136 exceeds max precision 38我检查了Oracle，源代码中没有十进制(136)精度的列。以下是spark-shell中的Spark/Scala代码 val df_oracle = spark.read.format("jdbc").option("url", "jdbc:oracle:thin:@hostname

浏览 3提问于2017-10-28得票数 4

回答已采纳

1回答

使用jdbc从Spark 2.3.1 Scala 2.11.8连接到Vertica

scala、apache-spark、jdbc、apache-spark-sql、vertica

我正在尝试使用JDBC使用Sparkv2.3.1Scala2.11.8连接到Vertica dB。在Vertica网站上：它说我可以在以下位置下载Spark：当我点击链接时，它会带我到登录页面，在我传递日志后，在顶部弹出一个黄色的框，并说我没有查看下载的权限。我尝试了另一种方式，这次是从Vertica的下载页面下载。在Linux包中有3个jar文件(vertica-javadoc、vertica-jdbc、vertica-jdbc-8.0.1-0)，但我找不到vertica-spark2.0(即: vertica-8.1.0_spark2.0_scala2.11.jar)。我下载了三个

浏览 1提问于2018-09-22得票数 0

回答已采纳

1回答

错误：[枢轴][格林梅-JDBC驱动程序][格林梅]准备好的语句"PS1“已经存在

azure、apache-spark、jdbc、apache-spark-sql、greenplum

我在Azure上有一个Greenplum集群，当使用简单的JDBC连接时，我可以从本地机器访问它的数据。现在，我尝试在Spark中使用相同的JDBC驱动程序，如下所示： val url = s"jdbc:pivotal:greenplum://$server:$port;DatabaseName=$database" Spark.sqlContext.read.format("jdbc") .options(Map( "url"->url, "user"-> user, "password"

浏览 0提问于2020-03-26得票数 0

回答已采纳

1回答

如何引用火花提交命令中的.so文件

apache-spark、spark-submit、timesten

我正在使用TimesTen数据库和Spark2.3.0 我需要参考火花提交命令中的.so文件，以便连接到Timesten db。在spark-submit中有相同的选项吗？我尝试在--conf spark.executor.extraLibraryPath中添加这样的文件，但是它仍然不能解决错误。我得到的错误是： Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 135 in stage 8.0 failed 4 times,

浏览 6提问于2018-09-27得票数 2

回答已采纳

3回答

将火种DataFrame持久化到Ignite

apache-spark、ignite

我想坚持星火达菲到伊格尼特。当我探索时，我偶然发现了火花，这有助于我做到这一点。但目前点火-火花工程仅与火花2.3，而不是火花2.4. 所以我回到了传统的方法 df.write.format("jdbc") 我的代码如下所示。 df.write .format("jdbc") .option("url", "jdbc:ignite:thin://127.0.0.1:10800") .option("dbtable", "sample_table") .opti

浏览 0提问于2019-08-07得票数 1

回答已采纳

1回答

与令牌有关的数据库和SQL server问题

sql-server、apache-spark、azure-sql-database、azure-databricks

我需要您的帮助，以创建一个从databricks到Azure中的sql server数据库的“永久”连接。我使用驱动程序"com.microsoft.sqlserver.jdbc.spark“和JAR spark_mssql_connector_2_12_3__1___alpha.jar连接数据库。我已经创建了一个通过令牌连接到DB的类。 class SQLSpark(): database_name: str = "" sql_service_name: str = "" service_principal_id: str

浏览 3提问于2022-01-13得票数 0

1回答

无法使用azure-activedirectory- library -for-java库在使用Java的Spark YARN集群中连接Azure SQL DB

java、apache-spark、azure-sql-database、azure-active-directory、adal

在我们的一个项目中，我们使用Azure SQL DB，身份验证模式是基于访问令牌的。我们使用Spark Java来连接。我们使用的是“azure-activedirectory- library -for-java”库我们收到的错误信息为:用户登录失败：‘’。ClientConnectionId：异常:信息客户端:客户端令牌: N/A诊断:用户类引发异常:用户'‘的com.microsoft.sqlserver.jdbc.SQLServerException:登录失败。ClientConnectionId:2b288e9e-15cc-448a-8210-0d184d27a12b A

浏览 1提问于2018-10-07得票数 0

1回答

dataframe.show()在Debian (Dataproc)中不工作

apache-spark、pyspark、google-cloud-dataproc、mssql-jdbc、google-conscrypt

目前使用的是GCP和Dataproc，我对apache、pyspark和debian都是新手。因此，我试图在dataproc集群(Debian )中复制一个在本地机器(W10，VS Code，Spark3.3.1)中完美运行的火花作业。通过JDBC驱动程序从Server摄取数据到Spark数据。当我在这个Debian中尝试时，SparkSession.read()正常工作，但dataframe.show()却不能工作。 Debian配置: Debian 10与Hadoop3.2和Spark3.1.3。 JDBC驱动程序:MSSQLJDBC-11.2.1.jre8.jar Java : op

浏览 11提问于2022-11-17得票数 1

回答已采纳

2回答

如何使用Spark写入PostgreSQL hstore

postgresql、jdbc、apache-spark、spark-dataframe、hstore

我正在尝试将星火数据集写入现有的postgresql表中(不能像列类型一样更改表元数据)。这个表中的一个列是类型的，它造成了麻烦。在启动写入时，我看到了以下异常(此处原始映射为空，转义时为空字符串)： Caused by: java.sql.BatchUpdateException: Batch entry 0 INSERT INTO part_d3da09549b713bbdcd95eb6095f929c8 (.., "my_hstore_column", ..) VALUES (..,'',..) was aborted. Call getNextExc

浏览 4提问于2016-12-05得票数 7

回答已采纳

1回答

用SparkSQL和HiveContext读取Parquet文件时出错

apache-spark-sql、parquet

我正试着从蜂巢中读取一张表(嗯，它是Impala)，存储在地板格式中。我使用Spark1.3.0和HiveContext。表的架构是： (a,DoubleType) (b,DoubleType) (c,IntegerType) (d,StringType) (e,DecimalType(18,0)) 我的代码是： val sc = new SparkContext(conf) val hc = new HiveContext(sc) import hc.implicits._ import hc.sql val df: DataFrame = hc.table(mytable) 跟踪日志错误

浏览 2提问于2016-03-31得票数 0

3回答

由Spark读取表头引起的java.lang.NumberFormatException

scala、apache-spark、jdbc、hive、orc

我试图使用Spark的JDBC访问存储在远程集群上的表(ORC格式)： val jdbcDF = spark.read .format("jdbc") .option("url", url) .option("dbtable", "metrics") .option("user", user) .option("password", password) .load() 然而，不管我做什么，我总是会犯这样的错误：由: org.

浏览 5提问于2017-05-03得票数 3