spark jdbc -到源的多个连接？_关闭Spark中的MYSQL JDBC连接_如何使用JDBC连接(Py)Spark到Postgres数据库 - 腾讯云开发者社区

dataframe、apache-spark、hadoop、spark-jdbc

有人提到，当我们使用spark.read JDBC时，它会生成一个数据帧，然后如果我们在该数据帧上执行两次df.write。**它是否创建了两个到源的连接？**我需要一些帮助来了解spark的内部工作原理。假设我创建了一个函数来返回一个df read_df(): df = spark.read.format("jdbc").option("header", "true

浏览 13提问于2020-10-01得票数 0

1回答

JDBC接收器连接器抛出java.sql.BatchUpdateException

apache-kafka、teradata、apache-kafka-connect

几周前，我创建了一个Sink JDBC。at com.teradata.jdbc.jdbc_4.util.ErrorFactory.makeBatchUpdateException(ErrorFactory.java:149)at com.teradata.jdbc.jdbc_4.util.ErrorFactory.makeBatchUpdateException(ErrorFactory.java:138)at com.teradata.jdbc.jdbc_4.TDP

浏览 2提问于2019-06-27得票数 0

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

apache-spark、apache-spark-sql、spark-jdbc

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

1回答

Apache Spark:如何从数据库中仅提取公共记录到集群

mysql、apache-spark、apache-spark-sql

假设我的集群上有"100k条记录“，数据库中有”1亿条记录“(例如:MySql)。如何才能仅将这两个数据集之间的公共记录放入"dataFrame“或"RDD”中，而不将全部1亿条记录物理地移动到集群中？"mapPartitions“在这里有什么作用吗？

浏览 1提问于2019-12-25得票数 0

1回答

星星之火sql -将mssql dataframe与来自不同来源的dataframe连接起来。

sql-server、scala、apache-spark、apache-spark-sql

所以我从两个不同的来源创建了两个数据格式。一个源是mssql，另一个可以是任何类似纯文本的源。然后，我想要做的是加入一个varchar列上的2个dataframes，如果我要在SQL server中这样做，将会非常昂贵。我的问题是，这个操作是在spark中更有表现力，还是仍然需要在varchar列上执行SQL中的联接/查询？sqlContext.read.format("jdbc

浏览 0提问于2018-02-27得票数 0

回答已采纳

2回答

如何读取数据库格式文件？

python、apache-spark、pyspark

df_chinook = spark.read.format('jdbc').load("/content/datasets/chinook.db") 下面是我的代码，我试图将db基加载到pyspark中，但是有(类似于这个IllegalArgumentException: requirement :选项'url‘是必需的错误)。

浏览 1提问于2022-01-16得票数 0

2回答

数据源io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。

scala、apache-kafka、spark-streaming、greenplum

我试图读取卡夫卡的数据，并将其上传到格林梅利的数据库使用火花。我使用的是格林梅-火花连接器，但我正在获取数据源，io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体数据？我曾尝试将数据源命名为“绿梅”，并将"io.pivotal.greenplum.spark.GreenplumRelationProvider“转换为.format(”

浏览 0提问于2019-04-04得票数 0

回答已采纳

1回答

如何使用jdbc数据源控制员工事务？

apache-spark、jdbc、apache-spark-sql

我认为spark应用程序分布在许多JVM上，如何控制每个工作事务的同步？// DELETE: BEGINconn = DriverManager.getConnection(DB_URL,conn.prepareStatement(query);preparedStmt.execute(); val jdbcDF

浏览 3提问于2017-04-18得票数 0

回答已采纳

2回答

为什么在spark.jdbc中需要dbtable / query

apache-spark、jdbc、pyspark

我是一个SPARK新手，我不清楚为什么dbtable或query需要作为JDBC选项的一部分。其他驱动程序执行类似的验证(例如，用于Presto的CData驱动程序)jdbcOptions.option("url"

浏览 4提问于2021-05-15得票数 0

2回答

在jdbc数据源上激发SQL持久视图

apache-spark、pyspark、jdbc、apache-spark-sql、view

我想在spark中创建一个持久化(全局)视图，从底层jdbc数据库连接中获取数据。当我使用临时(会话范围)视图时，它工作得很好，如下所示，但是当我试图创建一个常规(持久和全局)视图时，它会失败。我不明白为什么后者不能工作，但是找不到任何文档/提示，因为所有的示例都是用临时视图完成的。从技术上讲，我不明白为什么它不应该工作，因为数据是在临时视图中正确地从jdbc源检索的，因此，如果我想将查询“存储”在一个持久视图中，那么无论何时调用视图，它都可以直接从j

浏览 14提问于2022-10-27得票数 0

回答已采纳

1回答

Spark中的惰性评估。Spark如何从DB加载数据

apache-spark-sql

假设我们设置了100的限制，并且Spark应用程序连接到数据库与百万records.Does Spark加载所有百万记录或加载100 x 100？

浏览 0提问于2017-07-05得票数 2

1回答

dataframe、hive、apache-spark-sql、cloud、sql-data-warehouse

目前，我们的数据库托管在其他数据库中。我们正在考虑使用JDBC连接器在SPARK中执行流程。是否可以在连接数据源之后使用SPARK.SQL语句，还是必须加载数据才能使用spark.sql查询？

浏览 3提问于2022-08-11得票数 -1

1回答

如何用Pyspark从VerticaDB获取数据

database、apache-spark、pyspark、etl、vertica

：com.vertica.spark.datasource.VerticaSource.：java.lang.ClassNotFoundException:未能找到数据源：from pyspark import SparkContext, SparkConffrom pyspark import sql spark= spar

浏览 7提问于2022-10-13得票数 0

1回答

如何使用Spark与teradata进行并行连接

pyspark、apache-spark-sql、teradata、pyspark-sql

我正在尝试使用Spark连接将火花DataFrame插入到Teradata。代码： "TMODE","TERA",}但是，当我执行作业时，它只运行一个执行器和一个到ter

浏览 1提问于2018-09-16得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云