使用带有jdbc写入的PySpark数据帧在PostgreSQL上写入enun时出现问题

文章/答案/技术大牛

发布

1回答

、、

因此，我使用PySpark (Spark 3.0.1，Scala2.12)将数据从MySQL (5.7)数据库移动到PostgreSQL (12.7)数据库。destiny模型中的表有一列是Enum。REFUNDED','PARTIALLY_REFUNDED','PROCESSING'); 插入时： df_orders.select(df_orders.columns).write.format('jd

浏览 25提问于2021-07-06得票数 0

回答已采纳

1回答

使用JDBC从Dataframe源复制到SQL Server目标

、、、、

我在Databricks的Python环境中工作。我想应该有几种方法可以将数据帧复制到SQL Server中的表中。下面是我正在测试的两个代码示例。# Saving data to a JDBC source .format("jdbc") \ .option("url", "jdbc:postgresql("<

浏览 24提问于2019-11-27得票数 0

回答已采纳

1回答

即使配置了电子病历也找不到Spark org.postgresql.Driver

、、、

我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库：url = "jdbc:postgresql://host/database" properties= {"user": "user","password": "password","

浏览 8提问于2019-11-07得票数 0

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我可以看到，在读取数据()时可以调用Postgres方法，但我不确定如何调用Postgres函数(如nextval() )将<e

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

pyspark dataframe.write()中的批处理大小选项不起作用

、、

我正在尝试将数据从pyspark写入postgresql DB。我使用了batchsize 1000，pyspark dataframe中的总数据是10000。但是在postgresql中进行的插入并不是批处理的。它是一个接一个地插入数据。下面的代码用于写入DB df.write.option('batchsize&#x

浏览 4提问于2019-11-11得票数 0

1回答

pySpark jdbc写入错误:调用o43.jdbc时出错。：scala.MatchError:空

、、、

我正在尝试使用pySpark将简单的spark数据帧写入db2数据库。Dataframe只有一个数据类型为double的列。这是只有一行和一列的数据帧：这是数据帧架构：当我尝试使用以下语法将此数据帧写入db2表时： dataframe.wri

浏览 0提问于2018-03-21得票数 1

2回答

对postgres的Spark写入较慢

、、

我正在写入数据(大约。83M条记录)从一个数据帧到postgresql，速度有点慢。完成对db的写入需要2.7小时。prop.setProperty("password", DB

浏览 1提问于2016-09-09得票数 6

回答已采纳

1回答

JDBC与非Unicode数据库，如何指定处理不受支持的字符？

、

我有一个用于Unicode的Java应用程序和一个8位非Unicode代码页(例如，DB2 )中的数据库(Oracle、MSSQL、DB2、MySQL)。将数据库迁移到Unicode不是一个选项。当应用程序传递不能在数据库编码中编码的unicode字符时，是否有任何方法来指定JDBC驱动程序的行为(替换/错误/警告)？

浏览 4提问于2017-02-06得票数 0

回答已采纳

2回答

使用PySpark* JDBC将数据帧写入Azure SQL数据库时性能较低*

、、、

我在PySpark中使用下面的JDBC URL将data frame写成Azure SQL Database。但是，我觉得这个写操作的性能并没有达到标准，可以通过设置一些额外的属性来提高。有什么变通方法或参数可以让我提高JDBC的写入性能吗？=false" .mod

浏览 2提问于2020-01-13得票数 0

1回答

jdbc.SQLServerException:将数据导出到Azure SQL Server时找不到数据类型“”TEXT“”

、、、、

我已经在Azue HDInsight上的scala spark 2.1中创建了一个数据帧。我正在尝试使用PostgreSQL包将数据帧写入SQL数据仓库。我尝试了以下命令来编写： df1.write.format("jdbc").option("url", "jdbc:sqlserver://#

浏览 1提问于2017-05-26得票数 1

2回答

Py4JJavaError java.lang.NullPointerException org.apache.spark.sql.DataFrameWriter.jdbc

、、、、

当我试图将spark数据帧写入postgres DB时，我得到了这个错误。我使用的是本地集群，代码如下：from pyspark import SQLContext, SparkConf import osos.environ["SPARK_CLASSPATH"] = '/usr/share/java/pos

浏览 6提问于2016-08-09得票数 5

3回答

如何使用JDBC源在(Py)星火库中读写数据？

、、、、

这个问题的目的是记录：这些方法只要做一些小的改动，就可以与其他受支持的语言一起工作，包括Scala

浏览 0提问于2015-06-22得票数 81

回答已采纳

2回答

pyspark.sql.utils.AnalysisException:表未找到: test_result；

、、、、

我正在尝试从S3桶中读取文件，并使用pyspark将数据写入postgresql表，但遇到了以下错误from pyspark.sql import SparkSession df.write.format("jdbc

浏览 17提问于2022-03-29得票数 0

回答已采纳

1回答

创建并写入数据库JDBC PySpark

、、

我有一个数据帧，我想要写到数据库表中，但是使用以下命令： .write.format("jdbc") \.option("url", "jdbc:postgresql://ec2xxxxamazonaws.com:xxxx/xxxx"

浏览 1提问于2020-10-10得票数 1

2回答

AWS胶水IllegalArgumentException：‘无效的类型名称uuid’

、

我正在尝试将一个在一列中包含UUID的表ETL到postgres表中，但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下代码行： applymapping1 = ApplyMapping.apply(frame = foo, mappings = [("id", "string", "id", "uuid")],transformation_ctx = "applymapping1") 当我运行glue作业<e

浏览 57提问于2019-10-04得票数 0

回答已采纳

2回答

使用Python从Server查询和插入记录

、、、、

作为这个项目的一部分，我正在重新创建一些包，但是我在数据库访问方面遇到了问题。我设法像这样查询数据库：.format("jdbc") .format("jdbc") \

浏览 9提问于2022-11-15得票数 0

回答已采纳

1回答

如何在不丢失模式的情况下用PySpark的JDBC覆盖数据？

、、

我有一个愿意写入PostgreSQL数据库的DataFrame。如果我简单地使用“覆盖”模式，比如：将重新创建该表，并保存数据。因此，我想要么只覆盖数据，保留表模式，要么在之后添加主键约束和索引。其中任何一个

浏览 3提问于2018-04-04得票数 7

1回答

while作业在向java.lang.OutOfMemoryError写入时抛出s3

、、

我有一个胶水作业，从RDS中读取，并以带分区的拼花格式将其写入s3。数据的大小与150 GB有关。import SparkContext from pyspark.sql.functions import col, udf

浏览 3提问于2022-04-06得票数 0

1回答

PySpark -在写入PostgrSQL DB后获取插入的行id

、、、、

我正在使用PySpark通过下面的JDBC命令向PostgreSQL数据库写入一个DataFrame。如何获取插入的行id？它被设置为具有自动增量的标识列。我使用的是下面的命令，而不是单独插入每一行的for循环。df.write.jdbc(url=url, table="table1", mode=mode, properties=properties) 我知道

浏览 2提问于2019-09-18得票数 2

1回答

火花错误:在数据库“默认”中找不到表或视图“用户”；

、、

我试图通过JDBC使用spark发送SQL查询，使用： SparkSession.builder() .config("url", "jdbc:oracle:thin:@host/service")

浏览 1提问于2019-10-15得票数 0

回答已采纳

点击加载更多