Pyspark从PostgreSQL中删除行

文章/答案/技术大牛

发布

2回答

postgresql、pyspark、psycopg2、sql-delete

PySpark如何通过执行诸如DELETE FROM my_table WHERE day = 3之类的查询来删除PostgreSQL中的行？ SparkSQL只提供插入/覆盖记录的接口。

浏览 10提问于2020-01-27得票数 3

回答已采纳

1回答

如何使用postgreSQL表插入csv文件内容？

postgresql、csv、apache-spark、pyspark

我希望将数据从csv文件插入到postgreSQL表中。我编写了从csv文件中获取数据的代码，如下所示我得到了'myData‘变量中的文件内容，我编写了如下数据库连接。DataFrame[id: int, firstname: s

浏览 0提问于2018-09-19得票数 1

回答已采纳

1回答

PySpark sqlContext阅读postgres9.6 NullPointerException

postgresql、apache-spark、pyspark、pyspark-sql

尝试使用PySpark从Postgres DB读取表。我设置了以下代码，并验证了SparkContext是否存在： os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /tmp/jars/postgresql-42.0.0.jar --jars /tmp/jars/postgresql-42.0.0.jar pyspark</

浏览 6提问于2017-03-09得票数 3

回答已采纳

12回答

使用火花放电连接到PostgreSQL

postgresql、apache-spark、pyspark

我正在尝试用pyspark连接到数据库，并使用以下代码：df = sqlctx.load( user = "ScottyPippen", driver = "org.postgresql.Driver编辑：我正试图在我的

浏览 6提问于2016-01-22得票数 27

3回答

ipython笔记本中Postgres数据库的Pyspark连接

postgresql、pyspark、apache-spark-sql、pyspark-sql

我能够在一个ipython笔记本上启动pyspark，SparkContext作为'sc‘加载。在我的.bash_profile中，我有以下几个用于查找Postgres驱动程序的内容：下面是我在ipython笔记本中所做的连接到db的工作(基于 post)：sqlContext = SQLContext

浏览 8提问于2017-10-24得票数 4

回答已采纳

1回答

从databricks中删除postgres的记录。(火花放电)

postgresql、pyspark、databricks

因此，我使用pyspark从databricks连接到postgres数据库，我可以阅读，我可以创建表，也可以更新它。但我无法删除一份记录。password", password)\.load() 此代码段将导致语法错误org.postgresql.util.PSQLException如何删除postgres中的记录

浏览 2提问于2022-06-07得票数 1

2回答

如何在使用PySpark时将jdbc驱动程序添加到类路径中？

pyspark、apache-spark-sql

我正在运行停靠程序映像，并试图直接从sql数据库中提取一些数据到spark中。从我所能告诉我的情况来看，我需要将驱动程序包括在我的Classpath中，我只是不知道如何从pyspark中实现这一点sparkexample") \ .format("jdbc"

浏览 3提问于2017-10-25得票数 9

回答已采纳

1回答

pyspark dataframe.write()中的批处理大小选项不起作用

postgresql、pyspark、batchsize

我正在尝试将数据从pyspark写入postgresql DB。我使用了batchsize 1000，pyspark dataframe中的总数据是10000。但是在postgresql中进行的插入并不是批处理的。它是一个接一个地插入数据。下面的代码用于写入DB df.write.此选项对POSTGRESQL Db有效吗？

浏览 4提问于2019-11-11得票数 0

3回答

Pyspark可空uuid类型uuid但表达式的类型是变化的

python、postgresql、apache-spark、pyspark

给出一个具有非空uuid列和可空uuid列的表设计，如何使用Python3.7.9与Pysmack2.4.3数据table和PostgreSQL42.2.18.jar驱动程序进行插入？table_df = spark.read.format('jdbc) \ .option('driver', 'org.postgresql.Driver')在pyspark.sql.types中没有uuid类型的条目。如果没有option(

浏览 9提问于2020-11-03得票数 4

1回答

Pyspark:从表中读取数据并写入文件

python、apache-spark、pyspark、azure-hdinsight

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。这里我漏掉了什么？from pyspark.sql.types import *from pyspark import S

浏览 40提问于2020-04-24得票数 0

回答已采纳

2回答

如何在Jupyter notebook中设置MySQL的JDBC驱动程序？

apache-spark、jdbc、pyspark、apache-spark-sql、jupyter-notebook

我正在尝试将一堆CSV文件逐行加载到mysql实例中，该实例使用pyspark配置在OpenShift上运行。我有一台运行着spark的Jupyter笔记本。Py4JJavaError: An error occurred while calling o89.save. if __name__ == '__main__&#x

浏览 7提问于2020-09-01得票数 0

1回答

在Dataframe中，如何根据条件从行中删除列？

aws-glue、pyspark-dataframes

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

1回答

如何合并clickhouse和postgresql查询？

apache-zeppelin

我正在使用Apache zeppelin，我可以分别从postgres和clickhouse获得结果。但是我需要合并这两个查询。

浏览 31提问于2019-01-29得票数 1

6回答

PySpark下降行

python、apache-spark、pyspark

如何在PySpark中从RDD中删除行？特别是第一行，因为这往往在我的数据集中包含列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然，我可以通过Bash / HDFS来完成这个任务，但我只想知道这是否可以在PySpark内部完成。

浏览 5提问于2014-07-13得票数 28

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

sql、postgresql、apache-spark、jdbc、pyspark

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。id使用nextval('my_sequence')从序列中获取其值。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。下面是我目前如何编写从Pyspark到

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

ImportError:无法导入名称'st_makePoint‘

postgresql、pyspark、geospatial

我正在尝试使用pyspark在postgresql数据库中输入一些数据。postresql表中有一个字段，定义为数据类型地理(Point)。我编写了下面的pyspark代码来创建这个使用经度和纬度的字段。from pyspark.sql.functions import st_makePointdf = df.withColumn("Location", st_makePoi

浏览 0提问于2020-08-02得票数 0

回答已采纳

1回答

从Azure Synapse笔记本中访问PostgreSQL

postgresql、azure、azure-synapse

PostgreSQL安装在Azure中，我希望使用Synapse记事本从PostgreSQL创建表、加载/读取数据。我该怎么做呢？尝试使用连接字符串，还有其他方法吗？

浏览 7提问于2022-03-09得票数 0

1回答

在jupyter中运行spark.sql查询

apache-spark、jdbc、pyspark、jupyter

我是从jupyter笔记本我正在朱庇特上运行这个：jardrv = '/home/statspy/postgresql-42.2.23.jar' from <

浏览 3提问于2021-09-16得票数 0

回答已采纳

1回答

如何在jupyter笔记本中使用pyspark时指定驱动程序类路径？

python、apache-spark、pyspark、jupyter-notebook

我想在jupyter笔记本中查询一个PostgreSQL。我在StackOverflow上浏览了很多问题，但这些问题对我都没有用，主要是因为答案似乎过时了。我在下面的链接中总结了我发现的主要提示，但不幸的是，我无法让它们在我的笔记本上工作：注意:我使用的是Spark2.3.1和Python3.6.3，如果我指定jar位置，我就可以从吡火花外壳连接到数据库pyspark --driver-class-path /home/.../postgresql.ja

浏览 0提问于2018-08-09得票数 9

回答已采纳

1回答

Pyspark dataframe:用给定模式编写jdbc来动态创建表

python、pandas、postgresql、pyspark

是否有一种方法可以像我们使用熊猫的方法那样，动态地从pyspark创建具有给定模式的表。在上面的代码中</em

浏览 4提问于2020-06-22得票数 1

回答已采纳

点击加载更多