PySpark过滤数据帧并将数据帧写入mysql数据库_Pyspark动态过滤数据帧_pySpark数据帧过滤方法 - 腾讯云开发者社区

dataframe、apache-spark、pyspark、apache-spark-sql、export

我正在尝试写数据帧到MySql DB和使用Apache Spark 2.3.1。它有20K到30K的行从mySql读取，并使用20个分区进行分区。我首先过滤数据帧，并尝试将过滤后的结果集写入mysql DB。但是写操作变得太慢。在没有过滤的情况下，df写操作正在按照预期的速度和性能执行。有人能帮上忙吗？

浏览 24提问于2021-10-15得票数 0

1回答

Pyspark -希望将SQL查询应用于pyspark数据帧

pyspark、amazon-emr

免责声明:我对pyspark非常陌生，这个问题可能不合适。where age = 22 in SQL spark.sql("select id, age from swimmers where age = 22").show() 现在，我用以下代码尝试使用pyspark这可以在pyspark中实现吗？注意:我在使用Pyspark笔记本的EMR集群上。

浏览 30提问于2020-06-17得票数 1

2回答

如何检查来自不同数据帧的列值？

python、apache-spark、pyspark、apache-spark-sql

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

pyspark、apache-spark-sql、spark-streaming、pyspark-sql

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

pySpark jdbc写入错误:调用o43.jdbc时出错。：scala.MatchError:空

pyspark、db2、spark-dataframe、spark-jdbc

我正在尝试使用pySpark将简单的spark数据帧写入db2数据库。Dataframe只有一个数据类型为double的列。这是只有一行和一列的数据帧：这是数据帧架构：当我尝试使用以下语法将此数据帧写入db2表时： dataframe.write.mode('overwrite').jdbc(url=url,table=sour

浏览 0提问于2018-03-21得票数 1

1回答

Cassandra过滤pyspark数据帧的时间戳格式正确

python、apache-spark、pyspark、cassandra、spark-cassandra-connector

我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ，并且我能够在cql shell中过滤数据以获得特定的时间范围，但是当我在pyspark数据帧上尝试同样的操作时，我在过滤后的数据帧中没有得到任何值有谁能帮我在pyspark中找到合适的datetime格式吗？谢谢。

浏览 6提问于2020-03-05得票数 1

1回答

如何使用Pyspark从xml文件创建子数据帧？

pyspark

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em

浏览 11提问于2019-03-15得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

Pyspark使用窗口函数和我自己的函数

python、pandas、pyspark、window

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

如何使用PySpark从熊猫数据框架写入Spark表？

python、dataframe、apache-spark-sql、pyspark

pandas.DataFrame.to_sql()方法将允许您将数据帧的结果写入数据库。这在标准RDBMS的上下文中工作得很好。如何在Spark中使用PySpark呢？

浏览 2提问于2015-03-25得票数 0

回答已采纳

1回答

Spark在数据库上运行过滤器，而不是在spark数据帧上运行

apache-spark、pyspark、apache-spark-sql

我正在使用PySpark从mongo获取数据帧并进行一些过滤。当我在大约5000条记录上运行时，一切都很好，但当我在大约17万条记录上运行同样的东西时，它不是在数据帧上过滤记录，而是在mongodb上运行过滤，这使得它太慢了。create_date") >= lit(start_date)) & (col("create_date") <= lit

浏览 11提问于2020-03-01得票数 0

1回答

使用PySpark从Blob存储容器加载CSV文件

csv、apache-spark、pyspark、azure-blob-storage

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案：reading a csv file from azure blob s

浏览 21提问于2019-04-28得票数 0

3回答

在写入dataframe - pyspark之前从表中删除记录

sql-server、pyspark、apache-spark-sql、pyspark-dataframes、aws-glue-spark

在从dataframe向表中写入数据之前，我正在尝试从表中删除记录。这对我不起作用。我做错了什么？

浏览 172提问于2020-10-14得票数 1

回答已采纳

1回答

将pyspark数据帧写入MySQL数据库时出错

python、apache-spark、pyspark、pyspark-sql、amazon-emr

我收到以下错误：spark-submit命令： spark-submit --deploy-mode client --master yarn --conf spark.p

浏览 1提问于2018-10-15得票数 0

1回答

Pyspark 'for‘循环没有使用.filter()正确过滤pyspark-sql数据帧。

python、apache-spark、for-loop、pyspark、apache-spark-sql

我正在尝试创建一个for循环，首先:过滤一个pyspark sql数据帧，然后将过滤后的数据帧转换为pandas，对其应用一个函数，并将结果添加到一个名为results的列表中。我的列表包含一个字符串序列(这将是dataframe中的某种id )；我希望for循环在每次迭代中从列表中获取一个字符串，并过滤dataframe中id为该字符串的所有行。aux = df.filter("id='x'"

浏览 21提问于2020-12-16得票数 1

回答已采纳

1回答

从PySpark运行大量配置单元查询

apache-spark、hive、pyspark、livy

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_high

浏览 5提问于2018-07-23得票数 0

1回答

将pandas数据帧转换为PySpark数据帧

python-3.x、pandas、pyspark、apache-spark-sql、pyspark-sql

我正在使用：从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。from pyspark.sql import SparkSessionfrom py

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

Spark SQL更新/删除

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据</e

浏览 0提问于2018-10-03得票数 6

1回答

用总行和列计数PySpark数据帧中的空值

python、dataframe、apache-spark、pyspark

我正在尝试使用PySpark编写一个查询来计算大型数据帧中的所有null值。在读取数据集后，我执行以下操作： import pyspark.sql.functions as F total_columns = len(df.columns)

浏览 17提问于2020-03-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云