如何使用类型提示优化PySpark toPandas()

我以前没有在PySpark中看到过这个警告： The conversion of DecimalType columns is inefficient and may take a long time这是传递给toPandas()的参数，还是需要以特定方式键入数据帧？我的代码是与熊猫的一个简单的pyspark对话： df = data.toPandas()

浏览 57提问于2020-10-16得票数 2

1回答

在Python类型提示( PySpark )中区分DataFrames和Pandas DataFrames (PyCharm)

、、、

在PyCharm中，如果使用pyspark.sql.DataFrame代替pandas.DataFrame，类型提示似乎不会触发警告，反之亦然。例如，以下代码根本不会生成任何警告：from pandas import DataFrame asSparkDataFrame: def test_spark_to_pandas(b: SparkDataFrame) -> P

浏览 0提问于2019-07-17得票数 14

2回答

如何修复"ImportError: Pandas >= 0.19.2必须安装；但是没有找到“？

、、、

我用的是Spark 2.3.1，我想用toPandas() (使用unique())。当我在pyspark中执行以下代码时 df.toPandas()['column_01'].unique() 我面临以下异常： >>> df.toPandas() File "<stdin>", line 1, in <module> File "

浏览 142提问于2018-12-17得票数 3

1回答

是否有可能将.agg(字典)与.alias()重命名为结果列？

、

我有一个'pyspark_df‘，我想对数据进行分组，并将数据聚合成一个通用函数字符串名，如下所示:'avg’、'count‘、'max’、'mean‘、'min’或'sum‘。无论聚合类型如何，我都需要得到聚合的名称。我做到了以下几点。dateVar,seriesname).agg({aggSeriesName: aggType}).withColumnRenamed(name_to_be_Changed,'aggregated').toPa

浏览 3提问于2019-11-13得票数 0

回答已采纳

1回答

使用toPandas或Pyarrow函数转换为熊猫时未返回所有行的

、、、、

在试图使用箭头函数将转换成大熊猫数据时，只有一半行正在被转换。Pyspark包含170,000行。> spark.conf.set("spark.sql.execution.arrow.enabled", "true")>> conda install -c conda-forge pyarrow &g

浏览 2提问于2019-06-18得票数 1

1回答

如何推断大熊猫的数据类型

、、、

我有一个数据文件，我在使用pyspark时看到了它：不幸的是，pyspark将所有类型保留为Object我需要将它与我在df2 = pd.read_csv("file.csv")中读到的另一个数据格式合并，所以我需要精确地推断df1中的类型，就像熊猫所做的那样。你如何推断出现有熊猫的数

浏览 0提问于2017-09-18得票数 3

1回答

对pandas问题的Spark sql查询

、、、、

我正在使用pySpark查询表中的一些数据。query = """secret sql query""".format(ids) DF_sql = spark.sql(query) 该查询没有提示任何错误，但随后我尝试将其转换为pandas数据帧 DF_pd = DF_sql.toPandas() 但是我一直收到这个错误： UserWarning: toPandas attempted Arrow optimization be

浏览 51提问于2020-07-08得票数 1

回答已采纳

1回答

在pyspark中创建具有特定数据类型的dataframe时遇到问题

、

SampleCSV2.csv的数据如下：BBB|28|Comp|100.5from pysparkx.split(delim))df1 = sqlContext.createDataFrame(rdd, schema=cols)cols = structSchema(cols) df2 = sqlC

浏览 6提问于2017-09-04得票数 1

回答已采纳

2回答

.toPandas()在对象列中产生预期数值列

、、、

(12,2) (nullable = true)步骤5:将星火数据转换为熊猫数据，并将任何Nulls替换为0(使用填充by (0))步骤6:查看相关专栏的熊猫数据格式信息。AMD是正确的(整数)，但是AMD_4是一个类型的对象，在那里我期望双或浮动或类似的东西(抱歉总是忘记正确的类型)。由于AMD_4是一个非数字类型，所以我不能使用它来绘制.

浏览 4提问于2015-11-02得票数 9

1回答

使用Apache将PySpark* DataFrame转换为Pandas*

、、、

我想把PySpark dataframe (pyspark.sql.DataFrame)转换成Pandas数据格式。幸运的是，正如2017年7月26日的所示，多亏了作者、和，由于Apache Arrow在Spark 2.3中的实现，toPandas()的功能得到了显著改善。尽管如此，我无法访问Spark2.3(我正在使用Spark2.1)。因此，我的问题是如何使用Apache Arrow功能来将pyspark数据快速转换为Pandas，以适应于2.1以上的Spark。

浏览 2提问于2017-09-07得票数 3

2回答

派斯派克的"DataFrameLike“型对pandas.DataFrame型

、、、、

Spark3.1为python引入了类型提示(万岁！)但是我不明白为什么toPandas方法的返回类型是"DataFrameLike“而不是pandas.DataFrame -参见：df = spark_df.toPandas()结果会出现错误消息。

浏览 5提问于2021-09-14得票数 8

1回答

createOrReplaceTempView和pyspark的区别是什么？

、、

我想知道pyspark和createOrReplaceTempView之间的区别我知道，对于pyspark，我必须使用python，而对于createOrReplaceTempView，它是SQL，但是在内存方面，使用集群，并行化，两者是一样的吗？例如，如果我使用.toPandas()，我将把所有的数据放在内存中，createOrReplaceTempView会发生类似的情况吗？还是还在分发？另外，我还想知道，如果我使用CREATE OR REPLACE TEMP V

浏览 2提问于2021-05-05得票数 0

3回答

如何在ipython中将Spark RDD转换为pandas数据帧？

、、、、

我有一个RDD，我想把它转换成pandas dataframe。我知道要将RDD转换为普通的dataframe，我们可以这样做但我想将RDD转换为pandas dataframe，而不是普通的dataframe。我该怎么做呢？

浏览 1提问于2016-01-16得票数 35

1回答

Spark程序需要很长时间才能完成执行

、

但是我猜我没有为我的程序使用正确的功能来让Spark以这种方式工作。下面是我的程序的样子：from pyspark import SQLContextdf2.toPandas().to_csv("C:\\Sample logs\\sqlcsv2.csv")

浏览 0提问于2016-11-09得票数 7

回答已采纳

2回答

如何通过Conda Python在本地机器上安装和使用mmlspark？

、、、

如何在装有英特尔Python 3.6的本地计算机上安装与使用MMLSpark？import numpy as npimport pyspark .getOrCreate() from mmlspark import TrainClassifier from pyspark</e

浏览 214提问于2018-07-11得票数 -2

回答已采纳

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧-frompyspark.sql.types import StringType |-- input1: long (nullable = true) |-- input2:

浏览 3提问于2020-09-09得票数 0

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>.import pandas as pdim

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

火花数据/RDD相当于熊猫的指令给出的描述？

、、、、

如何执行与这个熊猫命令相同的功能，通过Pyspark或RDD？df.drop(df.std()[(df.std() == 0)].index, axis=1)Note：文件太大，不能使用df.toPandas()。

浏览 4提问于2016-09-23得票数 0

回答已采纳

2回答

PySpark SQL中的用户定义聚合函数

、、、、

如何在PySpark SQL中实现用户定义的聚合函数？pyspark version = 3.0.2作为一个最小的例子，我想用一个UDAF替换AVG聚合函数：sql: [1, 2, 3, 4]}))rv = sql.sql('SELECT id, AVG(value) FROM df GROUP BY id').toPandas() rv将位于

浏览 24提问于2021-03-09得票数 4

回答已采纳

2回答

Pandas支持Pandas pct_change功能吗？

、、、、

但是，当我尝试data_pd.pct_change() ，有AttributeError: 'function' object has no attribute如果不是，pct_change函数在熊猫API中使用的正确方法是什么？谢谢

浏览 15提问于2022-07-21得票数 -1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Python类型提示( PySpark )中区分DataFrames和Pandas DataFrames (PyCharm)

如何修复"ImportError: Pandas >= 0.19.2必须安装；但是没有找到“？

是否有可能将.agg(字典)与.alias()重命名为结果列？

使用toPandas或Pyarrow函数转换为熊猫时未返回所有行的

如何推断大熊猫的数据类型

对pandas问题的Spark sql查询

在pyspark中创建具有特定数据类型的dataframe时遇到问题

.toPandas()在对象列中产生预期数值列

使用Apache将PySpark* DataFrame转换为Pandas*

派斯派克的"DataFrameLike“型对pandas.DataFrame型

createOrReplaceTempView和pyspark的区别是什么？

如何在ipython中将Spark RDD转换为pandas数据帧？

Spark程序需要很长时间才能完成执行

如何通过Conda Python在本地机器上安装和使用mmlspark？

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

pyspark寄存器内置函数及其在spark.sql查询中的使用

火花数据/RDD相当于熊猫的指令给出的描述？

PySpark SQL中的用户定义聚合函数

Pandas支持Pandas pct_change功能吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐