Spark dataframe to arrow

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

火花df、拼花物体和熊猫df之间的转换

、、

在创建火花会话之后，我运行了以下代码 spark_df.select('*').toPandas(我需要火花df和熊猫df的原因是，对于一些较小的DataFrame，我想很容易地使用各种熊猫EDA函数，但对于一些较大的，我需要使用火花sql。首先，把地板转向熊猫，然后再点燃df，这似乎有点迂回。

浏览 3提问于2019-10-20得票数 0

1回答

如何在Databricks中快速轻松地在R和pandas数据帧之间进行转换？

、、、

我听说我必须使用spark temp tables来做这件事，而且它非常简单，但我找不到任何完整的示例代码，到目前为止，我还不能让它工作。

浏览 1提问于2020-05-29得票数 1

1回答

在Databricks笔记本上，pandas df到spark df的转换需要很长时间

、、、、

我正在尝试使用下面的方法将这个熊猫df转换为spark df。spark_session = SparkSession.builder.appName('pandasToSparkDF').getOrCreate()spark_df= spark_session.createDataFrame(pandas_df) 这个过程花费了大约9分钟将pandas df转换为Databricks上1000万行的spark df。

浏览 29提问于2020-07-23得票数 1

4回答

、、、

我在Python中使用Apache Arrow和Spark已经有一段时间了，通过使用Pandas作为中介，我可以很容易地在dataframes和Arrow对象之间进行转换。然而，最近我为了与Spark进行交互而从Python转到了Scala，在Scala (Java)中使用Arrow并不像在Python中那样直观。我的基本需求是尽快将Spark dataframe (或RDD，因为它们很容易转换)转换为Arrow对象。我最初的想法是首先转换为拼花，然后

浏览 58提问于2017-07-28得票数 11

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

、、、、

= Microsoft.Spark.Sql.Functions;using Arrow = Apache.Arrow.GetOrCreate(); DataFrame dataFrame = spark.Range(0, 100).Repartition(4);= dataFrame.WithColumn("

浏览 17提问于2021-03-25得票数 6

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

)# Enable Arrow-based columnar data transfers# Convert the Spark DataFrame to a Pandas DataFrame pandas_df = df1.select("*&

浏览 0提问于2019-08-26得票数 1

回答已采纳

4回答

如何将火花数据转换为极数据？

、、

假设我在PySpark上有以下代码：我可以很容易地使用.toPandas把它转换成熊猫数据。

浏览 18提问于2022-08-02得票数 3

回答已采纳

1回答

在Spark中读取Apache Arrow文件

、

我正在使用Pyspark，我想读取Apache类型的文件，这些文件的扩展名是".arrow“。不幸的是，我找不到任何办法来做这件事，我会感激你的帮助。

浏览 44提问于2022-12-04得票数 0

1回答

无法将CSV pyspark数据帧导出到C:\temp

、、、、

我有一个1300行5列的pyspark.sql.dataframe.DataFrame。\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\sql\dataframe.py in toPandas(self) 2142: Traceback (most recent call last) ``spark.conf.set("spark.s

浏览 28提问于2019-10-03得票数 1

回答已采纳

1回答

箭头:转换为RuntimeError: VectorUDT时不支持的类型

、、、、

我想转换一个大的spark数据帧到Pandas超过1000000行。我尝试使用以下代码将spark数据帧转换为Pandas数据帧：result.toPandas("spark.sql.execution.arrow.enabled", "true") ----> 2

浏览 3提问于2018-07-04得票数 7

1回答

为什么在将Apache Arrow用于字符串类型时，pySpark会崩溃？

、、、

为了在大型数据集上获得一些离群点图，我需要将spark DataFrame转换为pandas。()21/05/16 11:31:03 WARN SQLConf: TheSQL config 'spark.sql.execution.arrow.enable

浏览 20提问于2021-05-16得票数 1

回答已采纳

3回答

如何将熊猫DataFrame的rdd转换为星火DataFrame

、

我创建了一个熊猫DataFrame的rdd作为中间结果。我想转换一个火花DataFrame，最终保存到拼花文件。def create_df(x): assign(col=x) .TO_DATAFRAME()..write.format("parquet"

浏览 0提问于2019-08-08得票数 1

回答已采纳

1回答

带有PySpark 2.4的Pandas UDF

、、、

我正在尝试基于下面的spark文档使用PySpark 2.4，pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf，在调用pandas_udf函数时有问题。DataFrame, 'spark' is an existing SparkSession at

浏览 1提问于2020-11-06得票数 0

2回答

AWS EMR上的pyspark with pandas和pyarrow错误：'JavaPackage‘对象不可调用

、、、、

并得到以下与pyarrow相关的错误： import pandas as pdpdf = pd.DataFrame(data, columns=list("abcdefghij")) df = spark.createDataFrame(pdf) /usr/lib/spark/python/lib/pyspark.zip/pyspark&#x

浏览 30提问于2020-06-29得票数 2

5回答

在选择“struct_name.*”时，为所有列设置前缀

、、、、

下面的dataframe是一个名为'table_name‘的temp_table。import pandas as pd 'a':[1,2,3,4,5], 'e':list('abcde'), 'f&

浏览 2提问于2020-01-29得票数 4

回答已采纳

3回答

将spark DataFrame转换为pandas DF

、、

有没有办法将Spark Df (非RDD)转换为pandas DFvar some_df = Seq( ("B", "yes"), ("B",

浏览 2提问于2018-06-21得票数 51

回答已采纳

2回答

如何在Pyspark中启用Apache Arrow

、、

我正在使用：这是示例代码x = pd.Series([1, 2, 3])我收到一条警告信息 c:\users\administratoroptimization becau

浏览 12提问于2019-10-07得票数 22

6回答

如何在PySpark中找到DataFrame的大小或形状？

、、

我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。data.shape() PySpark中有没有类似的函数？

浏览 482提问于2016-09-23得票数 118

2回答

PySpark pandas_udfs java.lang.IllegalArgumentException误差

、、、

= SparkSession.builder.master("local").getOrCreate()spark.conf.set("spark.sql.execution.arrow.fallback.enabled", "false") df = spa

浏览 0提问于2020-02-19得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花df、拼花物体和熊猫df之间的转换

如何在Databricks中快速轻松地在R和pandas数据帧之间进行转换？

在Databricks笔记本上，pandas df到spark df的转换需要很长时间