将100k行pyspark df转换为pandas df

文章/答案/技术大牛

发布

1回答

python、pandas、pyspark

我有一个100k行的pyspark df。我用的是spark df = pandas_df.toPandas() 这需要花费大量时间来执行此语法。有没有其他方法可以在几秒钟内完成这个操作？另外，要将pyspark数据帧保存为.csv格式，需要花费大量时间。为甚麽会这样呢？

浏览 32提问于2020-07-29得票数 1

1回答

用数据库中的pyspark将纳秒值转换为日期时间

python、azure-databricks、python-datetime、pyspark-pandas

在Python中，我使用以下代码将字段转换为适当的日期时间值：此代码将下列值1642778070000000000转换为2022-01-21 15:

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

如何将表达式iloc从pandas转换为Pyspark Dataframe？

python、pandas、pyspark

如何将pandas表达式转换为pyspark，这似乎不起作用，然后将dataframe转换为数组？----+|2 | 5.0 | null| +-----+------+-----+df= df.iloc[-N:, :] #expression in pandas df = df.c

浏览 11提问于2021-02-14得票数 0

回答已采纳

2回答

吡火花蜂巢上下文.具有UTF-8编码的读表

python、apache-spark、pyspark、apache-spark-sql

我在蜂箱里有一张桌子，我正在读入pyspark df_sprk_df中的那张桌子。from pyspark import SparkContextsc = SparkContext()df_pandas_df = df_pandas_df</em

浏览 0提问于2018-08-29得票数 1

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

python、databricks

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

数据帧到JSON

pyspark

如何在pyspark中处理dataframe并获得json格式的输出：empid empname in out1 A 1 1

浏览 4提问于2018-03-18得票数 0

1回答

使用PySpark从Blob存储容器加载CSV文件

csv、apache-spark、pyspark、azure-blob-storage

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案：

浏览 21提问于2019-04-28得票数 0

1回答

无法在PySpark* (版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包*

python、dataframe、apache-spark、pyspark、apache-spark-sql

= city_df['city'] 以上代码的最后一行给出了下面的错误： "/usr/lib/spark/python&

浏览 5提问于2020-10-15得票数 0

1回答

将字典保存为并加载它- Python，Databricks

python、pandas、dictionary、pyspark、databricks

我尝试了一个示例dataframe (不是相同的)，如下所示：my_df = spark.table("my_df") # Get table df = my_df.toPandas() # Make pd data

浏览 6提问于2019-11-20得票数 1

回答已采纳

3回答

将spark DataFrame转换为pandas* DF*

pandas、apache-spark、apache-spark-sql

有没有办法将Spark Df (非RDD)转换为pandas DFvar some_df = Seq( ("B", "yes"), ("B", "no") "user_id", "phone_nu

浏览 2提问于2018-06-21得票数 51

回答已采纳

1回答

计算databricks中线串(geo)的长度

pyspark、line、databricks、geo

当我将数据导入到数据帧中时，geo-column中的数据如下所示： LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128不知何故，我似乎不理解语法，或者我忘记了一些东西为了检查geo列中的数据是否是有效的geo- data，我们将数据帧写入一个表中，其中geo-column是数据类型几何。

浏览 44提问于2021-08-09得票数 0

回答已采纳

1回答

从本地计算机读取数据时出现(PySpark)问题

apache-spark、pyspark

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError用法: java.io.IOException:方案没有FileSystem : null '‘ Error picture 如果我使用pandas.read_csv从本地计算机读取文件，一切都很好(只有pyspark有问题)。[*]").getOrCreate() path=

浏览 26提问于2020-10-28得票数 0

1回答

如何将spark dataframe中的String类型列转换为Pandas* dataframe中的String类型列*

pandas、apache-spark、pyspark

我有一个从熊猫数据帧创建的样本spark数据帧-frompyspark.sql.types import StringType |-- input2: string (nulla

浏览 3提问于2020-09-09得票数 0

1回答

熊猫数据的高效读写

python、pandas、dataframe、sparse-matrix、countvectorizer

转储和加载数据是没有问题的，但是当我尝试实际访问数据时，它是一个pandas.Series对象。其次，该系列中的每一行都是包含整个数据集的元组。# Before dumping, the original df has 100k rows. # Each column has one value except for 'counts' which# Meaning that df['counts'] give me a sparse matrix

浏览 3提问于2017-05-16得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

Python火花作业优化

python、pandas、apache-spark、pyspark、google-cloud-dataproc

我在Dataproc集群上运行PySpark (2.3) Date,unique_id (Alphanumeric) , category(10 distinct values) and Prediction (0 or 1) 我们正在使用Facebook预言家模型进行预测建模，因为先知只接受Pandas数据格式作为输入，下面是我正在做的工作，以便将Spark数据格式转换为Pandas

浏览 3提问于2018-09-02得票数 1

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

python、dataframe、apache-spark、pyspark、amazon-emr

所以，我一直想知道如何使用pyspark来处理两个不同的数据帧。第一个数据帧，比如df，包含了人们在不同日子看电视的数据。我需要这个最终的数据帧为每个用户和每个程序有单独的行。换句话说，我需要一个数据帧，它可以在同一天为每个程序复制第一个数据帧中的每一行。到目前为止，我创建了以下方法:我迭代第一个dataframe，对于每一行，我找到第二个dataframe中具有相同日期的所有行，合并它并添加到第三个(最终) dataframe。[] # all programs

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

我如何分配一行与？

python、pandas、pyspark、pyspark-dataframes

请您将下面这个表达式从Pandas转换为Pyspark，我试着在Pyspark中看到等效的loc吗？import pandas as pd new_entry = {'Devices': 'device1', 'months': 'month1'} df</em

浏览 1提问于2021-02-04得票数 0

回答已采纳

3回答

在pyspark中将数据帧保存到本地驱动器上的JSON文件

python、json、apache-spark、pyspark

我有一个数据帧，我正尝试使用pyspark 1.4将其保存为JSON文件，但它似乎不起作用。当我给它提供目录的路径时，它会返回一个错误，声明它已经存在。df.write.json("C:\Users\username")并添加文件扩展名JSON，则会产生相同的错误

浏览 0提问于2015-06-26得票数 6

回答已采纳

2回答

Apache Spark中使用pyspark的Dataframe转置

python、apache-spark、dataframe、pyspark、transpose

我有一个数据帧df，它的结构如下：| s |col_1|col_2|col_...|我想要计算这个数据帧的转置，这样它看起来就像| s | f1 | f2 | f3 | ...|| ...|方法1： for x in df</e

浏览 4提问于2017-09-28得票数 12

回答已采纳

点击加载更多