在Pyspark中将多个数据帧合并为一个数据帧[非pandas df]_Pandas将多个数据帧合并为一个_在pandas中将多索引数据帧分离为多个单索引数据帧 - 腾讯云开发者社区

、

我将通过一个过程一个接一个地获得生成的数据帧。我必须把它们合并成一个。-------+----------++--------+----------+ 我尝试了很多选项，比如concat，merge，append，但我猜都是pandasspark.createDataFrame(l, ('Name', 'Age')) ldf = spark.createDataFrame(k, (&#

浏览 18提问于2019-10-18得票数 2

回答已采纳

3回答

从csv文件向现有apache spark数据帧添加数据

、、、

我有一个spark dataframe，它有两列: name，age，如下：数据帧是使用以下命令创建的外部文件有几列，但我只需要包括第一列，即'UserId'：两个数据源中的记录数相同。我在windows操作系统上使用的是独立的pyspark版本。最终结果应该是一个包含三列的新数据</

浏览 9提问于2016-09-16得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

我们导入一个具有地理列的数据集。这个geo-column表示一条线。当我将数据导入到数据帧中时，geo-column中的数据如下所示： LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.4756062801 368586.0079242395,155491.8449842462 368569

浏览 44提问于2021-08-09得票数 0

回答已采纳

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

、、、、

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用pyspark来处理两个不同的数据帧</

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

、、、、

因为当我尝试的时候，它得到了一个错误。我使用脚本作为Pandas DataFrame函数df.to_json()，因为我假设Azure Synapse DataFrame与Pandas Dataframe相同。下面是我的synapse的脚本： @staticmethod def write_to_synapse(df, tableUtilAzSynapse.write_to_synapse log:\n" +

浏览 19提问于2021-05-31得票数 0

回答已采纳

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用：从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。*from pyspark.sql import *

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=sp

浏览 30提问于2020-09-13得票数 0

1回答

如何将spark sql数据帧摘要写入excel文件

、、

我有一个非常大的数据帧，有8,000列和50000行。我想把它的统计信息写到excel文件中。我认为我们可以使用describe()方法。而是如何以良好的格式写出优秀的作品。谢谢

浏览 4提问于2017-04-22得票数 3

回答已采纳

2回答

使用Python将Dask Dataframe转换为Spark dataframe

、、、、

让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

3回答

pyspark to hive中的Pandas数据帧

、、、

如何将熊猫数据帧发送到hive表？我知道如果我有一个spark数据帧，我可以将它注册到一个临时表中，使用sqlContext.sql("create table table_name2as select * from table_name") 但是当我尝试对registerTempTable使用pandas dataFrame时，我得到了以下

浏览 0提问于2016-04-28得票数 9

回答已采纳

1回答

用map并行化for循环，用pyspark并行化reduce

、、

在我的应用程序中，我从S3上不同位置的数据创建不同的数据帧，然后尝试将这些数据帧合并为单个数据帧。现在，我正在使用一个for循环。但我有一种感觉，使用pyspark中的map和reduce函数可以更有效地完成这项工作。下面是我的代码：from pyspark.sql impo

浏览 0提问于2016-08-24得票数 3

2回答

使用列表中的随机值在Pyspark中创建数据帧

、、、、

我需要将此代码转换为PySpark等效项。我不能使用pandas来创建数据帧。这是我使用Pandas创建数据帧的方式： df['Name'] = np.random.choice(["Alex","James","Michael","Peter","Harry"], size=3) df['ID'

浏览 65提问于2021-11-09得票数 1

回答已采纳

1回答

无法在PySpark* (版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包*

、、、、

在我的AWS集群中，我下载了一个Python包：现在，我想在我的名为“'city_no_accents‘city”的pyspark列中使用这个词，该列的值为：’s o paulo‘、'seropédica’等(即带有口音)，并希望创建一个名为“”的新列，它将更正文本中的所有重音，并使其在普通英语文本中，如‘圣保罗’、'seropedica= city_df['city'

浏览 5提问于2020-10-15得票数 0

1回答

如何将spark dataframe中的String类型列转换为Pandas* dataframe中的String类型列*

、、

我有一个从熊猫数据帧创建的样本spark数据帧-frompyspark.sql.types import StringType spark = SparkSessio

浏览 3提问于2020-09-09得票数 0

2回答

从RDD中的Pandas* DataFrames创建Spark DataFrame*

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。示例： def read_file_and_process_with_pandas(filename): """ here

浏览 31提问于2019-06-05得票数 0

回答已采纳

1回答

在pyspark.pandas中添加/减去datetime

、、、、

我在使用pyspark.pandas计算日期时出错。有没有办法用pyspark.padnas计算日期？import pyspark.pandas 'day': [4, 5]}) df</em

浏览 2提问于2021-12-03得票数 0

3回答

python中DataFrame中列的条件更新

、、、

我需要根据其中一列中的值有条件地更新dataframe中的一列。0.00-0.50 : A0.75-1.00 : C col1..col8 col9 col101 0.293871 0.706129 B3 0.047834 0.952166

浏览 0提问于2016-12-06得票数 1

1回答

pyspark:创建多个dataframe失败

、、

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示：from pyspark import SparkContext,SQLContext=True) sql = SQLContext(sc)spark_df2 = sq

浏览 208提问于2020-06-08得票数 0

回答已采纳

2回答

将spark dataframe转换为不带pandas* dataframe的元组列表*

、、

我有一个现有的逻辑，可以将pandas数据帧转换为元组列表。 list(zip(*[df[c].values.tolist() for c in df])) 其中df是一个熊猫数据帧。有没有人能帮我在pyspark中实现同样的逻辑呢？

浏览 17提问于2019-10-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云