如何组合不同形状和不同列的pyspark数据帧_组合两列不同的数据帧_组合不同列数的Spark数据帧 - 腾讯云开发者社区

pyspark-dataframes

我在Pyspark里有两个数据帧。一个有1000多行，而另一个只有4行。列也不匹配。超过1000行的df1： +----+--------+--------------+-------------+| key | col_c | col_d | +-----+--------| val

浏览 5提问于2020-01-25得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧<em

浏览 2提问于2020-06-22得票数 0

1回答

组合不同列数的Spark数据帧

pyspark、bigdata、rdd

在this问题中，我问过如何组合具有不同列数的PySpark数据帧。给出的答案要求每个数据帧必须具有相同的列数才能将它们全部合并： from pyspark.sql import SparkSessionfor

浏览 13提问于2021-06-28得票数 1

回答已采纳

1回答

如何用另一个数据帧中的值替换数据帧中的缺失值？

python、dataframe、join、merge

我有两个不同形状的数据帧。我想从df2中存在的数据中填充我的df1中缺少的数据。我试过使用pd.merge，但我认为我的语法不正确。我已经在数据帧中创建了新列，但是

浏览 19提问于2019-08-22得票数 0

1回答

在pyspark中使用union或append合并两个不同宽度的数据帧

pyspark

Df1.unix(Df2) 如何将其扩展到处理具有不同列数的pyspark数据帧？

浏览 18提问于2019-02-21得票数 0

1回答

将numpy中的不同数组添加到数据帧的每一行

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name || 1

浏览 16提问于2019-10-05得票数 0

1回答

数据库时间戳格式-如何找到准确的格式？

apache-spark、pyspark、databricks

当我尝试通过show()和display( dataframe )显示来自pyspark dataframe的date列时，这些数据列的格式是不同的。现在，我们如何得出数据帧中存在哪种日期格式？

浏览 15提问于2021-04-23得票数 2

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

python、pyspark、schema、parquet

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件中为"String“。我应该如何处理这个问题？我必须在多个拼图文件中手动转换具有不同

浏览 12提问于2021-11-22得票数 0

2回答

如何使用SparkR访问使用PySpark创建的DataFrame？

pyspark、sparkr、apache-spark-dataset

我在Databricks上创建了一个PySpark DataFrame。创建的df1。DATABRICKS_CURRENT_TEMP_CMD__)) : object 'df1' not found 如何使用sparkR访问pySpark数据帧，反之亦然？或者每个Dataframe都是一个完全不同的对象？

浏览 1提问于2018-10-05得票数 0

1回答

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

machine-learning、pyspark、apache-spark-ml

我正在尝试通过SparkNLP对文本数据进行主题建模和情感分析。我已经对数据集执行了所有预处理步骤，但在LDA中遇到错误。Error 程序是： from pyspark.ml import Pipelinefrom pyspark.sql.types imp

浏览 187提问于2021-04-22得票数 1

回答已采纳

2回答

如何对联合数据帧进行分组以组合相同的行

apache-spark、dataframe、group-by、pyspark、union

我刚刚在pyspark中联合了两个数据帧，它不是将日期相同的行组合在一起，而是将它们堆叠在一起，如下所示: df1 = +----------+------------+--------------+bounceCount和captureCount组合在一起： +----------+------------+--------------+| 20190524| nul

浏览 18提问于2019-06-05得票数 0

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.executio

浏览 11提问于2021-11-19得票数 0

1回答

通过连接比较两个pyspark数据帧

python、dataframe、join、pyspark

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','age','sex

浏览 14提问于2021-02-13得票数 0

1回答

两个数据帧的Pyspark联合

pyspark

我想做两个pyspark数据帧的联合。它们具有相同的列，但列的顺序不同我试过了 joined_df = A_df.unionAll(B_DF) 但结果是基于列顺序和混合结果的。有没有一种方法可以基于列名而不是列的顺序进行联合。提前感谢

浏览 5提问于2020-08-24得票数 1

回答已采纳

1回答

我是使用合并还是连接来比较两个数据格式？

python、pandas

我需要数据集，old和new。两者应该有三个共同的列：mmsi、d、ts。77 1458215400 46.3675533333 48.01107这两个集合应该有共同的mmsi、d、ts，但是当我执行合并时，结果数据帧的形状与old或new的形状有很大不同。在此实例中是否使用

浏览 3提问于2016-03-17得票数 3

回答已采纳

1回答

如何在Pyspark中以编程方式解析固定宽度的文本文件？

apache-spark、pyspark、spark-dataframe

这篇文章很好地展示了如何使用pyspark ()将固定宽度的文本文件解析成Spark数据帧。我有几个要解析的文本文件，但每个文件的模式都略有不同。而不是像上一篇文章所建议的那样，为每个文件编写相同的过程，我想编写一个通用函数，它可以解析给定宽度和列名的固定宽度文本文件。我是pyspark的新手，所以我不确定如何编写列<

浏览 0提问于2017-09-08得票数 2

2回答

为具有不同长度的数组替换pd.dataframe中列的一部分

python、pandas、dataframe

我想创建一个具有多个不同长度的列的数据帧，因为我认为这在pd.dataframe中是不可能的。我首先创建一个只有零的数据帧，现在我想用我以前存储的数组(具有不同的长度)替换每一列。我已经尝试了dataframe.replace和dataframe.update，但是我不能得到这个结果。 ? 数组的类型<

浏览 41提问于2019-04-19得票数 3

回答已采纳

2回答

从pyspark中的字典列创建数据帧

python、python-2.7、dictionary、pyspark、pyspark-sql

我想从pyspark中现有的dataframe创建一个新的dataframe。数据帧"df“包含一个名为"data”的列，该列具有字典行，并具有字符串形式的模式。并且每个字典的键都不是fixed.For，例如，name和address是第一个行字典的键，但对于其他行来说情况并非如此，它们可能不同。如何转换为包含单个列的

浏览 2提问于2018-11-09得票数 1

1回答

将两个不同类型的pyspark数据框列相乘(array[double] vs double)，而不需要微风

python、pyspark、pyspark-sql、pyspark-dataframes

我有相同的问题，问here，但我需要一个解决方案，在pyspark和没有微风。例如，如果我的pyspark数据帧如下所示： user | weight | vec"u1" | 0.5 |[4, 8, 12] "u2" | 0.5 | [20, 40, 60] 在列权重的

浏览 26提问于2020-01-08得票数 1

1回答

Pyspark :如何在不同条件下在dataframe中创建列

dataframe、pyspark

我想用两个不同的条件和一个dataframe : df = dataframecol1，col2在Pyspark中创建to列。=基于df_A::MTAV = df_B::CODE将df_B与df_A：：MTAV连接起来如何在数据帧中创建两列

浏览 1提问于2021-12-20得票数 -1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云