PySpark DataFrame -附加单个列的随机排列

文章/答案/技术大牛

发布

1回答

、、

我正在使用PySpark (对我来说是个新东西)。| | val21 | val22 | q2 | | val31 | val32 | q3 | +-------+-------+----------+，我想添加一个新的列，random_qustion，它实际上是Question列中的值的排列，所以结果可能看起来像这样：+-------+-------+----------+-----------------+ | Col1df.orderBy(

浏览 2提问于2019-07-29得票数 1

回答已采纳

1回答

spark是否提供了一种生成64位随机盐的方法？

、

我正在使用Pyspark，并希望生成随机加密盐作为我的数据帧中的一个附加列。我想用它来为我的数据生成Hash或一种保留加密密码值的格式。Spark dataframe API中是否有生成加密盐的最佳实践？

浏览 2提问于2018-05-30得票数 0

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

、

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： dff=pd.read_csv(f,delimiter=','

浏览 5提问于2017-04-10得票数 11

2回答

添加带有随机数据的新列

、、、

我想要在dataframe中添加一个包含0或1的值的新列。from random import randint 但我得到了以下错误 / withColumn /python/pyspark/sql/dataframe.py“，第1313行，在withColumn AssertionError( col，列)中，”c

浏览 4提问于2017-01-04得票数 13

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .csv(file

浏览 16提问于2020-05-11得票数 0

2回答

Pyspark -如何从DataFrame列中获取随机值

、、

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？+---++---+|245| |234|愿望：**output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

1回答

火花DataFrame --如何在没有联接的情况下改变一列的排列

、

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。主要是因为我的理解(这可能是非常错误的)，在大型数据集(数百万行)的

浏览 0提问于2019-06-06得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例

浏览 1提问于2016-04-14得票数 3

1回答

两个数据帧的相同随机排列序列

、

我正在尝试对dataframe中的列进行随机排列，但我需要这种排列对于两个dataframe是相同的。现在我就有了这个 X_train = X_train.sample(frac=1, axis=1) X_test = X_test.sample(frac=1, axis=1) 这会创建两个不同的排列，但我需要对X_train和X_test使用相同的列排列，

浏览 20提问于2019-06-03得票数 0

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执行PCA 在pos

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

在不同列序的蜂箱表中添加火花数据

、、

我在HiveWarehouseConnector集群中使用了pyspark和HDP3。模式中发生了更改，因此我使用"alter“命令更新目标表，默认情况下将新列添加到目标表的最后位置。现在，我尝试使用下面的代码将spark保存到它，但是dataframe中的列按字母顺序排列，并且我得到了下面的错误消息hive.setDatabaseappend').option('tab

浏览 4提问于2021-02-17得票数 0

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的</em

浏览 16提问于2020-12-30得票数 2

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强制它应该大于0(参见)。但是，如果我

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

用于显示不带小数点的整数

、、

在下面的代码中，数据文件的所有列都是字符串。其中一列用一个小数位存储整数或小数(6.1,4.8,3,9.4,6，...etc.)。但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。from <

浏览 7提问于2022-05-21得票数 0

7回答

如何更改火花数据中的列位置？

、、、

我想知道是否可以更改列在dataframe中的位置，实际上是否可以更改架构？准确地说，如果我有一个像[field1, field2, field3]那样的数据文件，并且我想得到[field1, field3, field2]。如何移动一个或多个列<

浏览 4提问于2016-06-29得票数 47

回答已采纳

1回答

将后缀附加到PySpark行

、、

我有一个PySpark数据格式，它有A和B两列。这些列中的每一列都是字符串数据类型。以下是dataframe的示例| A | B || "a1" | "b1" || "a3" | "b3" | | "a4

浏览 4提问于2020-12-01得票数 3

回答已采纳

5回答

Spark RDD或dataframe中的随机洗牌列

、

有没有什么办法可以让RDD或dataframe中的一列随机排列，使该列中的条目以随机顺序出现？我不确定我可以使用哪些API来完成这样的任务。

浏览 3提问于2016-05-18得票数 9

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列的代码。ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName'

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

点击加载更多