使用列表中的随机值在Pyspark中创建数据帧

、、、、

我需要将此代码转换为PySpark等效项。我不能使用pandas来创建数据帧。这是我使用Pandas创建数据帧的方式： df['Name'] = np.random.choice(["Alex","James","Michael","Peter","Harry"], size=3np.random.

浏览 65提问于2021-11-09得票数 1

回答已采纳

1回答

从数据帧列表生成单个DataFrame

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark<

浏览 12提问于2021-01-28得票数 0

1回答

如何根据行号列表拆分pyspark数据帧的行？

、、、

我已经创建了一个pyspark数据帧，形象化地看起来像这样： >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了随机的行号列表，如下所示： m

浏览 16提问于2019-04-18得票数 0

回答已采纳

1回答

如何提取dataframe的具体子样本并保存到pyspark中的另一个dataframe中？

、、、、

我有一个名为'df1‘的数据帧，它有X行，假设1000行。我想要做的是获得该数据帧的具体子样本，并保存为另一个数据帧。例如，我想从'df1‘中提取第400到700行，并将其另存为'df2’。我知道一种可能的方法是将'df1‘的内容作为向量获取，方法如下：subsample = list[400:700] df2 =

浏览 3提问于2017-10-20得票数 1

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----++-----+| b|+-----+Dataframe B:共3条记录 +-----++-----+|06901|+-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机</e

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

在pyspark中，将值随机更改为空值的最有效方法是什么？

、、

尝试弄清楚如何用空值随机替换Pyspark中的特定列。因此，像这样更改数据帧： | A | B || 1 | 2 || 5 | 6 || 9 | 10 ||----|------| | 1

浏览 29提问于2020-09-18得票数 2

回答已采纳

1回答

从db中读取阿拉伯文本，并以s3格式存储

、、、

我有一个pyspark脚本，它读取mysql数据，其中包含数据帧中的列值，并以aws s3格式存储数据，但是在使用aws雅典娜查询时，它显示的是一些随机文本，而不是阿拉伯文。我做错了什么。当我使用pyspark从mysql读取数据时，我得到的数据格式是：“am‘§”，Šc.’。提前谢谢。

浏览 1提问于2018-12-05得票数 1

回答已采纳

1回答

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 .option("header", "true")我想对每一列中的<

浏览 16提问于2020-05-11得票数 0

1回答

spark是否提供了一种生成64位随机盐的方法？

、

我正在使用Pyspark，并希望生成随机加密盐作为我的数据帧中的一个附加列。我想用它来为我的数据生成Hash或一种保留加密密码值的格式。Spark dataframe API中是否有生成加密盐的最佳实践？

浏览 2提问于2018-05-30得票数 0

1回答

在databricks中使用Pyspark(Python)的连接不起作用

、、

使用Pyspark的内部联接不适用于使用分区csv、常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv (存储在ADLS中)和普通csv创建的数据帧上应用内部联接时，输出df是用空值创建的，但当我在常规csv上创建</

浏览 24提问于2019-12-19得票数 0

1回答

在python / pyspark中获取k-means质心和异常值

、、、、

有谁知道Python / PySpark中的简单算法来检测K-means聚类中的离群值并创建这些离群值的列表或数据帧吗？我不知道如何获得质心。我使用了以下代码： n_clusters = 10 model = kmeans.fit(Data.select("

浏览 57提问于2021-01-08得票数 1

回答已采纳

1回答

如何使用pyspark从python列表中选择一个随机文本值？

、、、、

是否有一种方法可以从下面的python列表中选择一个随机文本值：我知道我可以使用random.choice() python函数从python返回一个随机的文本值，但是我们是否有另一个函数可以在pyspark本身中执行同样的操作呢？这样做的主要原因是通过

浏览 3提问于2020-05-13得票数 1

回答已采纳

1回答

如何在循环中创建一个pyspark* DataFrame？*

、

如何在循环中创建一个pyspark DataFrame？在这个循环中，在每次迭代中，我输出2个值print(a1,a2)。现在，我想将所有这些值存储在一个pyspark数据帧中。

浏览 26提问于2021-01-12得票数 0

1回答

在一个列表中存储多个pysparks数据帧？

、、

如何在一个列表中存储多个数据帧？我有一个函数可以读取文件夹中的多个拼图文件。但是，我需要创建一个列表，其中包含正在读取以执行其他进程的数据帧。预期的结果如下所示： dfs = df1、df2、df3、df4、dfn 注意:我正在使用pyspark数据帧谢谢!

浏览 8提问于2021-07-15得票数 0

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将

浏览 14提问于2019-12-18得票数 1

回答已采纳

2回答

pyspark dataframe中类似元组的数据类型

、

背景我有以下pyspark数据帧 +-----+-----++-----+-----+|False|True |+-----+-----+ 我的目标我想创建另一个基于key_1中的值的列和key_2列，如下所示。我试着在柱子上搜索 combined = []

浏览 23提问于2020-11-06得票数 0

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake") .optionscalculated_signal_df = calculated_signal_df.toDF(*[c.lower() for

浏览 1提问于2021-04-21得票数 0

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

、、、

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。2 53 1 195 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引<e

浏览 8提问于2020-11-04得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从数据帧列表生成单个DataFrame

如何根据行号列表拆分pyspark数据帧的行？

如何提取dataframe的具体子样本并保存到pyspark中的另一个dataframe中？

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

在pyspark中，将值随机更改为空值的最有效方法是什么？

从db中读取阿拉伯文本，并以s3格式存储

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

spark是否提供了一种生成64位随机盐的方法？

在databricks中使用Pyspark(Python)的连接不起作用

在python / pyspark中获取k-means质心和异常值

如何使用pyspark从python列表中选择一个随机文本值？

如何在循环中创建一个pyspark* DataFrame？*

在一个列表中存储多个pysparks数据帧？

以每列为关键字将PySpark数据帧转换为JSON

pyspark dataframe中类似元组的数据类型

如何在不将列列表临时存储到变量中的情况下重命名df列？

将列有条件地添加到数据帧中

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

在pyspark中保持至少有一个元素满足条件的组

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐