使用Pyspark转换和重命名1,000+列的最有效方法是什么？_使用Kendo Grid和Odata数据源对数值列进行字符串包含过滤的最简单方法是什么？ - 腾讯云开发者社区

、、

我正在寻找最有效的方法来转换大的变量列表(100+)，这些变量可能存在于我的原始数据框中，也可能不存在。列值为1字节。如果值不是NULL，则使用值1重新编码。如果为NUll，则使用值0重新编码。然后重命名该列以'U_‘开头。我的代码可以工作，但它的效率非常低。我是用Pyspark编程的新手，可以使用

浏览 5提问于2020-10-28得票数 0

2回答

DynamicFrames上的AWS Glue多列重命名

= "COL1")我尝试了几个变体，并基于其他的Glue转换，认为下面的方法应该可以工作。

浏览 2提问于2018-08-01得票数 0

1回答

如何将Hive表转换为MLlib LabeledPoint？

、、、、

我使用Impala构建了一个包含目标和数百个功能的表。我想用星火MLlib训练一个模特。我理解，为了通过星火运行分布式监督模型，数据需要以几种格式之一。在我看来，LabeledPoint是最直观的。使用PySpark将Hive表转换为标记点的最有效方法是什么？

浏览 1提问于2016-02-23得票数 0

回答已采纳

1回答

如何在pyspark dataframe中进行聚合时重命名列名和转换类型

我有一个pyspark dataframe，我希望得到所有列的均值和标准差，并重命名列的名称和类型，最简单的实现方式是什么，目前我的代码如下： test_mean=test.groupby('id

浏览 0提问于2018-09-18得票数 0

2回答

在PySpark中将多个列转换为字符串的有效方法

、、、

在SO上有很好的记录(，，，.)如何通过类推将单个变量转换为string类型的PySpark：spark_df类型的列时，有几种方法可以实现它：微不足道的例子： to_str = ['age', '

浏览 3提问于2018-05-16得票数 3

回答已采纳

1回答

PySpark将列拆分到具有应用架构的新数据帧

、、、

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？作为示例，下面是一个包含两列(id和value)的pyspark DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value列并将其拆分到一个新的DataFrame中，并应用以下模式： from

浏览 18提问于2021-11-10得票数 1

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake")我想到的第二种方法是预先

浏览 1提问于2021-04-21得票数 0

1回答

从PowerShell vs System.IO.File.Move执行用于重命名的C#脚本

在C#中重命名文件的最有效、最稳定和最首选的方法是什么？我指的是相当复杂的regex操作，而不仅仅是一个简单的替换，甚至可能是几十到数百个文件。我应该让C#与powershell通信并让它用一些脚本为我重命名，还是应该以不同的方式进行重命名，如下面所示： System.IO.File.Move("oldfilename", &

浏览 5提问于2016-06-19得票数 0

回答已采纳

1回答

如何克隆Plone门户？

、

我想知道克隆Plone门户(在同一台服务器上)最有效、最实用的方法是什么。ZMI中的复制和粘贴以及导出、重命名和导入方法都不起作用。

浏览 0提问于2012-09-10得票数 0

回答已采纳

1回答

Pyspark SQL:将表与结构数组转换为列

、、

我有一个包含2列(string、array<struct<type=string、cnt=int>>)的HIVE-table，如下所示：| id1 || {type=A，cnt}，{type=B，cnt=2}| id3 || {type=E，cnt=1} 我需要将它转换为包含分隔的int列的表，其中列名是‘type’，值等于c

浏览 0提问于2020-10-16得票数 0

1回答

Rails:将序列化的散列转换为json列的最简单方法是什么？

、、

postgresql中有一个旧的列，它是一个序列化的散列，我想将它转换为json数据类型。我非常肯定，我不能只进行迁移并将其转换为json。请告诉我创建新列、将数据从一列复制到另一列、删除旧列和重命名新列的最简单方法。

浏览 1提问于2016-03-28得票数 1

回答已采纳

1回答

将PySpark groupby collect_set迁移到Dask

、、

我正在将一个pySpark实现迁移到Pandas。为了转换大型数据集，我使用了dask包。pySpark实现： df.groupBy('Key').agg(collect_set('ColumnA').alias('Items'), collect_set('ColumnB').alias('DocumentId')) 到Pandas df.groupby("Key")[['ColumnA&#x

浏览 31提问于2021-08-16得票数 0

3回答

我可以将pandas数据帧转换为spark rdd吗？

c)需要使用spark将PD_DF写到HDFS。我该怎么做呢？

浏览 0提问于2015-04-15得票数 4

2回答

将带有int标志的列转换为pyspark中的字符串数组

、、

我有一个dataframe，它有一个名为“特征”的列，它是一个由多个标志组成的整数。我需要将此列转换为字符串列表(用于弹性搜索索引)。转换看起来像这样。TRAIT_1") trait_list.append("TRAIT_2") return trait_list 在pyspark中进行这种转换最有效的<

浏览 23提问于2020-04-28得票数 0

回答已采纳

1回答

未设置Apache检查点目录

、、

在使用apache-时，我试图对一些流数据应用"reduceByKeyAndWindow()“转换，并得到以下错误： pyspark.sql.utils.IllegalArgumentException如果是的话，最简单的设置方法是什么？

浏览 4提问于2015-11-17得票数 4

回答已采纳

1回答

具有给定术语的文档的PySpark* HashingTF计数*

、、

我有一个spark数据框，其中的" text“列有一些文本。我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数，如最频繁的单词，具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。，

浏览 25提问于2021-08-31得票数 0

回答已采纳

2回答

在Pyspark中创建JSON

、、

我在PySpark中有一个DF|-- |------ |--- ||2 |Sam |34 ||{'v':3} | {'v':'Chris'} | {'v':28} |d

浏览 2提问于2021-03-02得票数 0

回答已采纳

1回答

如何在PySpark中读取大型JSON文件

、、、、

HDInsight PySpark似乎不支持JSON文件格式的数组输入，所以我被困住了。而且，我有“许多”这样的文件，每个文件中都包含不同的模式，每个列都包含100列，因此现在不能为这些列创建模式。问题如何在PySpark 2中使用HDInsight上的开箱即用功能来使这些文件被读取为JSON？我试图加载到RDD和其他开放方法，但是PySpark似乎只支持JSO

浏览 1提问于2018-02-10得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspa

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

在使用Python中的Polars读写Parquet文件时，我可以指定模式吗？

、、、、

当使用Python中的Polars读取CSV文件时，我们可以使用参数dtypes来指定要使用的模式(对于某些列)。我想知道我们在读或写Parquet文件时能做同样的事情吗？我有一些从PySpark生成的Parquet文件，并希望将这些Parquet文件加载到Rust中。锈蚀需要无符号整数，而火花/PySpark没有无符号整数，并将带符号整数输出到Parquet文件中。为了使事情更简单，我想在将Parquet

浏览 13提问于2022-05-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云