根据Spark DataFrame列的95%和5%值对其进行裁剪_根据集合中的项的值对其进行分组和计数_如何获取DataFrame的列，然后对其进行过滤以仅保留特定的值 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在尝试使用PySpark &Spark2.2为我的模型制作一个自定义的变压器。我想获取一个DataFrame，并基于列top 95%和5%创建一个饱和值(最大值和最小值)。134 5 15............... 95 96 10

浏览 48提问于2019-03-20得票数 0

1回答

如何在“`groupBy()”之后选择DataFrame的特定行？

pyspark、pyspark-dataframes

我有一个电火花DataFrame：df。例如：--------------------- 2 | 1 | 95 e | attempt | gra

浏览 1提问于2019-11-07得票数 1

回答已采纳

2回答

按不同顺序排列两列的Spark Dataframe

scala、sorting、apache-spark、dataframe、apache-spark-sql

比方说，我有一个这样的表：2,61,32,3A,B1,32,6 2,3我应该如何在Spark 2.0中使用dataframe编写查询？

浏览 0提问于2018-11-27得票数 6

回答已采纳

1回答

需要帮助理解“任何类型图像的图像签名”

image

我正在尝试实现名为任意类型图像的图像签名的文件，但我很难理解它们在这一段中的含义：对于图像的每一列，我们计算该列相邻像素之间差值的绝对值之和。我们计算所有列的总数，并在5%和95%的列中裁剪图像，也就是说，这些列使得5%的差异之和位于裁剪

浏览 0提问于2013-05-21得票数 1

回答已采纳

1回答

PySpark数据重分区

apache-spark、pyspark

当我们根据列对PySpark数据进行重新分区时会发生什么。例如这是否将具有类似'id'的数据移动到相同的分区？spark.sql.shuffle.partitions值如何影响重分区？

浏览 0提问于2018-02-22得票数 11

回答已采纳

1回答

熊猫替代价值取决于前一行

python-2.7、pandas、replace、duplicates、cumsum

我对熊猫很陌生，希望你能就如何解决我的问题提出意见。Y","X","X","X","X","X","Z"], }) 我需要<e

浏览 4提问于2017-03-23得票数 1

回答已采纳

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

apache-spark、pyspark、apache-spark-sql

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

1回答

pyspark对每个目标变量的类进行过采样

python、pyspark、sampling、apache-spark-ml、oversampling

我想知道是否有任何方法可以使用pyspark对数据进行过采样。我有10个类的目标变量的数据集。到目前为止，我正在像下面这样对每个类进行过采样以进行匹配 transformed_04=transformed.where(F.col('nps_score')==4) transformed_03=transformed.wheretransformed_04_more_rows.unionAll(transformed_03_more_rows).unionAll(tr

浏览 121提问于2020-07-03得票数 0

1回答

如何根据数据类型识别列，并将其转换为火花放电？

python、python-3.x、pyspark、pyspark-sql、pyspark-dataframes

("val_date", spark_df["val_date"].cast(TimestampType()))我有一个列数据类型的dataframe，如上面所示( a)包含名称中的术语date、time并将其数据类型从Timestamp/Datetime转换为string的列( b)根据Timestamp或Datetime数据类型

浏览 1提问于2019-10-29得票数 3

1回答

Spark Partition数据集(按列值)

scala、apache-spark、sharding、data-partitioning

我们打算按照相同的标准对数据和更新进行分片，并定期重写"shard S+ shard S => new shard S累积的所有更新“。(我们知道如何组合shard S+update= new shard S) 如果这就是我们的设计，我们需要(1)通过它的一列(比如:列K)将DataFrame分片到|range(K)|分区中，其中保证分区中的所有行在列这是一个好的设

浏览 19提问于2019-05-03得票数 2

回答已采纳

2回答

计算火花DataFrame上的斯皮尔曼相关性

scala、apache-spark、apache-spark-sql

我想对当前在Spark DataFrame中的数据运行Spearman关联。目前，只有皮尔逊相关性计算可用于对DataFrame中的列进行操作。似乎我可以使用Spark的MLlib进行Spearman关联，但我需要将两个RDDDouble传递给该函数。根据当前模式，我要比较的列是双精度的。有没有一种方法可以选择

浏览 1提问于2015-08-25得票数 1

1回答

对数据集进行排序

我有一个dataframe的清单，我想根据3列排序。{} 无论哪种方式，我都会得到一个dataframe的列表，当它们不在第一个位置时，它们都充满了NA。这一步创建了充满NA的dataframe，我检查了前面的步骤，它返回了充满值的dataframe</em

浏览 3提问于2015-01-30得票数 0

1回答

Spark MLlib中的列变换

python、apache-spark、spark-dataframe、apache-spark-mllib

我已经读过 for feature transform，但我仍然对两种简单的情况感到困惑：2.如

浏览 2提问于2016-09-20得票数 0

回答已采纳

1回答

在现有列的基础上在DataFrame中添加新列

scala、apache-spark、apache-spark-sql

我有一个包含日期时间列的csv文件："2011-05-02T04:52:09+00:00“。我使用scala，文件被加载到spark DataFrame中，我可以使用jodas时间来解析日期：import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.spark.csv", Map("path&q

浏览 0提问于2015-04-28得票数 3

回答已采纳

1回答

sparksql将dataframe转换为json

json、apache-spark

我的要求是将dataframe作为输入参数传递给scala类，该类将json格式的数据保存到hdfs。parm2: String, parm4: Double, )def write(xx: ReportA) = JsObject( &quo

浏览 0提问于2016-06-14得票数 1

回答已采纳

1回答

在pandas数据框中迭代和编辑(python)

pandas

我需要根据另一列的布尔值修改我的pandas dataframe的一列。假设我有一列值，一列true/false，我想对那些布尔值为true的值求和为1。我尝试使用iterrows，但这会复制dataframe，并且不会对其进行修改。输入： val

浏览 0提问于2014-05-01得票数 0

3回答

在Spark* UDF中操作数据帧*

apache-spark、dataframe、apache-spark-sql、spark-dataframe

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1，它的列具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据

浏览 20提问于2018-02-21得票数 3

回答已采纳

1回答

星火中每列值之和

python、dataframe、apache-spark

我所做的是将我在Spark中获得的数据some转换为Pandas (使用Spark2Pandas命令)，然后对其进行如下工作：基本上，我有一个有100列的Pandas dataframe，每个列都称为因此，首先，我删除了每一列文本的"FirstP“和”SecondP“部分(基本上，我只保留数字)。之后，使用for循环创建一个新

浏览 3提问于2022-01-06得票数 -2

回答已采纳

2回答

如何同时使用两个功能对RDD条目进行排序？

scala、apache-spark、rdd、apache-spark-2.0

我有一个Spark RDD，我想要以有组织的方式对其条目进行排序。假设条目是一个包含3个元素(name,phonenumber,timestamp)的元组。我希望首先根据phonenumber的值对条目进行排序，然后根据timestamp的值对条目进行排序，同时遵守而不是更改基于phonenumber的

浏览 6提问于2017-07-31得票数 0

回答已采纳

0回答

提取与Spark* Dataframe (Pyspark)中的特定条件匹配的第一个“行集合”*

python、pyspark、spark-dataframe、rdd

我有一个Spark DataFrame，数据如下：-----------------1 | Unidentified10 | UseCase212 | Unidentified 我必须提取列UseCase中值为Unidentified的前4行，并对它们进行进一步处理在这一点上，我不想获得中间和最后两行的<

浏览 5提问于2016-12-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云