基于Scala中另一列的值映射RDD列

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我是这里的初学者。我正在使用Spark 2.4.4和Scala。我有一个包含三列的RDD，第一个条目如下：RDD有数千个条目。当同一行中有'neg‘时，我想将double的值更改为负值，而当有任何其他短语时，则不执行任何操作。我想要获得以下输出：我认为map函数可以用来创建一个新的RDD</em

浏览 9提问于2019-10-31得票数 0

回答已采纳

1回答

如何使用Spark在Scala中返回多列键和值对

、

我想把下面的RDD转换成键值对，每个键有两个值。第一列应该是键，第二列和第三列应该是值。如何使用scala中的Case类执行转换？scala> input[Market,

浏览 0提问于2018-05-29得票数 0

1回答

随着数据集和列数的增加，Spark作业的执行时间呈指数级增长

、、

我已经在spark中创建了一个固定宽度的文件导入解析器，并在各种数据集上执行了一些执行测试。它可以很好地工作到1000列，但随着列数和固定宽度长度的增加，Spark作业性能会迅速下降。对于20k列和固定宽度长度超过10万的列，执行时间很长。我发现的类似问题之一：

浏览 1提问于2018-09-15得票数 1

1回答

如何通过键来比较两个JavaPairRDD并比较值？

、、

我想使用Java根据两个JavaPairRDD键进行比较，比较它们的值，看看相同的键是否具有完全相同的值。现在，我只检查交叉和合并的计数()，但这还不够，如下所示： "ERROR: SxS validation fa

浏览 2提问于2017-05-26得票数 0

回答已采纳

2回答

如何将查找(广播) RDD* (或dataset)访问到其他RDD映射函数*

、、、、

我在CDH 5.1.3上使用spark 1.0.0at org.apache.spark.rdd.PairRDDFunctions.lookup(PairRDDFunctions.scala:571) 我可以理解访问一个RDD内部的<

浏览 3提问于2016-01-07得票数 0

回答已采纳

1回答

如何将RDD[Row]转换回DataFrame

、、、

首先，我有一个类型为(Int，Int)的RDD，名为dataPair。然后，我使用以下命令创建了一个带有列标题的DataFrame对象：然后，我使用以下命令将其从DataFrame转换回RDD：它返回org.apache.spark.sql.Row类型的RDD (不是(整数，整数))。] 我

浏览 1提问于2016-05-04得票数 11

回答已采纳

1回答

滤波器在矢量/Array[Double]关系图中的应用

、、、、

假设我有一个ArrayDouble的RDD，有n列。我想在最后一列上应用一个过滤器(比如值>某个常量)。如果我可以选择一个而不是另一个(例如，ArrayDouble的RDD和向量的RDD )，那么我应该选择哪一个来获得更

浏览 3提问于2014-12-08得票数 1

0回答

如何使用Spark scala* RDD获得基于两列的运行和*

、、

我有RDD的数据，其中有4列，如地理，产品，时间和价格。我想计算基于geog和time的运行总和。我需要像这样的结果。我需要这个spark-Scala-RDD。我是Scala领域的新手，我可以用SQL轻松实现这一点。我想在spark -Scala -RDD中这样做，就像使用(地图，平面地图)一样。提前感谢您的帮

浏览 3提问于2017-01-11得票数 0

2回答

Spark RDD* to CSV -添加空列*

、

我有一个RDD[MapString，Int]，其中映射的键是列名。每个映射都是不完整的，为了知道列名，我需要联合所有的键。有没有一种方法可以避免这种收集操作，知道所有的键并只使用一次rdd.saveAsTextFile(..)去拿csv吗？例如，假设我有一个包含两个元素(scala表示法)的RDD：Map("b"->

浏览 1提问于2015-06-30得票数 0

1回答

PySpark: DataFrame到RDD[DenseVector]，而不是RDD[Row]

、、、、

我有一个表单的PySpark数据帧：| col_name||[val1, val2,val3] |+--------------------+[Row(col_n

浏览 0提问于2018-06-05得票数 0

1回答

时间戳StructField中的空值

、

如何处理时间戳列中的空值？我将源数据保存在列表中(sql的结果) [220,1,220,220,2012-04-24 23在最后一列中，空值与时间戳混合。, StructType(fields)) 导致: java.lang.RuntimeException: scala.runtime.Boxe

浏览 0提问于2018-06-21得票数 0

回答已采纳

2回答

如何将RDD的一列与(A)相同(B)不同的RDD的其他列映射？

、

这里的初学者，我正在使用Spark2.1.1和Scala2.11.8。(String, String, String, String, String, String) = (" p69465323_serv80i"," 7 "," fb_406423006398063我想将第一栏与第三、第四、第五和第六栏分别映射为： (fb_4064230063980

浏览 2提问于2017-06-29得票数 0

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。-+--------+----+ 这意味着，我希望向StringType类型的DF中添加一个新的“StringType”列<

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

将数组类型的列处理为udf时的Spark - java.lang.ClassCastException [数组[Map[String，String]

、、、

我连接了Array[Map[String,String]]类型的spark中的两个列，生成了一个新的Array[Array[Map[String,String]]]类型的列。但是，我希望将该列展平，以获得一个Array[Map[String,String]]类型的列，其中包含两个原始列的值我从Spark2.4中读到，可以直接在列</em

浏览 30提问于2020-12-24得票数 0

回答已采纳

2回答

将Dataframe转换回星火中case类的RDD

、

我试图将多个案例类的数据转换为这些多个案例类的rdd。我找不到任何解决办法。这个wrappedArray把我逼疯了。为了得到第二列，我尝试了这样的方法，但是它产生了一个错误： aDF.map { case r:Row => r.getAs[randomClass3]("_2")}

浏览 5提问于2016-10-03得票数 3

回答已采纳

2回答

数据库Azure广播变量不可串行化

、、

这只是为了乱搞，所以这个例子有点做作，但是我无法在RDD映射调用中得到一个值，除非它是一个静态常量值。下面是一个使用int的简单示例，我广播了它，然后尝试并在RDD映射中使用。，其中使用带有int字段的简单可序列化的单例对象，然后在RDD映射中尝试使用该对象。[int]，然后尝试在RDD映射中使用该元素。正如您所看到的，这指

浏览 0提问于2018-04-26得票数 1

回答已采纳

1回答

使用PySpark根据列名及其数值过滤spark RDD

、、、、

我正在将Scala / Spark模型转换为Python / Spark。问题是我的RDD有大约100万个观察值和大约33列。我基于数值阈值('Time')来拆分RDD。以下是Scala的源代码：val splitTime = data.stat.approxQuantile("Time&quo

浏览 6提问于2017-12-13得票数 0

1回答

Spark:根据另一个RDD中数组的元素获取RDD的元素

、、

在Spark Scala框架中，我有一个RDD，rdd1，其中每个元素表示矩阵A的一个元素x表示行，y表示列，v表示矩阵A中的值。我还有另一个RDD，rdd2，形式为RDD[index, Array[(x, y)]]，其中每个元素<e

浏览 1提问于2016-09-16得票数 0

回答已采纳

1回答

将cassandra行RDD转换为元组数组

、、

我尝试从cassandra表中读取数据并将值存储在数组中。我的RDD如下所示如何将

浏览 0提问于2015-11-06得票数 0

2回答

Scala :从csv读取具有空值的列的数据

、、

csv文件，它有3列数据类型:String，Long，Date。$anonfun$mapPartitionsInternal$2(RDD.scala:872)at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.

浏览 1提问于2021-03-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云