此函数似乎对我的IDE有效:
def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = {
rdd1
.zipWithIndex
.map(_.swap)
.join(
rdd2
.zipWithIndex
.map(_.swap))
.values
}但当我编译时,我得到:
值联接不是org.apache.spark.rdd.RDD(Long,T)的成员,可能是因为在“值联接”之前缺少分号吗?.join(
我在Spark1.6中,我已经尝试导入_org.apache.spark.rdd.RDD.__,当它直接在函数定义之外的两个RDD上使用时,函数中的代码工作得很好。
知道吗?
发布于 2016-10-12 08:29:21
如果您更改签名:
def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = {转入:
def zip[T : ClassTag, U: ClassTag](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = {这将编译。
为什么是?join是PairRDDFunctions的一个方法(您的RDD被隐式转换为该类),它具有以下签名:
class PairRDDFunctions[K, V](self: RDD[(K, V)])
(implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null)这意味着它的构造函数需要ClassTag[T]和ClassTag[U]类型的隐式值,因为这些值类型将用作值类型( PairRDDFunctions定义中的V )。您的方法不知道什么是T和U,因此不能提供匹配的隐式值。这意味着隐式转换为PairRDDFunctions“失败”(编译器不执行转换),因此找不到join方法。
添加[K : ClassTag]是将隐式参数implicit kt: ClassTag[K]添加到方法的缩写,然后编译器使用该参数并将其传递给PairRDDFunctions的构造函数。
有关ClassTags的更多信息,以及它们对这篇好文章有什么好处。
https://stackoverflow.com/questions/39993041
复制相似问题