在rdd中使用scala过滤器函数时出现的问题_在IntelliJ IDEA中创建Scala项目时出现的问题_在Scala中打印排序集中的整数时出现问题 - 腾讯云开发者社区

scala、apache-spark

由于某些原因，我得到的是以下代码中不可序列化的任务异常。我是运行在火花本地使用sbt测试。(SparkContext.scala:1623) at test.scala.org<redacted>.NQTest$.testDatasets(NQTest.scala</

浏览 1提问于2015-06-17得票数 0

1回答

在rdd中使用scala过滤器函数时出现的问题

scala

我开始学习scala和Apache spark。我有一个输入文件，如下所示，没有头文件。name1,33,385 - first record unique-id, name, age, friends 1)当尝试过滤年龄不是26岁时，= "26") 2)当尝试使用索引x._3时，它说的是索引出站。 val line = x.split(",").filter(x => x._3 != &quo

浏览 21提问于2019-10-02得票数 1

回答已采纳

3回答

关于Apache火花内部部件的问题- RDDs

apache-spark

我有几个关于星火内部的问题，特别是RDD。基于文档中的内容，RDDs的谱线图是DAG结构。这些任务是什么样子的？它们是否包含一个RDD对象以及在接收到一个操作时将处理的数据的哪个

浏览 6提问于2016-02-03得票数 0

1回答

Databricks ApacheSpark1.4:不可序列化的任务(Scala)

scala、serialization、apache-spark

我在databricks中创建了两个不同的Scala笔记本。一个是在LDA模型的基础上计算主题，另一个是新的笔记本，没有任何事先的计算。当我在第一本笔记本上运行以下代码时：val c: Int = 4 def add (x:org.apache.spark.rdd.RDD当我在另一个笔记本

浏览 1提问于2015-07-03得票数 1

回答已采纳

2回答

减少潜在的空RDD

scala、apache-spark

因此，我遇到了一个问题，我在RDD上使用的过滤器可能会创建一个空的RDD。我觉得做一个计数()来测试是否空虚是非常昂贵的，我想知道是否有一个更好的方法来处理这种情况。下面是这个问题的一个例子： val b:RDD[String] = sc.parallelize(Seq("a","ab","abc"

浏览 8提问于2015-12-10得票数 8

回答已采纳

1回答

星火Rdd中的火花卡桑德拉台过滤器

scala、apache-spark、cassandra、rdd、spark-cassandra-connector

我必须过滤星星之火中的Cassandra表，在通过spark从表中获取数据之后，在返回的rdd上应用过滤器函数，我们不想使用cassandra中的where子句来过滤，但是这需要在过滤器列上自定义sasi索引，这会由于cassandra中的多个ss表扫描而产生磁盘开销问题。[com.datastax.spark.connecto

浏览 1提问于2020-08-25得票数 1

1回答

火花作业陷入局部模式

apache-spark

我正面临一个问题，我的火花工作被困在当地，而运行在IntelliJ的想法。我的工作一直持续到一个阶段，比如完成200个任务中的199个，或者完成3个任务中的一个，然后被困在那里。我试图在IDE中使用评估表达式查看正在发生的事情，并注意到了一个奇怪的问题。$18$1.invoke(FileToCompile.scala:66) 同时，如果我

浏览 1提问于2018-03-15得票数 1

2回答

在Scala中省略映射函数的输入数据

scala、apache-spark、scala-collections、scala-2.10

我正在学习星火源代码，并对以下代码感到困惑： * Return a new RDD containing the distinct elements in this RDD.defdistinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] =映射(x => (

浏览 1提问于2015-06-09得票数 0

回答已采纳

1回答

用花期滤光器还原

scala、apache-spark、bloom-filter

我想得到一个快速的近似集成员资格，基于一个字符串值函数应用于一个大型的字符串向量的星火RDD (~1B记录)。基本上，这样做的目的是将其简化为。然后，这个花蕾过滤器可以广播给工人，供他们进一步使用。更具体地说，我现在有f: Vector[String] => String val uniqueVals = rdd.map(f).distinc

浏览 1提问于2015-08-03得票数 4

回答已采纳

2回答

Java RDD与Scala RDD

scala、apache-spark

我在斯派克工作，一路走来接斯卡拉。我有一个关于RDD api以及如何实现各种基本RDD的问题。具体来说，我在火花壳中运行了以下代码：gspeech_path: String = /home，希望它们是基本org.apache.spark.rdd的</em

浏览 4提问于2016-01-29得票数 1

回答已采纳

2回答

在apache-spark scala中访问数组RDD的特定元素

scala、apache-spark、bigdata

我有一个包含键、值对数组的RDD。我想得到一个带key的元素(比如4)。scala> val a = sc.parallelize(List("dog","tiger","lion","cat","spider","eagle"),2) a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] a

浏览 15提问于2017-01-28得票数 1

回答已采纳

1回答

如何迭代记录spark scala？

scala、apache-spark、avro

当我这样做的时候我可以查到名字。问题是，我在"myrdd“中有10条记录。当我这样做的时候：它不工作，并且一次打印出一个奇怪的对象。如何遍历所有记录？

浏览 0提问于2015-10-09得票数 5

回答已采纳

1回答

如何将模拟调用与scala测试中的通配符匹配？

scala、testing、mockito

寻找这样的东西： //this won't work becausematch one instance Mockito when rawDataRDD.filter(*) thenReturn mockInfo我在scala test中<

浏览 2提问于2017-05-31得票数 1

回答已采纳

1回答

导入用户定义的模块在PySpark中失败

python、apache-spark、import、pyspark

并使用一个映射函数进行迭代。在map函数中，我访问以前为SQL定义的Api。 at java.lang.Thread.run(Thread.java:748) 它是在访问映射函数中<

浏览 7提问于2020-03-26得票数 1

回答已采纳

2回答

尝试插入Glue(s3)表格时使用PySpark - Emr- NullpointerException

apache-spark、pyspark、amazon-redshift、amazon-emr

我正在尝试插入到胶水目录表中，指向s3位置并读取Redshift。我得到了下面的错误，我可以直接写入s3而不会有任何问题。此问题是在尝试插入定义为拼接的拼花时出现的。在从redshift卸载数据并开始处理后的几分钟内就会出现这个问题。$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala</e

浏览 21提问于2019-12-09得票数 0

回答已采纳

2回答

在RDD中对双值进行火花排序，忽略NaNs。

scala、sorting、apache-spark、rdd

我希望对RDD中的双值进行排序，并且希望我的排序函数忽略Double.NaN值。我无法使用sortBy实现这一点。scala> res13.sortBy(r => r, ascending = true) res21: org.apache.spark.rdd.RDD[Double] = M

浏览 0提问于2018-11-15得票数 0

回答已采纳

1回答

星星之火:使用聚合函数计算RDD中特定字母的数量。

python、apache-spark、rdd

我正在使用Python在Apache中执行一个简单的任务。假设我有一个RDD： [('python', 1), ('spark', 1), ('context', 1), ('create', 1), ('scala', 1), ('parallel', 1)s‘在RDD中出现的次数。使用<

浏览 1提问于2018-06-23得票数 0

回答已采纳

2回答

收集具有列值列表的多个RDD* -星点*

scala、apache-spark、apache-spark-sql

我有一个RDD和一个值列表。如何根据值列表对它们进行筛选，并将它们作为单独的RDD收集？例如：如何传递一个值列表来收集列表中所有筛选的RDD？

浏览 0提问于2019-09-05得票数 0

回答已采纳

2回答

Apache Spark作业失败，返回FileNotFoundExceptoin

java、hadoop、apache-spark

我有一个由5个节点组成的spark集群，我有一个用Java语言编写的spark作业，它从一个目录中读取一组文件并将内容发送到Kafka。需要处理的文件存在于所有5个节点上挂载的目录中，因此我确信文件路径会出现在exception exists中。以下是提交作业时<

浏览 1提问于2016-11-01得票数 2

1回答

火花缭乱

apache-spark、transformation

._3.toInt > 500)) 或当我使用-每个语句时，我没有得到预期的输出，我希望输出是一行打印的，但不确定我的代码中有什么错误。

浏览 4提问于2016-10-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

任务不可序列化异常

在rdd中使用scala过滤器函数时出现的问题

关于Apache火花内部部件的问题- RDDs

Databricks ApacheSpark1.4:不可序列化的任务(Scala)

减少潜在的空RDD

星火Rdd中的火花卡桑德拉台过滤器

火花作业陷入局部模式

在Scala中省略映射函数的输入数据

用花期滤光器还原

Java RDD与Scala RDD

在apache-spark scala中访问数组RDD的特定元素

如何迭代记录spark scala？

如何将模拟调用与scala测试中的通配符匹配？

导入用户定义的模块在PySpark中失败

尝试插入Glue(s3)表格时使用PySpark - Emr- NullpointerException

在RDD中对双值进行火花排序，忽略NaNs。

星星之火:使用聚合函数计算RDD中特定字母的数量。

收集具有列值列表的多个RDD* -星点*

Apache Spark作业失败，返回FileNotFoundExceptoin

火花缭乱

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐