查找给定范围内的最大序列- Spark/Scala

文章/答案/技术大牛

发布

1回答

、、、

我正在用Scala练习Spark的问题，我有一个有列的足球排行表(teamname, lastgame, nextgame, dateoflastgame, dateofnextgame)。我正在尝试对数据进行查询，在那里我可以确定一支球队在不与同一支球队比赛两次的情况下可以跑的最长时间。例如，下一场比赛的run看起来像，MCU-BHA-LIV-WHU-TOT-MCU将是4场比赛的运行。我一直在使用spark sql并考虑查询next

浏览 19提问于2019-09-19得票数 2

回答已采纳

2回答

用NotSerializableException触发进度执行失败

、

下面是我用scala编写的火花程序，用来查找给定单词的字谜。但是当从测试用例执行程序时，程序会失败。$.clean(ClosureCleaner.scala:158) at org.apache.spark.SparkContext.clean(SparkContext.scala:1623) atorg.apache.spark.rdd.RDD.filter(RDD.scala:303) at Anagram.co

浏览 4提问于2016-02-20得票数 0

回答已采纳

1回答

Spark外壳-how以确定ID是否在文件中出现的次数最多

使用Spark Shell从文本文件中查找对电影提供了最大反馈的用户的userID1:2121:2122:125所以我想要显示给出最大反馈的用户ID1，我如何才能找到ID 1在文件中出现的最大次数？scala> val feedback = sc.textFile("/ratings.dat") scala<

浏览 0提问于2018-09-15得票数 0

2回答

Spark DataFrames中的argmax :如何检索具有最大值的行

、

给定一个Spark DataFrame df，我想在某个数值列'values'中找到最大值，并获得达到该值的行。我当然可以这样做：# since I hope I get this done with DataFramepandas.Series/DataFrame和numpy.array的argmax/idxmax方法可以有效地实现这一点(在

浏览 0提问于2016-08-07得票数 15

回答已采纳

2回答

使用Apache流实时向ElasticSearch发送Kafka消息

、、、、

大家早上好，import org.apache.kafka.clients.consumer.ConsumerConfig序列化期间的异常: java.io.NotSerializableException: Graph当DStream被序列化时意外地为null。全错误跟踪：线程“主”中的org.apache.spa

浏览 9提问于2020-04-21得票数 1

1回答

SPARK 1.6.1:在DataFrame上计算分类器时不可序列化的任务

、、

我正在使用齐柏林飞艇和星火1.6.1val loadedSVMModel = SVMModel.load(sc, pathToSvmModel) Caused by: java.io.NotSerializableException: org.apache.spark.sql.Colum

浏览 12提问于2016-05-13得票数 2

回答已采纳

1回答

火花与卡桑德拉并行处理

、

context to make the querysave it back to Cassandra})编辑的线程"main“中的异常:在org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureClean

浏览 4提问于2016-04-21得票数 0

1回答

火花参考表

Spark包含一个集合，每个元素代表一个请求。对于每个集合元素\请求，需要引用一个查找表。参考表的最大大小为200行。 Scala不变集合。

浏览 4提问于2016-01-28得票数 1

回答已采纳

3回答

、

我正在尝试对Cloudera的Spark (2.1.0)中的数据文件进行groupBy操作，该操作位于一个7节点集群上，内存总数约为512 of。我的代码如下。:377) at org.apache.spark.shuffle.sort.UnsafeShuffleWriter.write:96) at org.apa

浏览 0提问于2018-05-02得票数 2

1回答

用于Kryos/Java序列化程序的火花壳--conf选项

、、

我需要使用registerKryoClasses方法(如中提到的那样)使用自定义类启动shell。现在，正如在页面中提到的，我不能在启动spark之后重新创建sc变量，因此需要在启动spark命令时提供选项-conf。使用--conf的选项值应该是什么，以使其等效于以下更新： conf.registerKryoClasses(Array(classOf[ArrayBuffer[String]], classOf[ListBuffer

浏览 3提问于2017-06-06得票数 1

回答已采纳

1回答

在cassandra表中查询时，如何解决scala代码中的How outofmemory错误？

、、

, endDate)我的目标是获取给定日期范围内的所有行。因此，我应用了如下逻辑:首先从表中获取所有分区键，然后使用分区键列表获取日期范围内的所有记录。但是在这种情况下，我在执行scala代码的过程中得到了以下错误： ERROR 2016-02-11 13:05:54 org.apache.spark.util.Utils: Uncau

浏览 0提问于2016-02-12得票数 0

2回答

如何使用特定版本的scala安装特定版本的spark

、、

我在我的mac里运行spark 2.4.5。`/ __/ '_/ /_/ Using Scala version 2.11.12, OpenJDK注意，它使用的是scala版本的2.11.12。然而，我的应用程序正在使用2.12.8，这给我

浏览 0提问于2020-02-25得票数 0

1回答

地图错误&有星火的Eclipse中RDDs上的flatMap

、、

我的构建路径中有Scala2.10.5库&还包括以下jar: spark 1.4.1-hadoop2.6.0.jar0,1 0 01,0 1 02,0 0 1下面的代码给出了一个“宏尚未展开”错误。，有一篇文章说它与隐式类型有关，它将(或现在)用Scala 2.11修复，但是Spark在Scala</em

浏览 2提问于2015-07-28得票数 1

2回答

为什么使用编码器比java序列化快得多？

、、、

为什么使用编码器比java和kryo序列化快得多？

浏览 5提问于2018-05-05得票数 1

回答已采纳

点击加载更多