如何在Apache Spark中实现递归算法？_如何用c实现快速排序算法中的递归？_尝试在Apache Spark中实现分类模型的predictRaw() - 腾讯云开发者社区

apache-spark、bigdata、apache-flink、data-pipeline

我有一个问题，我想在Spark中实现一个递归算法，并希望了解是否有任何建议可以在Spark中构建它，或者探索其他可能更适合的数据分析框架。例如：作业需要递归地列出目录结构/树，并处理节点，结合map/reduce模式将路径或文件组映射到派生数据中，递归地对这些派生数据进行分组/合并。我正在尝试以一种可以利用整个算法并行化的方式来做这件事。构建一个在单个节点上运行的解决方

浏览 37提问于2021-06-24得票数 0

1回答

用于实时分析的Apache火花(MLLib)

machine-learning、cassandra、apache-spark

我有几个与使用Java进行实时分析的Apache有关的问题。当Spark应用程序提交时，存储在Cassandra数据库中的数据将通过机器学习算法(支持向量机)加载和处理。当新的数据到达时，在Spark的流扩展过程中，它们被持久化在数据库中，对现有的数据集进行重新训练，并执行支持向量机算法。此进程的输出也存储在数据库中。Apache的MLLib提供了线性支持向量机的实现。如果我想要一个非线性支持向量机

浏览 0提问于2014-06-24得票数 7

0回答

如何实现HDRF算法？

scala、apache-spark、spark-graphx

我需要在Scala中使用Apache Spark Graphx实现HDRF:幂律图算法的基于流的分区，我有以下数据集- 1 3 2 4 3 4如何实现该算法？然而，现在我已经能够加载这个图，但是我不知道如何在hdrf中进行分区。我尝试在graphx的partitionStrategy类中实现该算法，但结果很差

浏览 9提问于2017-11-30得票数 1

1回答

如何使用粒子群算法和DE算法获得软岛模型的代码？

scala、apache-spark

我必须为基于种群的优化算法(PSO和DE)实现软岛模型。如何在Apache spark中编码好心帮助..？

浏览 1提问于2019-08-28得票数 0

1回答

apache火花理解密集向量

vector、apache-spark

在每个向量中只有3个元素的情况下，定义稠密向量有什么帮助。为什么我们不能把它们当作向量呢？

浏览 2提问于2016-04-10得票数 0

回答已采纳

1回答

sparkML和systemML有什么不同？

apache-spark、systemml

spark ML和system ML有什么区别？IBM上的apache spark engine中的system ml和spark ml都解决了问题，想知道主要区别是什么吗？

浏览 44提问于2020-04-21得票数 1

2回答

是否可以使用Apache Spark RDD进行递归计算？

scala、apache-spark、recursion、rdd、chess

我正在使用Scala和Apache Spark开发国际象棋引擎(我需要强调的是，我的理智不是这个问题的主题)。我的问题是Negamax算法本质上是递归的，当我尝试朴素的方法时： nms.negaMaxSpark(game, game.colorToMove, maxDepth)._1}org.<e

浏览 3提问于2015-06-17得票数 5

3回答

Apache如何在Hadoop MapReduce上实现100倍的加速，以及在什么情况下？

hadoop、apache-spark、bigdata、distributed-computing

Apache 声称在内存中比Apache快100倍。它是如何实现这种惊人的加速的呢？这种加速比只适用于迭代机器学习算法，也适用于ETL (提取-转换-负载)任务，如联接和GROUPBY？Spark的RDDs (弹性分布式数据集)和DataFrames都能提供这种加速吗？对于上述一些场景，星火社区是否获得了任何基准测试结果？

浏览 2提问于2015-12-05得票数 1

2回答

apache mahout ALS能在没有hadoop的情况下工作吗？

windows、hadoop、mahout

java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.Shell.run(Shell.java:418) at org.apache.hadoop.util.Shell$ShellCommandExecutor.ex

浏览 2提问于2018-10-23得票数 5

2回答

在Spark* Scala中实现隔离森林*

scala、apache-spark

我正在尝试使用Spark Scala Maven项目实现隔离森林算法。它在这个链接上进行了解释：。我的问题是:当我尝试实现建议的代码时，我收集了这个错误：object iforest is not a member of package org.apache.spark.ml，我尝试import org.apache.spark.ml，并将Spark-core依赖项也更改为Vesrion2.2.0。<dependency>

浏览 72提问于2018-06-19得票数 2

1回答

SparkR中的RandomForest算法？

r、sparkr

我已经在R中实现了randomForest算法，并尝试使用sparkR (来自Apache Spark 2.0.0)实现相同的算法。但是我发现在sparkR 中只有像glm()实现这样的线性模型函数请告诉我，SparkR(2.0.0)是否支持Rando

浏览 4提问于2016-08-30得票数 1

3回答

如何在apache* spark中执行词干分析？*

java、apache-spark、machine-learning、nlp

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

1回答

在这种情况下，火花是如何内部工作的？

java、multithreading、apache-spark

我有一个带有四核的单机processor.Here是我的理解火花如何在这里实现并行根据步骤2中的分区大小，它将生成线程。如果有3个分区，它将生成三个线程。

浏览 3提问于2017-06-13得票数 0

1回答

Apache Spark - Map Reduce调试技巧

apache-spark、bigdata、apache-kafka

我正在尝试实现Kafka - Spark环境。我正在尝试调试我的MapReduce逻辑(用Java语言实现)。Spark提交步骤使我的算法中的断点调试变得复杂。传入的实时数据模式很复杂。模拟复杂的算法将是一个非常耗时的过程。更好的开发环境将帮助开发人员在实时流数据上验证他们的map reduce逻辑。请给我一些建议和窍门。有没有可能使用IDE断点，或者使用Apache-Spark进行远程调试。

浏览 1提问于2015-05-31得票数 1

1回答

Apache Spark -实现分布式QuadTree

scala、apache-spark、data-structures、pyspark、distributed

我真的，真的，不熟悉Apache Spark。类似于我需要的东西可以在Geospark中找到。在实践中，我仍然无法弄清楚这一点。例如

浏览 1提问于2018-11-09得票数 2

1回答

在Apache* Spark中使用分类和数字特征对数据进行聚类*

scala、apache-spark、apache-spark-mllib

我目前正在寻找Apache Spark (Scala/Java)中的一种算法，该算法能够对具有数字和分类特征的数据进行聚类。据我所知，有一个k-medoids和k-prototypes for pyspark ()的实现，但我无法确定与我目前正在使用的Scala/Java版本类似的实现。对于运行Scala的Spark，有没有其他推荐的算法来实现类似的事情？或者我忽略了什么，实际上可以在我的Scal

浏览 3提问于2017-08-04得票数 1

1回答

我们如何看待同一个函数的不同实现

scala、apache-spark

我想了解如何在Scala中实现相同方法。def createDataFrame(rowRDD: org.apache.spark.api.java.JavaRDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType: org.apache.spark.sql.types.StructType): org.<e

浏览 0提问于2020-07-19得票数 0

回答已采纳

2回答

使用apache* spark mllib库的术语文档矩阵*

apache-spark

提前感谢..我需要使用apache spark创建一个术语文档矩阵...谁能告诉我怎样才能用spark.Also的java mllib库实现亲和传播算法。

浏览 1提问于2015-04-06得票数 1

1回答

Apache差/减运算

apache-flink

我目前正在尝试在Apache Spark和Apache Flink中实现一些算法。在执行算法时，我必须做一些设置差/减的操作。虽然Apache Spark有一个内置的快照操作，但我在Apache Flink (1.0.3和1.1.0- subtract )中找不到类似的操作。也许有一些方法可以通过coGroup来实现 val d_diff = d1.coGroup(d2)

浏览 14提问于2016-08-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云