Scala中算法的内存使用

文章/答案/技术大牛

发布

1回答

scala、memory

我正在使用Scala，并且我需要监控在我的应用程序中执行的算法(一个Spark MLlib模型)所使用的内存。如果我使用Java Runtime class (runtime.totalMemory() - runtime.freeMemory())，我将获得JVM中所有应用程序所使用的内存，而我只对调用model.fit(data)所使用<em

浏览 29提问于2020-10-06得票数 0

1回答

在内存中持久化在Spark中不起作用

apache-spark、persist

我正在尝试Spark中的持久化特性来持久化内存中的数据并对其进行计算。我的假设是，将数据存储在内存中会使迭代算法的计算速度更快，例如MLlib中的K均值聚类。val parsedData3 = data3.map( _.split('\t').map(_.toDouble))对持久化的调

浏览 1提问于2014-07-17得票数 7

回答已采纳

2回答

星火Scala替代机器学习库？

time-series、apache-spark、multiclass-classification、scala

我使用Spark进行多类分类，并且特性是连续的。对于这类分类，MLlib似乎仅限于决策树和随机森林--对于Na、多项式和Bernoulli，我需要使用高斯，而LogisticRegressionWithLBFGS也不合适。我知道在Python中，您可以将sci学习与Spark集成在一起，但是在使用Scala时有什么选择吗？想听听人们对此的想法。

浏览 0提问于2016-05-27得票数 2

1回答

删除PriorityQueue中值小于x的所有项目

scala、priority-queue、a-star

有没有办法删除scala优先级队列中所有值小于指定值的项？例如：queue.enqueue(3)queue.enqueue(10)queue.removeAllLessThan(6)我知道你可以使用过滤器来做这件事，但是似乎有一种在堆上做

浏览 2提问于2016-06-10得票数 2

2回答

对于图的并行处理，比如最短路径计算，Scala的性能会优于C++吗？如果不是，它会慢多少(我假设Scala并发比C++“更容易”编写，因为C++没有对这类东西的标准支持) 我现在正在考虑学习Scala，这既是为了学习一门新的语言，也是因为它似乎有很好的并发支持。一旦我完成了，我正在考虑写一个分布式图形库来练习Scala，供我自己使用，但是如果C++要更快，并且当性能是一个问题时，更容易编写代码的好处

浏览 0提问于2011-12-07得票数 3

回答已采纳

2回答

如何将订单传递给scala.util.Sorting.quickSort

scala

我试图用以下代码将反向排序传递给scala.util.Sorting.quickSort：scala.util.Sorting.quickSort(a)(Ordering.Int.reverse) val a = Array(3, 5, 1, 2) a.sorted(Ordering.Int.reverse我正在运行Scala2.12.7。

浏览 0提问于2018-10-25得票数 3

回答已采纳

1回答

我可以使用哪些工具对scala代码进行基准测试？

scala、functional-programming、jvm、benchmarking

我正在做一个项目，我需要分析函数式编程和命令式编程之间的差异。我之所以使用Scala，是因为它是一种多范式语言，这是一个公平的比较。使用具有前端的语言在gcc上，pin和perf(硬件)是进行这些比较的合适工具，但现在在Scala上，我找不到替代品。我对只观察算法运行时间的微基准测试不感兴趣。由于它是conway的生命游戏实现，因此需要进行大量的内存访问等等。我

浏览 1提问于2019-05-17得票数 3

2回答

Scala的变音素或Soundex

scala、text-comparison

我发现Apache在Java中实现了Soundex和Metaphone，但如果可能的话，我更愿意保留我在Scala中使用的文本比较库。谷歌搜索在Scala中找不到任何有用的算法。最坏的情况下，我可以将这些算法转换成Scala，但这并不理想。

浏览 5提问于2012-11-11得票数 3

回答已采纳

3回答

在Scala中产生OutOfMemoryError的原因是什么？

java、scala、out-of-memory、heap-memory

我刚刚开始学习Scala，它来自Python。我试图在Scala中执行一个基本的文件处理任务。任务是使用regex从数据文件中删除像"[ ... ]"这样的子字符串。发生错误的数据文件大约为70 my，我有16 at的RAM可供使用。(前6个文件的文件大小为<100 as，第一个文件为例外: 5.5MB)。我的问题是：是什么导致了 OutOfMemoryE

浏览 5提问于2016-11-03得票数 2

回答已采纳

1回答

在Apache Spark中使用分类和数字特征对数据进行聚类

scala、apache-spark、apache-spark-mllib

我目前正在寻找Apache Spark (Scala/Java)中的一种算法，该算法能够对具有数字和分类特征的数据进行聚类。据我所知，有一个k-medoids和k-prototypes for pyspark ()的实现，但我无法确定与我目前正在使用的Scala/Java版本类似的实现。对于运行Scala的Spark，有没有其他推荐的算

浏览 3提问于2017-08-04得票数 1

1回答

使用spark和scala进行文本提取

scala、apache-spark、spark-streaming、text-extraction

我在scala中有一个文本提取算法，我想在它上面使用spark。我不能理解如何使用它，因为我对spark和scala都是新手，我的算法是这样的 val algoobejct = new ObjectExtract有人能告诉我如何使用spark来实现吗？我的算法是scala，所以我将只使用scala

浏览 0提问于2017-03-19得票数 0

2回答

何时使用/Dataset API以及何时使用普通RDD？

apache-spark、apache-spark-sql、apache-spark-dataset

/Dataset执行引擎有几个非常高效的时间和空间优化(例如，InternalRow和expression )。根据许多文档，对于大多数分布式算法，它似乎是一个比RDD更好的选择。毫无疑问，InternalRow更紧凑，可以节省大量内存。但是，算法的执行可能不会更快地保存预定义表达式。也就是说，在org.apache.spark.sql.catalyst.expressions.ScalaUDF的源代码中，每个用户定义的函数

浏览 2提问于2016-05-30得票数 10

1回答

大型稀疏矩阵，带spark的svd，python

apache-spark、svd

我想分析spark上的数据。我需要svd矩阵来实现推荐算法使用python或scala，如果python不工作。但数据很大，而且很稀疏。如何处理它？

浏览 4提问于2014-08-17得票数 5

1回答

Scala ParRange内存消耗

scala

我尝试用range实现迭代算法。它工作得很好，所以我尝试使用par方法使其并行，并抛出java.lang.OutOfMemoryError: Java堆空间。我发现ParRange在构造函数中分配了大量内存。这是ParRange的正确行为吗？我希望它的行为与范围相似，只有在需要时才分配数据。你可以很容易地复制它： scala> collection.parallel.immutable.ParRange(1, 50000000, 1, true) java.lang.OutOf

浏览 2提问于2016-08-12得票数 1

回答已采纳

1回答

查询大量csv文件的工具

c++、hive、amazon-redshift、distributed-computing、bigdata

我们有大量的csv文件，文件/目录按日期和其他几个因素进行分区。例如，可以将文件命名为/data/AAA/date/BBB.csv 有数千个文件，其中一些大小在GB范围内。总数据大小以in为单位。它们只会被追加，而且通常是批量的，所以写性能并不那么重要。我们不想将其加载到另一个系统中，因为我们运行的几个重要进程依赖于能够快速流式传输文件，这些文件是用c++编写的。我正在寻找的工具/库，将允许sql类似查询的数据

浏览 0提问于2016-01-14得票数 0

1回答

spark executor丢失故障

scala、apache-spark、out-of-memory、executor

我正在使用databricks spark集群(AWS)，并在我的scala实验上进行测试。在使用LogisticRegressionWithLBFGS算法训练10 GB数据时，我遇到了一些问题。我遇到这个问题的代码块如下：val algorithmLogisticRegressionWithLBFGS() algorithm.run(tra

浏览 1提问于2015-04-11得票数 13

1回答

Spark建议

apache-spark、apache-spark-mllib

我拥有大约1000万用户和300万产品的大约2亿收视率。我有一个小集群，有48个核心和120 48的集群内存。我的代码非常类似于示例代码spark/examples/src/main/scala/org/apache/spark/examples/mllib/MovieLensALS.scala代码。我有几个问题：模型训练的所有步骤都跑得相当快。模型训练低于10分钟，级

浏览 1提问于2017-06-01得票数 1

1回答

Scala并行子集调用

scala、parallel-processing、set

我试着使列表'l‘本身并行，但是列表上的toSet调用返回没有子集调用的parSeq。我必须写我自己的子集算法吗？感谢你的帮助。

浏览 1提问于2016-10-06得票数 0

回答已采纳

3回答

大数模算法的编程语言

implementation、modular-arithmetic、factoring

我试图在整数factorization.This上实现算法，包括处理200-500位整数，并在them.Which编程语言上执行模块化算法，内置了对大数的支持吗? C++支持大数算法吗？

浏览 0提问于2015-01-14得票数 1

4回答

最适合计算和内存开销较大的算法的语言

algorithm、data-structures、programming-languages、np

假设您必须实现一个工具来有效地解决NP-hard问题，并且不可避免地会出现内存使用量的爆炸式增长(在某些情况下，输出大小与输入大小成指数关系)，并且您特别关注此工具在运行时的性能。一旦知道了基本理论，源代码也必须是可读和可理解的，这一要求与工具本身的效率一样重要。我个人认为有三种语言可以满足这三个需求: c++，scala，java。C++具有静态编译和优化的优势，并且使用函数内联(如果仔细设计数据结构和算法)和其

浏览 0提问于2011-04-11得票数 4

点击加载更多