使用scala-native进行内存中数据处理

文章/答案/技术大牛

发布

2回答

scala-native

我想知道是否有可能利用scala-native来执行大型内存作业。例如，假设您有一个需要150‘t的spark作业，因此您必须在spark集群中运行5x30’t的执行程序，因为JVM垃圾收集器不会赶上更大的堆。想象一下，99%被处理的数据都是集合中的Strings。它是如何对待String的？在JVM中，经典的30 GC内存(“堆”)GC限制是多少？我最终也会有30 up这样的限制吗？

浏览 12提问于2016-09-05得票数 5

1回答

数据处理基准

database、benchmarking

我们使用ORM与Microsoft SQL Server数据库和Oracle数据库进行交互，我们进行了大量的记录处理和更新。我正在研究如何对我的数据处理( capabilities.Should )进行基准测试--这是时间还是数据处理？处理无效记录到有效记录所需的时间。(我猜是在代码中记录跟踪/计时器。)处理最大记录集所消耗的内存量(我如何做到这一点？)？欢迎任何建议或指导方针。

浏览 5提问于2010-01-27得票数 1

1回答

来自github PR (ScalaNative)的sbt scala插件失败，找不到值

git、scala、github、sbt、scala-native

如果我需要使用稳定发布版本，我的项目/plugins.sbt如下所示： addSbtPlugin("org.scala-native" % "sbt-scala-native" % "0.4.0")我正在尝试为我的项目使用特定版本的ScalaNative (准确地说是PR )。[info] loading project definition from /home/sadique/.sbt/1.0/staging/5c4ed83a

浏览 5提问于2021-06-28得票数 1

1回答

如何使用发电机与酮？

python-3.x、pipeline、kedro、generator-expression

多亏了，我非常喜欢使用生成器来进行数据处理，以使内存消耗降到最低。现在我正在做我的第一个kedro项目，我的问题是如何在kedro中使用生成器。当我有一个生成生成器的节点，然后使用kedro run --node=example_node运行它时，我会得到以下错误：can't pickle generator objects 在使用</

浏览 5提问于2022-08-23得票数 1

回答已采纳

1回答

在H2磁盘和内存数据库之间来回切换

java、h2

我想这样做的原因是，我有一些数据处理(从外部源加载，计算派生表和创建索引)，使用磁盘上的数据库需要很长时间，我希望通过在内存中进行来加速这一过程。

浏览 0提问于2014-09-13得票数 2

1回答

减少在python中处理大矩阵时的RAM过载

python、numpy、scipy、hdf5、pytables

我目前所在的实验室使用iPython Notebook和Python2.7进行数据处理。我们处理由285*384像素相机拍摄的照片，不同的参数根据我们搜索到observe.Therefore的内容而变化，我们需要处理大矩阵，随着数据处理的进行，矩阵分配的累积使得内存/交换空间被填满，因此我们不能再前进了当然，随着数据处理的深入，我们可以释放矩阵，但我们需要能够更改代码并查看旧计算的结果，而不必重新构建所有代码(计算有时非常长)。所有的结果实际上都依赖于之前的结

浏览 0提问于2014-07-01得票数 2

5回答

如何在Python中使用不适合内存的大数据集？

python、memory、data-structures、dictionary

我们使用一个包含大约4GB数据的dict进行数据处理。既方便又快捷。最好我不想使用外部服务，比如SQL数据库。我确实找到了，但它似乎也需要内存

浏览 5提问于2013-12-19得票数 6

回答已采纳

1回答

内存是如何管理的？

python、memory、memory-management

在Python中变量和内存是如何管理的？它有一个堆栈和一个堆吗?使用什么算法来管理内存？有了这些知识，对于大量数据处理的内存管理有什么建议吗？

浏览 1提问于2013-01-27得票数 109

回答已采纳

2回答

如何以更快的方式处理和组合列表中的data.frames

r、list、dataframe、dplyr、data.table

最后，我讨论了一个非常慢的数据处理和附加多个data.frames行的问题。我使用lapply和dplyr组合进行数据处理。由于每个数据帧中有20000行与目录中的100个文件相乘，进程变得非常慢。目前，这对我来说是一个巨大的瓶颈，因为即使在lapply进程完成之后，我也没有足够的内存来处理bind_rows进程。这是我的数据处理方法，files <- list.files("file_directory",pattern

浏览 1提问于2017-10-12得票数 2

回答已采纳

2回答

我可以在PHP进程之间共享内存中的一个大数组吗？

php、nlp、data-mining、text-extraction、n-gram

我使用PHP来做很多数据处理(意识到我可能正在进入我应该使用其他语言和/或技术的领域)。我正在使用一个PHP进程进行实体提取，该进程将一个包含ngram的数组加载到内存中查找。该数组使用3 3GB的内存，每次启动一个进程都需要大约20秒的加载时间。我在机器上本地生成它一次，每个进程从一个.json文件加载它。然后，每个进程对正在处理的文本进行标记化，并在这两个数组之间执行array_intersect以提

浏览 2提问于2014-09-06得票数 0

2回答

释放内存后，进程的RES内存会下降吗？

c++、c、linux、memory、dynamic-memory-allocation

我有一个进程，它不断地分配内存，并在另一个线程处理相关数据之后释放它。当数据处理速度慢时，我看到RES内存增长；但是在所有数据处理完之后，RES会下降，但不会返回到原来的RES值(即使在等待超过10分钟之后)。例如10 MB (原始) => 50 MB (峰值) => 30 MB(在释放所有数据之后) 我已经使用valgrind和massif来分析内存，看起来所有的数据都被释放了。

浏览 7提问于2017-11-27得票数 1

回答已采纳

1回答

内存中的原则ORM，PHP symfony

php、symfony、doctrine-orm、orm、out-of-memory

MAMP/htdocs/mediaff/vendor/symfony/symfony/src/Symfony/Component/Debug/ErrorHandler.php:613 我认为第二列是使用的内存

浏览 2提问于2017-06-23得票数 2

1回答

Heroku上的Resque优化

heroku、sinatra、resque

我在Heroku上使用Resque进行大量数据处理。我只用一个dyno就可以处理5个作业。我尝试在procfile中使用COUNT=5，但似乎不起作用。此外，ResqueRetry不会这样看待失败的作业... 有人知道怎么做吗？

浏览 1提问于2013-04-08得票数 1

1回答

Python中的生成器效率

python、pandas、generator

我理解Python中的生成器可以帮助读取和处理大型文件时，需要从文件中进行特定的转换或输出(例如读取特定的列或计算聚合)。但是，对于我来说，不清楚在Python中使用生成器是否有什么好处，因为它的唯一目的是读取整个文件。生成器是否仅用于读取整个数据而不进行任何数据处理？

浏览 2提问于2022-07-17得票数 2

回答已采纳

1回答

在双处理器系统中，单个线程可以访问的内存量是否有限制？

memory、hardware、central-processing-unit、numa

我想购买一个工作站进行数据处理，使用MATLAB。我在考虑戴尔的两个工作站之一。低端工作站(3500)在6个DIMM中具有一个单处理器和24 GB内存。高端(7500)将只允许我选择24 GB的内存(在12 DIMM)，如果我选择双处理器选项。两者之间的区别似乎是这是否意味着每个处理器获得12 GB内存，而处理器A上的线程不能看到

浏览 0提问于2010-11-29得票数 3

回答已采纳

1回答

Dask:将中间结果保存在磁盘上而不是内存中

python、pandas、dask

我正在构建一个数据处理管道。数据相当大:表示高频采样的传感器数据的数据帧。在管道过程中，我有一个中间结果，即对后续转换所需的数据进行转换。使用Dask，我发现中间转换必须在每个后续转换中重新计算。我知道.persist()，但是这会将结果保存在内存中，而由于数据的大小，这不是一种选择。

浏览 2提问于2022-06-28得票数 1

回答已采纳

1回答

当Spark从S3读取大文件时，数据是否可以分布到不同的节点

apache-spark、amazon-s3、rdd

假设我在S3上有一个很大的数据文件，想要将它加载到Spark集群中进行一些数据处理。当我使用sc.textFile(文件路径)将文件加载到RDD中时，我的集群中的每个节点是否会存储我的文件RDD的一部分并分布在节点上？或者整个数据文件将存储在一个节点中并在群集上复制？如果文件大小大于该节点的内存，该怎么办？谢谢!

浏览 13提问于2018-03-01得票数 1

回答已采纳

1回答

使用JSON使应用程序堆大小崩溃

java、arrays、json、out-of-memory

我使用了大量的JSON进行数据处理。最近在做这样的工作时，我遇到了一个奇怪的问题，最终在OEM中结束了(内存不足)。myInData = "[one,two,three,";如果您运行上面的代码，它将超过堆空间(如果应用程序在自动GC中运行

浏览 1提问于2015-02-09得票数 0

1回答

适用于AWS RDS的理想设置

amazon-web-services、amazon-ec2、amazon-rds

我有一个应用程序，它几乎不会消耗所分配的Amazon RDS实例的2-3%的CPU和内存。但周期性地，当我们进行数据处理时，它需要大量的CPU，我们需要为此增加实例大小，否则，它就会冻结。

浏览 17提问于2019-01-15得票数 0

回答已采纳

4回答

大量数据处理导致Java内存泄漏

java、mysql、memory

这些记录包含需要与包含超过700 k记录的另一个表(table_2)进行比较的信息。我已经用了几种方法：在此方法中，我将将数据导入数据库，而不需要从另一个表中进行任何处理。然而，当我想对收集到的数据运行一个报告时，它会崩溃，前提是内存泄漏(崩溃前总共使用了1GB)。这是我想要做的，但在实践中，结果似乎不太好。我正试图解决内存泄漏/应用程序崩溃的问题。我不是Java方面的专家

浏览 12提问于2011-10-15得票数 1

回答已采纳

点击加载更多