腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
scala-native
进行
内存
中
数据处理
scala-native
我想知道是否有可能利用
scala-native
来执行大型
内存
作业。例如,假设您有一个需要150‘t的spark作业,因此您必须在spark集群
中
运行5x30’t的执行程序,因为JVM垃圾收集器不会赶上更大的堆。想象一下,99%被处理的数据都是集合
中
的Strings。它是如何对待String的?在JVM
中
,经典的30 GC
内存
(“堆”)GC限制是多少?我最终也会有30 up这样的限制吗?
浏览 12
提问于2016-09-05
得票数 5
1
回答
数据处理
基准
database
、
benchmarking
我们
使用
ORM与Microsoft SQL Server数据库和Oracle数据库
进行
交互,我们
进行
了大量的记录处理和更新。我正在研究如何对我的
数据处理
( capabilities.Should )
进行
基准测试--这是时间还是
数据处理
?处理无效记录到有效记录所需的时间。(我猜是在代码
中
记录跟踪/计时器。)处理最大记录集所消耗的
内存
量(我如何做到这一点?)? 欢迎任何建议或指导方针。
浏览 5
提问于2010-01-27
得票数 1
1
回答
来自github PR (ScalaNative)的sbt scala插件失败,找不到值
git
、
scala
、
github
、
sbt
、
scala-native
如果我需要
使用
稳定发布版本,我的项目/plugins.sbt如下所示: addSbtPlugin("org.scala-native" % "sbt-scala-native" % "0.4.0")我正在尝试为我的项目
使用
特定版本的ScalaNative (准确地说是PR )。[info] loading project definition from /home/sadique/.sbt/1.0/staging/5c4ed83a
浏览 5
提问于2021-06-28
得票数 1
1
回答
如何
使用
发电机与酮?
python-3.x
、
pipeline
、
kedro
、
generator-expression
多亏了,我非常喜欢
使用
生成器来
进行
数据处理
,以使
内存
消耗降到最低。现在我正在做我的第一个kedro项目,我的问题是如何在kedro中
使用
生成器。当我有一个生成生成器的节点,然后
使用
kedro run --node=example_node运行它时,我会得到以下错误:can't pickle generator objects 在
使用</
浏览 5
提问于2022-08-23
得票数 1
回答已采纳
1
回答
在H2磁盘和
内存
数据库之间来回切换
java
、
h2
我想这样做的原因是,我有一些
数据处理
(从外部源加载,计算派生表和创建索引),
使用
磁盘上的数据库需要很长时间,我希望通过在
内存
中
进行
来加速这一过程。
浏览 0
提问于2014-09-13
得票数 2
1
回答
减少在python
中
处理大矩阵时的RAM过载
python
、
numpy
、
scipy
、
hdf5
、
pytables
我目前所在的实验室
使用
iPython Notebook和Python2.7
进行
数据处理
。我们处理由285*384像素相机拍摄的照片,不同的参数根据我们搜索到observe.Therefore的内容而变化,我们需要处理大矩阵,随着
数据处理
的
进行
,矩阵分配的累积使得
内存
/交换空间被填满,因此我们不能再前进了当然,随着
数据处理
的深入,我们可以释放矩阵,但我们需要能够更改代码并查看旧计算的结果,而不必重新构建所有代码(计算有时非常长)。所有的结果实际上都依赖于之前的结
浏览 0
提问于2014-07-01
得票数 2
5
回答
如何在Python中
使用
不适合
内存
的大数据集?
python
、
memory
、
data-structures
、
dictionary
我们
使用
一个包含大约4GB数据的dict
进行
数据处理
。既方便又快捷。最好我不想
使用
外部服务,比如SQL数据库。我确实找到了,但它似乎也需要
内存
浏览 5
提问于2013-12-19
得票数 6
回答已采纳
1
回答
内存
是如何管理的?
python
、
memory
、
memory-management
在Python
中
变量和
内存
是如何管理的?它有一个堆栈和一个堆吗?
使用
什么算法来管理
内存
?有了这些知识,对于大量
数据处理
的
内存
管理有什么建议吗?
浏览 1
提问于2013-01-27
得票数 109
回答已采纳
2
回答
如何以更快的方式处理和组合列表
中
的data.frames
r
、
list
、
dataframe
、
dplyr
、
data.table
最后,我讨论了一个非常慢的
数据处理
和附加多个data.frames行的问题。我
使用
lapply和dplyr组合
进行
数据处理
。由于每个数据帧中有20000行与目录
中
的100个文件相乘,进程变得非常慢。目前,这对我来说是一个巨大的瓶颈,因为即使在lapply进程完成之后,我也没有足够的
内存
来处理bind_rows进程。这是我的
数据处理
方法,files <- list.files("file_directory",pattern
浏览 1
提问于2017-10-12
得票数 2
回答已采纳
2
回答
我可以在PHP进程之间共享
内存
中
的一个大数组吗?
php
、
nlp
、
data-mining
、
text-extraction
、
n-gram
我
使用
PHP来做很多
数据处理
(意识到我可能正在进入我应该
使用
其他语言和/或技术的领域)。 我正在
使用
一个PHP进程
进行
实体提取,该进程将一个包含ngram的数组加载到
内存
中
查找。该数组
使用
3 3GB的
内存
,每次启动一个进程都需要大约20秒的加载时间。我在机器上本地生成它一次,每个进程从一个.json文件加载它。然后,每个进程对正在处理的文本
进行
标记化,并在这两个数组之间执行array_intersect以提
浏览 2
提问于2014-09-06
得票数 0
2
回答
释放
内存
后,进程的RES
内存
会下降吗?
c++
、
c
、
linux
、
memory
、
dynamic-memory-allocation
我有一个进程,它不断地分配
内存
,并在另一个线程处理相关数据之后释放它。当
数据处理
速度慢时,我看到RES
内存
增长;但是在所有
数据处理
完之后,RES会下降,但不会返回到原来的RES值(即使在等待超过10分钟之后)。例如10 MB (原始) => 50 MB (峰值) => 30 MB(在释放所有数据之后) 我已经
使用
valgrind和massif来分析
内存
,看起来所有的数据都被释放了。
浏览 7
提问于2017-11-27
得票数 1
回答已采纳
1
回答
内存
中
的原则ORM,PHP symfony
php
、
symfony
、
doctrine-orm
、
orm
、
out-of-memory
MAMP/htdocs/mediaff/vendor/symfony/symfony/src/Symfony/Component/Debug/ErrorHandler.php:613 我认为第二列是
使用
的
内存
浏览 2
提问于2017-06-23
得票数 2
1
回答
Heroku上的Resque优化
heroku
、
sinatra
、
resque
我在Heroku上
使用
Resque
进行
大量
数据处理
。我只用一个dyno就可以处理5个作业。我尝试在procfile中
使用
COUNT=5,但似乎不起作用。此外,ResqueRetry不会这样看待失败的作业... 有人知道怎么做吗?
浏览 1
提问于2013-04-08
得票数 1
1
回答
Python
中
的生成器效率
python
、
pandas
、
generator
我理解Python
中
的生成器可以帮助读取和处理大型文件时,需要从文件中
进行
特定的转换或输出(例如读取特定的列或计算聚合)。但是,对于我来说,不清楚在Python中
使用
生成器是否有什么好处,因为它的唯一目的是读取整个文件。生成器是否仅用于读取整个数据而不
进行
任何
数据处理
?
浏览 2
提问于2022-07-17
得票数 2
回答已采纳
1
回答
在双处理器系统
中
,单个线程可以访问的
内存
量是否有限制?
memory
、
hardware
、
central-processing-unit
、
numa
我想购买一个工作站
进行
数据处理
,
使用
MATLAB。我在考虑戴尔的两个工作站之一。低端工作站(3500)在6个DIMM
中
具有一个单处理器和24 GB
内存
。高端(7500)将只允许我选择24 GB的
内存
(在12 DIMM),如果我选择双处理器选项。两者之间的区别似乎是这是否意味着每个处理器获得12 GB
内存
,而处理器A上的线程不能看到
浏览 0
提问于2010-11-29
得票数 3
回答已采纳
1
回答
Dask:将中间结果保存在磁盘上而不是
内存
中
python
、
pandas
、
dask
我正在构建一个
数据处理
管道。数据相当大:表示高频采样的传感器数据的数据帧。在管道过程
中
,我有一个中间结果,即对后续转换所需的数据
进行
转换。
使用
Dask,我发现中间转换必须在每个后续转换
中
重新计算。我知道.persist(),但是这会将结果保存在
内存
中
,而由于数据的大小,这不是一种选择。
浏览 2
提问于2022-06-28
得票数 1
回答已采纳
1
回答
当Spark从S3读取大文件时,数据是否可以分布到不同的节点
apache-spark
、
amazon-s3
、
rdd
假设我在S3上有一个很大的数据文件,想要将它加载到Spark集群中
进行
一些
数据处理
。当我
使用
sc.textFile(文件路径)将文件加载到RDD
中
时,我的集群
中
的每个节点是否会存储我的文件RDD的一部分并分布在节点上?或者整个数据文件将存储在一个节点中并在群集上复制?如果文件大小大于该节点的
内存
,该怎么办? 谢谢!
浏览 13
提问于2018-03-01
得票数 1
回答已采纳
1
回答
使用
JSON使应用程序堆大小崩溃
java
、
arrays
、
json
、
out-of-memory
我
使用
了大量的JSON
进行
数据处理
。最近在做这样的工作时,我遇到了一个奇怪的问题,最终在OEM
中
结束了(
内存
不足)。myInData = "[one,two,three,";如果您运行上面的代码,它将超过堆空间(如果应用程序在自动GC
中
运行
浏览 1
提问于2015-02-09
得票数 0
1
回答
适用于AWS RDS的理想设置
amazon-web-services
、
amazon-ec2
、
amazon-rds
我有一个应用程序,它几乎不会消耗所分配的Amazon RDS实例的2-3%的CPU和
内存
。 但周期性地,当我们
进行
数据处理
时,它需要大量的CPU,我们需要为此增加实例大小,否则,它就会冻结。
浏览 17
提问于2019-01-15
得票数 0
回答已采纳
4
回答
大量
数据处理
导致Java
内存
泄漏
java
、
mysql
、
memory
这些记录包含需要与包含超过700 k记录的另一个表(table_2)
进行
比较的信息。我已经用了几种方法:在此方法
中
,我将将数据导入数据库,而不需要从另一个表中
进行
任何处理。然而,当我想对收集到的数据运行一个报告时,它会崩溃,前提是
内存
泄漏(崩溃前总共
使用
了1GB)。这是我想要做的,但在实践
中
,结果似乎不太好。我正试图解决
内存
泄漏/应用程序崩溃的问题。我不是Java方面的专家
浏览 12
提问于2011-10-15
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券