对包含300列(6 GB )的大型数据集运行coxph模型，并将其放入H2o苏打水中

文章/答案/技术大牛

发布

2回答

h2o、sparkling-water

我们正在尝试使用h2o运行coxph模型，对于具有6 GB和300列的大型数据集，无论我们对spark采用什么配置，我们都会遇到内存问题。根据h2o，我们应该只有4倍的数据大小更大的集群，但我们甚至128 As的4个工作节点和128个主节点。但它仍然引发了一些问题。请帮助我们选择使用当前数据

浏览 13提问于2019-11-28得票数 0

2回答

分层cox模型的拟合

r、survival-analysis、cox-regression

我有一个分层的考克斯模型，并希望预测的生存曲线，为特定的轮廓，基于该模型。现在，因为我使用的是一个包含很多层的大型数据集，所以我只想对非常具体的阶层进行预测，以节省时间和内存。survfit.coxph的帮助页声明：.如果新数据包含地层变量，则根据原始模型

浏览 3提问于2021-04-23得票数 3

1回答

为什么h2o.saveModel挂在R v3.3.2和H2O v3.10.4.2中？

r、linux、h2o

', force = TRUE ) 当我的程序挂在h2o.saveModel上时，我启动了另一个R/H2O会话，并连接到当前挂起的进程。我能成功地得到模型。我可以成功地运行h2o.saveModelDetails并将其保存为JSON。我可以把它保存成魔法。但是，我不能通过h2o.saveModel将其保存为本地的“十六进制”模型。要说清楚的是，我不是装旧的。相反

浏览 3提问于2017-04-02得票数 1

1回答

H2O:无法通过`h2o.loadModel`从磁盘读取大模型

r、linux、h2o

于2017年6月28日更新如下：@Michal . gbm <- h2o.getModel(basen

浏览 1提问于2017-06-24得票数 0

回答已采纳

2回答

水-R异常检测模型的建立

r、h2o

我试图运行H2O在R (h2o_3.14.0.2)中的异常检测。首先，我尝试使用我的主要深度学习模型，并得到了错误： [1] "water.exceptions.H2OIllegalArgumentException好吧，我的错。autoencoder = TRUE)嗯，最后两个要求看起来是相互排斥的。失败的断言是a

浏览 3提问于2017-09-15得票数 1

回答已采纳

1回答

H2O叠加集合预报ArrayIndexOutOfBoundsException

r、h2o、glm

因此，模型集只包含默认情况下AutoML生成的基本模型(GLM、GBM、XGBoost、DeepLearning和DRF)。我将模型导出为一个MOJO，关闭了H2O集群，重新启动了R，初始化了一个新的H2O集群，导入了堆叠的集成MOJO，并在一个新的验证集上成功地生成了预测。到目前一切尚好。该模型似乎没有问题，并且(正如我前面所描述的)能够将它

浏览 3提问于2022-01-05得票数 1

回答已采纳

2回答

用h2o在R中聚合最大

r、dplyr、h2o

我已经开始使用h2o来聚合大型数据集，当我试图使用H2O的h2o.group_by函数聚合最大值时，我发现了一些奇怪的行为。我的dataframe通常有一些变量，这些变量包含给定分组的部分或全部NA。165 5 16 16 1.6 e 1 16 我不知道为什么像对特定组

浏览 7提问于2022-05-16得票数 0

回答已采纳

1回答

是否应该将经常访问的包含具有一对一关系的大块的表标准化，并将列拆分为两个表？

mysql、performance、blob

我有一个经常访问的表，其中包含3列blobs，4列额外数据，这些数据不是在查询中使用，而是作为结果发送给PHP。在WHERE/ORDER /GROUP中的查询中使用了6个小列(大int、小int、微int、中int )。把这张大桌子分成两半会是个好办法吗？一个<em

浏览 0提问于2014-01-15得票数 2

回答已采纳

3回答

R h2o以MOJO或POJO格式从磁盘加载保存的模型。

r、io、h2o

我正在追赶h2o的MOJO和POJO模型格式。tmp") # ok它将名为mymodel.zip或mymodel.java的对象写入目录mymodel.java") # not work saved_model3 <- h2o.loadModel("/media/somewhere/tm

浏览 4提问于2017-07-26得票数 8

回答已采纳

3回答

在H2o中计算MAPE :错误:提供的列类型POSIXct未知

python、r、loops、prediction、h2o

以下是我回答的问题：H2o中的数据维度不同。Non-H2o“预测验证，并计算每天的MAPE。我试图将H2o预测模型转换为正常格式，但根据：，这是不可能的。x=x, training_frame = train_h2o, ntrees = 2000, mtries = 3

浏览 39提问于2018-08-21得票数 8

回答已采纳

1回答

H2o交叉验证不对应于单列/测试

python、machine-learning、random-forest、h2o

我试图了解在H2o中交叉验证是如何工作的，当指定了传递'fold_column‘参数的折叠时。图书馆说： fold_column选项指定数据集中的列，该列包含每个观察的交叉验证折叠索引分配。我假设在每次交叉验证迭代中，使用带有fold_column =i的行作为测试集，其余的行用作列车集。但是，如果我用这些分裂来分别训练和测试模型，就会得到不同的性能结

浏览 2提问于2020-07-28得票数 1

2回答

Java中基于文件的大数据集归并排序

java、sorting、large-data

考虑到内存无法容纳的大型数据集，在Java中有没有可以执行排序的库或api？其实现可能类似于linux实用程序排序。

浏览 3提问于2011-06-11得票数 11

回答已采纳

4回答

在R中处理非常大的数据集

我正在处理一个从Oracle数据库下载的非常大的数据集。数据帧大约有2100万行和15列。我的操作系统是windows xp (32位)，我有2 2GB的RAM。短期内，我不能升级我的RAM或操作系统(它正在工作，我需要几个月的时间才能得到一台像样的pc)。我发现了一些关于使用ff包的建议。如果任何熟悉ff包的人能告诉我它对我的情况是否有帮助，我

浏览 0提问于2012-11-02得票数 2

回答已采纳

5回答

在非超级计算机上处理大量数据的一般技术

python、database、machine-learning、data-analysis、kaggle

我正在上一些AI课程，并且已经学习了一些我想要实验的基本算法。我通过主办数据分析比赛的访问了几个包含大量真实数据的数据集。我已经尝试参加了几个比赛来提高我的机器学习技能，但一直无法找到访问我代码中的数据的好方法。Kaggle以csv格式为每个比赛提供一个50-200mb的大型数据文件。在我的代码中加载和使用这些

浏览 2提问于2011-08-19得票数 14

回答已采纳

1回答

从TFS克隆的git存储库中删除大型文件

git、tfs、git-clone、github-enterprise、git-tfs

当它完成时，我的目录结构为~45 GB，其中包含一个~6 GB的.git存储库子结构。当我试图将此推送给我们的代理时，我会发现有关大型文件的错误，因为该机构没有启用大型文件存储的功能，也没有启用它的计划。我已将此事提请上级注意，并被指示“删除大文件并上传”。我按照指示对所有>20 MB的文件进行了审计，并有一个电子表格，

浏览 21提问于2022-07-25得票数 1

回答已采纳

1回答

h2o.deeplearning中的意外预测

r、h2o

我正在使用h2o包来测试深度学习的二进制分类器。当我构建一个模型，然后在一些新的(搁置的)数据集上使用h2o.predict时，我注意到对于某些行，Predict输出与概率最高的值不匹配。下面是一个可重现的例子，改编自h2o.removeAll() df <- h2o.impo

浏览 3提问于2016-08-20得票数 3

回答已采纳

10回答

如何使用Apache Kafka在生产环境构建大规模机器学习?

语音识别、机器学习、java、python、.net

智能实时应用是任何行业的游戏规则。机器学习及其子课题，深入学习正在获得势头，因为机器学习允许计算机找到隐藏的见解而不被明确地编程到哪里。这种能力是分析非结构化数据，图像识别，语音识别和智能决策所必需的。与Java，.NET或Python的传统编程是一个重要的区别。虽然机器学习背后的概念并不新鲜，但大数据集和处理能力的可用性使得每个企业都能够建立强大的分析模型。通过在企业应用程序和微

浏览 1360提问于2018-04-18

3回答

plsql块来获取动态sql查询结果

sql、oracle、plsql、oracle10g

sql_str:=sql_str||where_str||')'; EXECUTE IMMEDIATE(sql_str);所需的结果它应该会得到select查询的结果集。但我们会在运行此块时获取查询本身。而不是获得该查询的任何结果。让我们知道我们是否在礼仪轨道上。或者我们需要做一些其他的事情来得到结果。B.wk_units4,0,NULL,A.wk_units5), decode(

浏览 2提问于2009-08-31得票数 0

回答已采纳

3回答

K折叠交叉验证降低了准确性

machine-learning、classification、cross-validation、accuracy

我正在研究一个机器学习分类器，当我到达将我的数据划分为训练集和测试集的时候，我想得到两种不同的方法。在一种方法中，我只是将数据集分成训练集和测试集，而在另一种方法中，我使用k折叠交叉验证。奇怪的是，随着交叉验证的准确性下降，所以如果我有0.87与第一种方法，交叉验证，我有0.86。交叉验证不应该提高我的准确性吗？谢谢已经提前了。

浏览 0提问于2019-11-08得票数 1

回答已采纳

3回答