腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1095)
视频
沙龙
2
回答
对
包含
300列(
6
GB
)
的
大型
数据
集
运行
coxph
模型
,并
将其
放入
H2o
苏打
水中
h2o
、
sparkling-water
我们正在尝试使用
h2o
运行
coxph
模型
,对于具有
6
GB
和300列
的
大型
数据
集
,无论我们
对
spark采用什么配置,我们都会遇到内存问题。根据
h2o
,我们应该只有4倍
的
数据
大小更大
的
集群,但我们甚至128 As
的
4个工作节点和128个主节点。但它仍然引发了一些问题。 请帮助我们选择使用当前
数据
浏览 13
提问于2019-11-28
得票数 0
2
回答
分层cox
模型
的
拟合
r
、
survival-analysis
、
cox-regression
我有一个分层
的
考克斯
模型
,
并
希望预测
的
生存曲线,为特定
的
轮廓,基于该
模型
。 现在,因为我使用
的
是一个
包含
很多层
的
大型
数据
集
,所以我只想
对
非常具体
的
阶层进行预测,以节省时间和内存。survfit.
coxph
的
帮助页声明:.如果新
数据
包含
地层变量,则根据原始
模型
浏览 3
提问于2021-04-23
得票数 3
1
回答
为什么h2o.saveModel挂在R v3.3.2和
H2O
v3.10.4.2中?
r
、
linux
、
h2o
', force = TRUE ) 当我
的
程序挂在h2o.saveModel上时,我启动了另一个R/
H2O
会话,
并
连接到当前挂起
的
进程。我能成功地得到
模型
。我可以成功地
运行
h2o.saveModelDetails并
将其
保存为JSON。我可以把它保存成魔法。但是,我不能通过h2o.saveModel
将其
保存为本地
的
“十六进制”
模型
。要说清楚
的
是,我不是装旧
的
。相反
浏览 3
提问于2017-04-02
得票数 1
1
回答
H2O
:无法通过`h2o.loadModel`从磁盘读取大
模型
r
、
linux
、
h2o
于2017年
6
月28日更新如下:@Michal . gbm <- h2o.getModel(basen
浏览 1
提问于2017-06-24
得票数 0
回答已采纳
2
回答
水-R异常检测
模型
的
建立
r
、
h2o
我试图
运行
H2O
在R (h2o_3.14.0.2)中
的
异常检测。首先,我尝试使用我
的
主要深度学习
模型
,并得到了错误: [1] "water.exceptions.H2OIllegalArgumentException好吧,我
的
错。autoencoder = TRUE)嗯,最后两个要求看起来是相互排斥
的
。失败
的
断言是a
浏览 3
提问于2017-09-15
得票数 1
回答已采纳
1
回答
H2O
叠加集合预报ArrayIndexOutOfBoundsException
r
、
h2o
、
glm
因此,
模型
集
只
包含
默认情况下AutoML生成
的
基本
模型
(GLM、GBM、XGBoost、DeepLearning和DRF)。我将
模型
导出为一个MOJO,关闭了
H2O
集群,重新启动了R,初始化了一个新
的
H2O
集群,导入了堆叠
的
集成MOJO,并在一个新
的
验证
集
上成功地生成了预测。 到目前一切尚好。该
模型
似乎没有问题,并且(正如我前面所描述
的
)能够将它
浏览 3
提问于2022-01-05
得票数 1
回答已采纳
2
回答
用
h2o
在R中聚合最大
r
、
dplyr
、
h2o
我已经开始使用
h2o
来聚合
大型
数据
集
,当我试图使用
H2O
的
h2o.group_by函数聚合最大值时,我发现了一些奇怪
的
行为。我
的
dataframe通常有一些变量,这些变量
包含
给定分组
的
部分或全部NA。165 5 16 16 1.6 e 1 16 我不知道为什么像
对
特定组
浏览 7
提问于2022-05-16
得票数 0
回答已采纳
1
回答
是否应该将经常访问
的
包含
具有一
对
一关系
的
大块
的
表标准化,并将列拆分为两个表?
mysql
、
performance
、
blob
我有一个经常访问
的
表,其中
包含
3列blobs,4列额外
数据
,这些
数据
不是在查询中使用,而是作为结果发送给PHP。在WHERE/ORDER /GROUP中
的
查询中使用了
6
个小列(大int、小int、微int、中int )。把这张大桌子分成两半会是个好办法吗?一个<em
浏览 0
提问于2014-01-15
得票数 2
回答已采纳
3
回答
R
h2o
以MOJO或POJO格式从磁盘加载保存
的
模型
。
r
、
io
、
h2o
我正在追赶
h2o
的
MOJO和POJO
模型
格式。tmp") # ok它将名为mymodel.zip或mymodel.java
的
对象写入目录mymodel.java") # not work saved_model3 <- h2o.loadModel("/media/somewhere/tm
浏览 4
提问于2017-07-26
得票数 8
回答已采纳
3
回答
在
H2o
中计算MAPE :错误:提供
的
列类型POSIXct未知
python
、
r
、
loops
、
prediction
、
h2o
以下是我回答
的
问题:
H2o
中
的
数据
维度不同。Non-H2o“预测验证,
并
计算每天
的
MAPE。我试图将
H2o
预测
模型
转换为正常格式,但根据:,这是不可能
的
。x=x, training_frame = train_h2o, ntrees = 2000, mtries = 3
浏览 39
提问于2018-08-21
得票数 8
回答已采纳
1
回答
H2o
交叉验证不对应于单列/测试
python
、
machine-learning
、
random-forest
、
h2o
我试图了解在
H2o
中交叉验证是如何工作
的
,当指定了传递'fold_column‘参数
的
折叠时。图书馆说: fold_column选项指定
数据
集中
的
列,该列
包含
每个观察
的
交叉验证折叠索引分配。我假设在每次交叉验证迭代中,使用带有fold_column =i
的
行作为测试
集
,其余
的
行用作列车
集
。但是,如果我用这些分裂来分别训练和测试
模型
,就会得到不同
的
性能结
浏览 2
提问于2020-07-28
得票数 1
2
回答
Java中基于文件
的
大
数据
集
归并排序
java
、
sorting
、
large-data
考虑到内存无法容纳
的
大型
数据
集
,在Java中有没有可以执行排序
的
库或api?其实现可能类似于linux实用程序排序。
浏览 3
提问于2011-06-11
得票数 11
回答已采纳
4
回答
在R中处理非常大
的
数据
集
r
我正在处理一个从Oracle
数据
库下载
的
非常大
的
数据
集
。
数据
帧大约有2100万行和15列。我
的
操作系统是windows xp (32位),我有2 2
GB
的
RAM。短期内,我不能升级我
的
RAM或操作系统(它正在工作,我需要几个月
的
时间才能得到一台像样
的
pc)。我发现了一些关于使用ff包
的
建议。如果任何熟悉ff包的人能告诉我它对我
的
情况是否有帮助,我
浏览 0
提问于2012-11-02
得票数 2
回答已采纳
5
回答
在非超级计算机上处理大量
数据
的
一般技术
python
、
database
、
machine-learning
、
data-analysis
、
kaggle
我正在上一些AI课程,并且已经学习了一些我想要实验
的
基本算法。我通过主办
数据
分析比赛
的
访问了几个
包含
大量真实
数据
的
数据
集
。我已经尝试参加了几个比赛来提高我
的
机器学习技能,但一直无法找到访问我代码中
的
数据
的
好方法。Kaggle以csv格式为每个比赛提供一个50-200mb
的
大型
数据
文件。在我
的
代码中加载和使用这些
浏览 2
提问于2011-08-19
得票数 14
回答已采纳
1
回答
从TFS克隆
的
git存储库中删除
大型
文件
git
、
tfs
、
git-clone
、
github-enterprise
、
git-tfs
当它完成时,我
的
目录结构为~45
GB
,其中
包含
一个~
6
GB
的
.git存储库子结构。当我试图将此推送给我们
的
代理时,我会发现有关
大型
文件
的
错误,因为该机构没有启用
大型
文件存储
的
功能,也没有启用它
的
计划。 我已将此事提请上级注意,
并
被指示“删除大文件并上传”。我按照指示
对
所有>20 MB
的
文件进行了审计,并有一个电子表格,
浏览 21
提问于2022-07-25
得票数 1
回答已采纳
1
回答
h2o.deeplearning中
的
意外预测
r
、
h2o
我正在使用
h2o
包来测试深度学习
的
二进制分类器。当我构建一个
模型
,然后在一些新
的
(搁置
的
)
数据
集
上使用h2o.predict时,我注意到对于某些行,Predict输出与概率最高
的
值不匹配。下面是一个可重现
的
例子,改编自h2o.removeAll() df <- h2o.impo
浏览 3
提问于2016-08-20
得票数 3
回答已采纳
10
回答
如何使用Apache Kafka在生产环境构建大规模机器学习?
语音识别
、
机器学习
、
java
、
python
、
.net
智能实时应用是任何行业
的
游戏规则。机器学习及其子课题,深入学习正在获得势头,因为机器学习允许计算机找到隐藏
的
见解而不被明确地编程到哪里。这种能力是分析非结构化
数据
,图像识别,语音识别和智能决策所必需
的
。与Java,.NET或Python
的
传统编程是一个重要
的
区别。虽然机器学习背后
的
概念并不新鲜,但大
数据
集
和处理能力
的
可用性使得每个企业都能够建立强大
的
分析
模型
。通过在企业应用程序和微
浏览 1360
提问于2018-04-18
3
回答
plsql块来获取动态sql查询结果
sql
、
oracle
、
plsql
、
oracle10g
sql_str:=sql_str||where_str||')'; EXECUTE IMMEDIATE(sql_str);所需
的
结果它应该会得到select查询
的
结果
集
。但我们会在
运行
此块时获取查询本身。而不是获得该查询
的
任何结果。 让我们知道我们是否在礼仪轨道上。或者我们需要做一些其他
的
事情来得到结果。B.wk_units4,0,NULL,A.wk_units5), decode(
浏览 2
提问于2009-08-31
得票数 0
回答已采纳
3
回答
K折叠交叉验证降低了准确性
machine-learning
、
classification
、
cross-validation
、
accuracy
我正在研究一个机器学习分类器,当我到达将我
的
数据
划分为训练
集
和测试
集
的
时候,我想得到两种不同
的
方法。在一种方法中,我只是将
数据
集
分成训练
集
和测试
集
,而在另一种方法中,我使用k折叠交叉验证。奇怪
的
是,随着交叉验证
的
准确性下降,所以如果我有0.87与第一种方法,交叉验证,我有0.86。 交叉验证不应该提高我
的
准确性吗?谢谢已经提前了。
浏览 0
提问于2019-11-08
得票数 1
回答已采纳
3
回答
基于主题
的
文本和用户相似度
python
、
numpy
、
recommendation-engine
、
topic-modeling
、
gensim
我希望使用主题表示来计算用户和文本文档之间
的
相似度。即,每个文档和用户由主题矢量(例如,神经科学、技术等)表示,以及该主题与用户/文档
的
相关性。我
的
目标是计算这些向量之间
的
相似度,这样我就可以找到相似的用户、文章和推荐文章。谢谢
浏览 2
提问于2012-10-04
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券