腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
中
的
XGBoost
模型
-->
缺失
值
处理
、
、
、
与python不同,在python
中
,
缺失
的
值
由
XGBoost
算法在内部
处理
,而在
SPARK
中
构建
XGBoost
模型
时,
缺失
的
值
被隐式转换为0.0(浮点数?!)。这样可以吗?有可能是00
的
实际
值
。我们如何确保这不会干扰
模型
的
预测能力?
浏览 28
提问于2019-10-15
得票数 1
1
回答
xgboost
与H2o梯度提升
、
我有一个数据集有大量
的
缺失
值
(超过40%
的
缺失
值
)。在
xgboost
和H2o gradient boosting中生成一个
模型
-在这两种情况下都得到了一个像样
的
模型
。然而,
xgboost
将此变量显示为
模型
的
关键贡献者之一,但根据H2o,梯度提升该变量并不重要。
xgboost
会以不同
的
方式
处理
缺少
值</e
浏览 0
提问于2017-06-21
得票数 2
1
回答
是否有方法将xgb本机
模型
加载到
spark
中
?
、
、
下面是我
的
场景:我用单机训练XGB
模型
,并希望将它加载到
spark
中
来
处理
数据。有办法吗? 官方文档给出了一种用
spark
训练xgb
模型
的
方法,并将其转换为本地
模型
。但它并没有给出相反
的
方向。XGBoostClassificationModel.load只支持传递火花版本
的
xgb
模型
路径,如果传递本机
模型
的
路径,它将报告错误。根据github.c
浏览 0
提问于2020-04-21
得票数 1
1
回答
XGBoost
4J-使用矢量汇编程序和自定义密集向量
的
火花训练性能将产生两个完全不同
的
训练
模型
文件
、
我目前正在使用
XGBoost
4j。要使用它,我必须使用向量汇编程序来转换我
的
训练数据。以下是我
的
问题:为了避免上述情况,我还尝试使用以下代码来转换我
的
培训数据: val feature_col = array(testing.drop("cust_xref_id",cust_xref_id").cast(StringType
浏览 3
提问于2020-07-20
得票数 1
1
回答
如何在预
处理
输入后使用AWS-Sagemaker部署我
的
机器学习
模型
、
、
我有一个
XGBoost
模型
(比方说
xgboost
_model.sav
模型
)。我希望能够获得json输入(通过API调用),执行一些预
处理
(如
缺失
值
估算、异常值
处理
等),使用pickled文件返回
模型
的
预测结果(比如表示概率
的
浮点数)。(使用boto3) 我已经浏览了我
的
AWS Sagemaker提供
的
示例笔记本,但无法弄清楚如何执行上述步骤并部署我
的</e
浏览 0
提问于2019-06-17
得票数 1
1
回答
XGBOOST
missing_value特性降低了我
的
性能?
、
、
我正在训练一个痛风病
的
xgboost
模型
,在我抽样
的
1:7病例控制比率
的
训练集上(在病例
中
丰富)。我有220个特性,我达到一个交叉验证
的
0.90
的
AUC。对于缺少
的
值
,我使用了一个特殊
的
值
-65336,我不告诉
XGBOOST
--我让它
处理
缺失
的
值
,就像对待其他
值
一样。 然后
浏览 0
提问于2017-08-06
得票数 1
1
回答
如何在coremltools中指定
缺失
的
特性
、
、
我有一个MLModel,它
的
特征名为"f0“、"f1”等等。并不是所有的特性都显示在输入数据
中
,所以我试图调用没有它们
的
predict()。";我还尝试了None缺少
的
特性,脚本只是挂起。
浏览 5
提问于2020-02-07
得票数 0
回答已采纳
3
回答
Python培训和星火部署
、
、
、
、
是否有可能在python
中
训练
XGboost
模型
,并使用保存
的
模型
在火花环境中进行预测?也就是说,我想要能够训练
的
XGboost
模型
使用学习,保存
模型
。在火花中加载保存
的
模型
,并在火花中进行预测。在训练过程
中
,我将在python中使用,而在预测mllib中将使用
XGBoost
时,必须从
XGBoost
python加载保存
的
<em
浏览 2
提问于2019-10-21
得票数 1
1
回答
Maven -如何在两个相互依赖
的
项目中使用不同
的
版本依赖关系
、
、
、
具体描述:项目A实际上是一个机器学习器,它有一组使用旧版本
的
spark
-mllib
的
算法。我想在项目A中集成
XGBOOST
-
spark
算法。所以,问题是:有没有什么聪明
的
方法可以使用.asML()方法,它只在较新版本
的
spark
中
可用,这样我就可以转换LabeledPoint并将其传递给
XGBOOST
API?我不熟悉maven是如何
处理
依赖关系
的
,但我想到了类似这样
的</
浏览 0
提问于2018-04-25
得票数 1
2
回答
如何在R中使用"sparklyr“软件包实现lapply函数
、
、
、
、
我一直使用命令mclapply运行并行计算,我喜欢它
的
结构(即第一个参数用作滚动索引,第二个参数为要并行化
的
函数,然后是传递给该函数
的
其他可选参数)。现在,我试图通过
Spark
来做类似的事情,也就是,我想在星系团
的
所有节点之间分配我
的
计算。这是我学到
的
东西,也是我认为应该如何构造代码(我正在使用包sparklyr): 我在星火环境中用data.frame复制我
浏览 2
提问于2018-01-15
得票数 0
1
回答
Xgboost
4j - java.lang.NoClassDefFoundError: scala/产品$class错误
、
、
、
我在这里运行示例代码来训练
xgboost
模型
:https://
xgboost
.readthedocs.io/en/latest/jvm/
xgboost
4j_
spark
_tutorial.html 我已经在集群
中
安装了以下jar文件:https://mvnrepository.com/artifact/ml.dmlc/
xgboost
4j-
spark</em
浏览 90
提问于2021-09-08
得票数 1
2
回答
缺少预期
值
的
机器学习
、
、
我有一个有关完成评审的人
的
数据集,目标变量是评审决定是否正确/不正确,我
的
特性之一是对审阅者进行跟踪4周
的
准确性评分。 然而,这些精确
的
分数并不总是可用
的
。我
的
问题是如何建模这些数据-事实上,没有可用
的
准确性评分可能是一个信号。从我对此
的
研究来看,我所看到
的
一切都告诉我,
缺失
的
价值必须被推断或移除。我想知道是否有技术将数据丢失
的
事实合并到数据集中。也许我可以把分数转换成一
浏览 0
提问于2021-01-20
得票数 4
1
回答
Xgboost
节点拆分
的
值
是否超出功能范围?
我有一些从2.00001到1
的
特征,但当我转储
模型
时,我发现一些节点使用"feature <1“来拆分这些特征。
xgboost
是缩放功能还是为功能增加一些价值?或者为什么选择2.00001拆分?
浏览 0
提问于2016-04-19
得票数 0
1
回答
在使用
Spark
MLlib决策树时,如何
处理
丢失
的
数字特征?
、
、
、
在
Spark
MLlib中使用决策树时,如何
处理
缺少
的
数字特征? 我正在考虑用其他
值
的
平均值来替换
缺失
的
特征,但是我不确定这对
模型
质量有什么影响。
Spark
MLlib是否提供了对此常见问题
的
支持?
浏览 1
提问于2017-05-19
得票数 0
3
回答
哪些
模型
可以
处理
空
值
?
、
、
不幸
的
是,试图搜索或研究机器学习
中
的
空
值
总是会出现一些页面,试图教您如何将这些
值
计算出来,但是我正在尝试找到可以将空
值
作为输入
处理
的
模型
。我目前发现
的
唯一一个是
XGBoost
,它是一种梯度下降算法。我认为基于树
的
算法在理论上也应该
处理
空
值
,但我不确定这是否推广到所有基于树
的
算法,或者有些算法比其他算法工作得更好。 在一些背景下,
浏览 0
提问于2020-01-28
得票数 5
1
回答
XGBoostModel训练失败
、
、
、
、
我有用python编写
的
火花代码,它使用
XGBoost
模型
进行预测。我面临
的
问题是,代码有"for循环“来使用
XGBoost
模型
预测循环中
的
不同数据集,并保存训练好
的
模型
。代码运行正常(没有编码错误),但在循环中运行
模型
10-12次之后。它只是抛出下面的错误和崩溃我
的
Spark
应用程序。重试次数越多,它甚至都不起作用。-&g
浏览 154
提问于2020-03-07
得票数 1
2
回答
如何在大多数变量
中
缺少40%
值
的
数据集上构建
模型
?
、
、
、
我有一个庞大
的
数据集1,000万次观测,但大多数变量丢失了40%
的
记录。对于整个数据集,有两个变量可用,如sic代码(行业类别)和公司地址。如果我在其他60%
的
记录(不丢失
的
值
)上建立一个
模型
,会有什么问题呢?在花时间建立
模型
之前,你能建议采取什么措施/行动吗?为了确保60%
的
记录代表人口,我计划做几件事:
浏览 0
提问于2020-10-15
得票数 1
1
回答
在AWS
中
运行
Spark
时,
XGBoost
没有使用足够
的
所有资源
、
、
、
、
我试图使用AWS
中
的
XGBoost
Spark
对大型数据集(500万行x450功能)进行二进制分类。我尝试过设置许多不同
的
配置,例如:
XGboost
工作人员、n线程、
spark
.task.cpus、
spark
.executor.instances、
spark
.executor.cores
的
数量。我一直试图最大限度地利用资源来进行更快
的
分类,因为我在
XGBoost
上运行了100
浏览 13
提问于2018-01-01
得票数 1
1
回答
XGboost
预测
、
我在试着理解这个
XGboost
示例。如果我
的
测试数据只有特性而没有标签,我如何修改该示例以进行预测?另外,我从他们
的
数据集中观察到:agaricus.txt.train和agaricus.txt.test不需要有相同
的
特性,甚至每个训练数据都有不同
的
特性。我以前做过线性回归,我认为训练和测试数据集应该有相同
的
功能集吗?
浏览 0
提问于2021-10-31
得票数 0
1
回答
可以用tree_method='exact‘来训练
XGBoost
4J-
Spark
吗?
、
我打算在SparkML管道中使用经过训练
的
带有tree_method='exact‘
的
xgboost
模型
,因此我需要使用
XGBoost
4J-
Spark
;但是文档显示“分布式和外部内存版本只支持近似算法。或者,我可以使用基于C
的
xgboost
来训练
模型
,以及如何将训练后
的
模型
转换为XGBoostEstimator,这是一个SparkML估计器,可以无缝地集成到SparkML管道
中</
浏览 3
提问于2018-03-13
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
XGBoost缺失值引发的问题及其深度分析
数据的来源和缺失值处理
使用MICE进行缺失值的填充处理
大数据中填充缺失值很有效的树模型算法,MissForest算法
处理缺失值的三个层级的方法总结
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券