Spark中的XGBoost模型-->缺失值处理_用统计模型处理缺失值局部线性趋势模型_处理SAS中的缺失值？ - 腾讯云开发者社区

、、、

与python不同，在python中，缺失的值由XGBoost算法在内部处理，而在SPARK中构建XGBoost模型时，缺失的值被隐式转换为0.0(浮点数？！)。这样可以吗？有可能是00的实际值。我们如何确保这不会干扰模型的预测能力？

浏览 28提问于2019-10-15得票数 1

1回答

xgboost与H2o梯度提升

、

我有一个数据集有大量的缺失值(超过40%的缺失值)。在xgboost和H2o gradient boosting中生成一个模型-在这两种情况下都得到了一个像样的模型。然而，xgboost将此变量显示为模型的关键贡献者之一，但根据H2o，梯度提升该变量并不重要。xgboost会以不同的方式处理缺少值</e

浏览 0提问于2017-06-21得票数 2

1回答

是否有方法将xgb本机模型加载到spark中？

、、

下面是我的场景:我用单机训练XGB模型，并希望将它加载到spark中来处理数据。有办法吗？官方文档给出了一种用spark训练xgb模型的方法，并将其转换为本地模型。但它并没有给出相反的方向。XGBoostClassificationModel.load只支持传递火花版本的xgb模型路径，如果传递本机模型的路径，它将报告错误。根据github.c

浏览 0提问于2020-04-21得票数 1

1回答

XGBoost4J-使用矢量汇编程序和自定义密集向量的火花训练性能将产生两个完全不同的训练模型文件

、

我目前正在使用XGBoost4j。要使用它，我必须使用向量汇编程序来转换我的训练数据。以下是我的问题：为了避免上述情况，我还尝试使用以下代码来转换我的培训数据： val feature_col = array(testing.drop("cust_xref_id",cust_xref_id").cast(StringType

浏览 3提问于2020-07-20得票数 1

1回答

如何在预处理输入后使用AWS-Sagemaker部署我的机器学习模型

、、

我有一个XGBoost模型(比方说xgboost_model.sav模型)。我希望能够获得json输入(通过API调用)，执行一些预处理(如缺失值估算、异常值处理等)，使用pickled文件返回模型的预测结果(比如表示概率的浮点数)。(使用boto3) 我已经浏览了我的AWS Sagemaker提供的示例笔记本，但无法弄清楚如何执行上述步骤并部署我的</e

浏览 0提问于2019-06-17得票数 1

1回答

XGBOOST missing_value特性降低了我的性能？

、、

我正在训练一个痛风病的xgboost模型，在我抽样的1:7病例控制比率的训练集上(在病例中丰富)。我有220个特性，我达到一个交叉验证的0.90的AUC。对于缺少的值，我使用了一个特殊的值-65336，我不告诉XGBOOST --我让它处理缺失的值，就像对待其他值一样。然后

浏览 0提问于2017-08-06得票数 1

1回答

如何在coremltools中指定缺失的特性

、、

我有一个MLModel，它的特征名为"f0“、"f1”等等。并不是所有的特性都显示在输入数据中，所以我试图调用没有它们的predict()。";我还尝试了None缺少的特性，脚本只是挂起。

浏览 5提问于2020-02-07得票数 0

回答已采纳

3回答

Python培训和星火部署

、、、、

是否有可能在python中训练XGboost模型，并使用保存的模型在火花环境中进行预测？也就是说，我想要能够训练的XGboost模型使用学习，保存模型。在火花中加载保存的模型，并在火花中进行预测。在训练过程中，我将在python中使用，而在预测mllib中将使用XGBoost时，必须从XGBoost python加载保存的<em

浏览 2提问于2019-10-21得票数 1

1回答

Maven -如何在两个相互依赖的项目中使用不同的版本依赖关系

、、、

具体描述:项目A实际上是一个机器学习器，它有一组使用旧版本的spark-mllib的算法。我想在项目A中集成XGBOOST-spark算法。所以，问题是:有没有什么聪明的方法可以使用.asML()方法，它只在较新版本的spark中可用，这样我就可以转换LabeledPoint并将其传递给XGBOOST API？我不熟悉maven是如何处理依赖关系的，但我想到了类似这样的</

浏览 0提问于2018-04-25得票数 1

2回答

如何在R中使用"sparklyr“软件包实现lapply函数

、、、、

我一直使用命令mclapply运行并行计算，我喜欢它的结构(即第一个参数用作滚动索引，第二个参数为要并行化的函数，然后是传递给该函数的其他可选参数)。现在，我试图通过Spark来做类似的事情，也就是，我想在星系团的所有节点之间分配我的计算。这是我学到的东西，也是我认为应该如何构造代码(我正在使用包sparklyr)：我在星火环境中用data.frame复制我

浏览 2提问于2018-01-15得票数 0

1回答

Xgboost4j - java.lang.NoClassDefFoundError: scala/产品$class错误

、、、

我在这里运行示例代码来训练xgboost模型：https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html 我已经在集群中安装了以下jar文件：https://mvnrepository.com/artifact/ml.dmlc/xgboost4j-spark</em

浏览 90提问于2021-09-08得票数 1

2回答

缺少预期值的机器学习

、、

我有一个有关完成评审的人的数据集，目标变量是评审决定是否正确/不正确，我的特性之一是对审阅者进行跟踪4周的准确性评分。然而，这些精确的分数并不总是可用的。我的问题是如何建模这些数据-事实上，没有可用的准确性评分可能是一个信号。从我对此的研究来看，我所看到的一切都告诉我，缺失的价值必须被推断或移除。我想知道是否有技术将数据丢失的事实合并到数据集中。也许我可以把分数转换成一

浏览 0提问于2021-01-20得票数 4

1回答

Xgboost节点拆分的值是否超出功能范围？

我有一些从2.00001到1的特征，但当我转储模型时，我发现一些节点使用"feature <1“来拆分这些特征。xgboost是缩放功能还是为功能增加一些价值？或者为什么选择2.00001拆分？

浏览 0提问于2016-04-19得票数 0

1回答

在使用Spark* MLlib决策树时，如何处理丢失的数字特征？*

、、、

在Spark MLlib中使用决策树时，如何处理缺少的数字特征？我正在考虑用其他值的平均值来替换缺失的特征，但是我不确定这对模型质量有什么影响。Spark MLlib是否提供了对此常见问题的支持？

浏览 1提问于2017-05-19得票数 0

3回答

哪些模型可以处理空值？

、、

不幸的是，试图搜索或研究机器学习中的空值总是会出现一些页面，试图教您如何将这些值计算出来，但是我正在尝试找到可以将空值作为输入处理的模型。我目前发现的唯一一个是XGBoost，它是一种梯度下降算法。我认为基于树的算法在理论上也应该处理空值，但我不确定这是否推广到所有基于树的算法，或者有些算法比其他算法工作得更好。在一些背景下，

浏览 0提问于2020-01-28得票数 5

1回答

XGBoostModel训练失败

、、、、

我有用python编写的火花代码，它使用XGBoost模型进行预测。我面临的问题是，代码有"for循环“来使用XGBoost模型预测循环中的不同数据集，并保存训练好的模型。代码运行正常(没有编码错误)，但在循环中运行模型10-12次之后。它只是抛出下面的错误和崩溃我的Spark应用程序。重试次数越多，它甚至都不起作用。-&g

浏览 154提问于2020-03-07得票数 1

2回答

如何在大多数变量中缺少40%值的数据集上构建模型？

、、、

我有一个庞大的数据集1,000万次观测，但大多数变量丢失了40%的记录。对于整个数据集，有两个变量可用，如sic代码(行业类别)和公司地址。如果我在其他60%的记录(不丢失的值)上建立一个模型，会有什么问题呢？在花时间建立模型之前，你能建议采取什么措施/行动吗？为了确保60%的记录代表人口，我计划做几件事：

浏览 0提问于2020-10-15得票数 1

1回答

在AWS中运行Spark时，XGBoost没有使用足够的所有资源

、、、、

我试图使用AWS中的XGBoost Spark对大型数据集(500万行x450功能)进行二进制分类。我尝试过设置许多不同的配置，例如： XGboost工作人员、n线程、spark.task.cpus、spark.executor.instances、spark.executor.cores的数量。我一直试图最大限度地利用资源来进行更快的分类，因为我在XGBoost上运行了100

浏览 13提问于2018-01-01得票数 1

1回答

XGboost预测

、

我在试着理解这个XGboost示例。如果我的测试数据只有特性而没有标签，我如何修改该示例以进行预测？另外，我从他们的数据集中观察到：agaricus.txt.train和agaricus.txt.test不需要有相同的特性，甚至每个训练数据都有不同的特性。我以前做过线性回归，我认为训练和测试数据集应该有相同的功能集吗？

浏览 0提问于2021-10-31得票数 0

1回答

可以用tree_method='exact‘来训练XGBoost4J-Spark吗？

、

我打算在SparkML管道中使用经过训练的带有tree_method='exact‘的xgboost模型，因此我需要使用XGBoost4J-Spark；但是文档显示“分布式和外部内存版本只支持近似算法。或者，我可以使用基于C的xgboost来训练模型，以及如何将训练后的模型转换为XGBoostEstimator，这是一个SparkML估计器，可以无缝地集成到SparkML管道中</

浏览 3提问于2018-03-13得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云