如何解决XGboost分类器中的值错误:特征不匹配？_如何解决feature_names不匹配的XGBoost错误？_如何解决MDX查询中的“类型不匹配错误” - 腾讯云开发者社区

python、xgboost、oversampling

在我的工作中，我拆分了数据，然后使用了过采样(由于分布不平衡)和特征选择。我想使用分类器XGboost，但我得到了以下错误。 ValueError Traceback (most recent call last) <ipython-input-16-ace98cb7898f> in <module>() 5 model.fit(X_train, y_train) 6 # make predictions for test data ----> 7 y_pred = model

浏览 129提问于2021-10-13得票数 0

1回答

在CatBoost基准测试中，使用了什么样的预处理来编码分类变量？

machine-learning、catboost

最近，我开始使用CatBoost进行机器学习模型的快速原型设计，这受到了与XGBoost、LightGBM和h2o相比的杰出的CatBoost的启发。由于XGBoost只能接受数字特征，所以CatBoost和XGBoost之间的比较需要对分类特征进行共同的预处理。我并不完全清楚在基准测试中使用了什么样的预处理来编码分类特性，以及不使用简单的一种热编码的理由。我试着阅读实验的。据我所知，对分类特性j进行编码的过程大约相当于以下内容：在train集中，将响应y按j分组，并使用mean函数进行聚合。让我们调用结果df_agg_j 左加入分类列train集和df_agg_j，删除原始分类

浏览 3提问于2019-01-13得票数 1

2回答

R中的XGBoost错误("'data‘有类'character’和length...")

r、matrix、machine-learning、xgboost

我在将我的数据拟合到xgboost分类器模型时遇到了困难。当我运行以下命令时： classifier = xgboost(data = as.matrix(training_set[c(4:15, 17:18,20:28)]), label = training_set$posted_ind, nrounds = 10) R Studio告诉我： Error in xgb.DMatrix(data, label = label, missing = missing) : 'data' has class 'character' and length 14

浏览 0提问于2018-09-14得票数 3

2回答

分类器是如何处理分类特征的？

python、classifier

我有一个具有分类变量年的数据集，其年份为:20152016201720182019。我想了解的是，分类器是如何在这个特性上工作的？让我们使用决策树或XGboost分类器。但是如果我有一个测试数据集，其年份列的值为2020或2021，那么会发生什么呢？在这种情况下，分类器会做什么？

浏览 0提问于2022-07-16得票数 1

1回答

目标函数和xgboost模型有什么不同？

machine-learning、linear-regression、decision-tree、xgboost

我知道GBtree使用决策树进行分类和回归，但是如何使用gblinear来解决分类问题呢？这不是给了我们一个连续的预测吗？我想我混淆了xgboost中的参数“助推器”和“目标函数”。 GBtree能给我们与GBLinear相比的什么？在xgboost中，“目标函数”和“助推器”的区别是什么？

浏览 0提问于2018-07-14得票数 0

3回答

XGBoost/CatBoost中包含大量类别的分类变量

machine-learning、random-forest、xgboost、categorical-data、catboost

我有一个关于随机森林的问题。假设我有关于与项目交互的用户的数据。项目的数量很多，大约有10000个。我的随机森林的输出应该是用户可能与之交互的项目(比如推荐系统)。对于任何用户，我都希望使用一个功能来描述用户过去与之交互过的项目。然而，将分类产品特征映射为一次性编码似乎非常低效，因为用户最多与几百个项目交互，有时甚至只有5个项目。当输入特征之一是具有大约10,000个可能值的分类变量，而输出是具有大约10,000个可能值的分类变量时，如何构建随机森林？我应该将CatBoost与分类功能一起使用吗？或者我应该使用一次性编码，如果是这样的话，你认为XGBoost和CatBoost哪个更好？

浏览 0提问于2017-09-27得票数 3

1回答

R中具有自定义重要性的Boruta特征选择(xgboost特性重要性)

r、feature-selection、feature-extraction、xgboost

根据文件- CRAN Boruta算法是一种完全相关的特征选择包装算法，能够与输出变量重要性度量(VIM)的任何分类方法工作；在默认情况下，Boruta使用随机森林。来源：Boruta文件包有一个参数getImp，它定义了要使用的重要性，默认情况下，它是游侠包中的随机林。因此，理论上可以使用xgboost的xgb.importance()函数作为特性重要性的来源，但我在实践中找不到如何使用此类参数的示例，因为到目前为止，我一直不走运。是否有可能在Boruta包中实现这一点，或者我是否已经从头开始使用xgboost实现Boruta算法？如果可能的话，怎么做？

浏览 0提问于2016-11-23得票数 2

2回答

使用集成投票分类器查找前3个特征重要性

python、machine-learning、scikit-learn、classification、ensemble-learning

我有一个分类问题，我必须使用投票分类器方法找到前3个特征，其中包含PCA，xgboost，随机森林，逻辑注册和决策树。我是一个初学者，我不知道如何使用投票分类器来获得特征重要性。 from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import GradientBoostingClassifier from sklearn.decomposition import PCA fro

浏览 0提问于2019-10-30得票数 1

1回答

使用数字预测器XGBoost更好吗？

xgboost

我有一个分类特性，我在我的XGBoost模型中进行了一次热编码和使用，但与其他预测器相比，它的性能一直不如其他预测器。然后我创建了一个新变量，它包含了与分类特性相同的信息. 假设我对一套房子的价格感兴趣，它的绝对特征是它所在的城镇，而数字特征是我产生的一个特征，根据对城镇的一些先验知识，对城镇的相对价格进行了排序。 TownA - 100 TownB - 40 TownC - 65 TownD - 15 现在突然间，直接从范畴变量派生出来的新的数值变量表现得更好了。这是因为XGBoost只是对数值变量更好地工作，并且当我对变量进行一次热编码时，可能会失去一些预测能力吗？

浏览 0提问于2018-03-16得票数 3

1回答

XGboost分类器

python-3.x

我是XGBoost的新手，目前正在做一个项目，在这个项目中我们已经构建了一个XGBoost分类器。现在我们想运行一些特征选择技术。对于这一点，反向消除方法是一个好主意吗？我在回归中使用过它，但我不确定是否/如何在分类问题中使用它。任何线索都将非常感谢。注意:我已经尝试过排列线重要性，并取得了很好的效果！寻找另一种方法来评估模型中的特征。

浏览 0提问于2019-10-03得票数 0

1回答

所有分类数据

classification、python-3.x、one-hot-encoding、one-class-classification

我需要一些关于我一直在处理的问题的反馈。我正在处理一个具有所有分类特性的相当平衡的数据集，以及一个分类结果(分类问题)。这些数据没有连续的数值特征。为了预测我在testset上的结果，我使用xgboost算法。因为我有所有的范畴预测器，所以我使用一个热编码来处理我的分类特性。现在我有点担心我可能在这个过程中遗漏了一些东西，所以我想检查一下，如果我有一个二进制结果的所有分类特性，这是一个有效的方法吗？我看不出有什么别的办法来解决这个问题。分类变量不是像邮政编码这样的东西，IDs...they实际上是与结果相关的。吸烟者(是/否)高bp (是/否) 你认为如何？

浏览 0提问于2022-06-13得票数 0

回答已采纳

1回答

何时将分类变量转换为机器学习的数值变量？

r、machine-learning、r-caret、xgboost

我是机器学习的新手，我正在使用xgboost中的caret包对我的数据运行分类算法( R )。然而，为了机器学习的目的，我对将某些范畴变量转换为数值变量感到困惑。我已经浏览了网络，但我找不到一个具体的规则，如果它存在，在这个问题上。下面的url ()中的xgboost vignette提到"Xgboost只管理数字向量“。这不意味着我的所有特性(变量)只需要包含数值吗？但是，我已经看到了一些使用xgboost的教程，其中变量是分类变量。如果能在这个问题上提供任何帮助，我们将不胜感激。

浏览 4提问于2017-11-14得票数 0

回答已采纳

1回答

功能重要性和xgboost？

xgboost、feature-engineering、lightgbm

假设我得到了for分类器的特性重要性。 sorted(zip(xgb.feature_importances_, X.columns), reverse=True) [(0.10650729, 'modelMag_i'), (0.08187373, 'psfMag_g'), (0.070714064, 'modelVar'), (0.06747197, 'modelMag_z'), (0.061302684, 'fiberMag_g'), (0.05923392, 'fibVar'),

浏览 0提问于2020-02-18得票数 1

1回答

ValueError:培训数据没有以下字段

machine-learning、classification、xgboost

我试图使用LIME从我的XGBoost分类模型中收集ID级别的驱动程序，并且遇到了一些奇怪的错误。我使用这个链接作为参考。下面是我使用的全部代码： explainer = lime.lime_tabular.LimeTabularExplainer(Xs_train.values, class_names = [1.0, 0.0], kernel_width = 3) predict_fn_xgb = lambda x: trained_model.predict_proba(x).astype(float) data_point = Xs_val.values[5] exp = exp

浏览 0提问于2019-11-27得票数 3

回答已采纳

1回答

采用梯度增强和LSTM相结合的方法进行分类？

deep-learning、lstm、xgboost

我目前正在使用LSTM模型来分类高维表格数据，而不是文本/图像(维度21392x1970)。我还分别尝试了Python中的XGBoost (梯度增强)来完成相同的分类任务(分类为14种不同的分类值中的一种)。我遇到了在XGBoost中使用XGBoost方法的规定，它可以为我提供预测中最相关的特征的F1分数。我想要创建一个混合模型，它将LSTM和XGBoost结合在一起，但对于如何使用最重要的特性进行分类(可能是通过XGBoost获得这些特性，然后以组合的方式提供给LSTM？)，我感到困惑。如有任何意见、建议和意见，敬请见谅！

浏览 0提问于2019-02-19得票数 1

1回答

如何分配xgboost模块用于火花？

apache-spark、machine-learning、pyspark、xgboost

我想在pyspark中使用经过预先训练的xgboost分类器，但是集群中的节点没有安装xgboost模块。我可以挑选我训练过的分类器并广播它，但是这还不够，因为我仍然需要在每个集群节点加载模块。我无法在集群节点上安装它，因为我没有根，也没有共享的文件系统。如何分发xgboost分类器以供火花中使用？我有一个鸡蛋给你吃。像或这样的东西能起作用吗？

浏览 1提问于2016-09-24得票数 7

2回答

关于具有太多功能的小数据集的关注

python、xgboost、dimensionality-reduction、feature-importances

我有322个观察和224特点的数据。观测有两类，0或1，我正试图预测。0级有168个观测值，第一类有154个观测值。我被要求检查哪些特性对于分类任务(xgboost)来说是最重要的，然而，尽管脚本运行并且我具有特性的重要性，但我担心的是，在我看来是不正确的，因为有那么多的特性(224)和很少的观察(322)，然而，观察比特性更多。我并没有减少维度( PCA )，因为在这种情况下，我被要求从所有224项中指定重要的特性，而且据我理解，如果我进行PCA，我将失去特定的特征，并且无法分辨哪个特征对分类任务更为重要。所以我在这里的问题是，当使用相对较小的数据文件和这么多的特性时，指出分类的重要特

浏览 0提问于2021-07-13得票数 0

4回答

如何处理33000多个城市的分类变量？

python、xgboost、forecasting

我在Python工作。我对"city"这个分类变量有个问题。我正在一个大型数据集上构建一个预测模型--超过100万行。我有超过100的特性。其中一个是“城市”，由、33000个不同城市组成。我使用例如XGBoost，在这里我需要将分类变量转换为数字。哑铃化会使功能的数量大量增加。XGBoost (和我的20 gb内存)无法处理这个问题。有没有其他方法来处理这个变量，例如一个热编码，虚拟人等等？(当使用一种热编码(例如，我有性能问题)时，我的模型中有太多的特性，而且内存不足。有办法处理这件事吗？

浏览 0提问于2020-05-23得票数 2

3回答

XGBoost的贪婪分裂查找算法如何确定不同特征类型的候选拆分值？

machine-learning、decision-trees、xgboost、boosting

基于Chen & Guestrin (2016) XGBoost:一个可扩展的树增强系统的论文，XGBoost的“精确分割查找算法在所有特征上列举了所有可能的分裂，以找到最佳的分割”(第3页)。因此，我的理解是，XGBoost对所有特性进行枚举，并使用每个特性的唯一值作为候选拆分点，然后选择使分割准则最大化的拆分值(增益)。那么，我的问题是为什么选择的浮点类型特性的拆分值通常不是该特性的唯一值之一？例如，对于具有浮点值的数据中的某个特性，如下所示: 966.0、1234.0、2350.0、4567.0 .如果Xgboost选择对该特性进行拆分，则拆分值可以是，例如( feature

浏览 0提问于2018-08-02得票数 6

2回答

对客户邮件进行分类

machine-learning、nlp、feature-selection、feature-extraction、multilabel-classification

我正在为一家公司做一个项目，该项目需要对客户关于贷款和保险的电子邮件进行分类。电子邮件是从13个类别标签中唯一标记出来的.数据集中的记录数为3000条。所有的电子邮件都不是正确的英语或格式，有很多拼写错误和不必要的功能，如印度名字，地址等。数据集是非常不平衡的，前三个类别的频率合并到2000年，有两个类别的频率在40-80之间。我设法对数据进行了预处理，并删除了大部分不必要的内容和拼写错误。我使用LinearSVC建立了一个监督学习模型，在验证数据集上给出了大约78%的结果，之后我使用了XGBoost分类器，将准确率提高到80%。这两种模型都使用Tfidf向量作为输入，其中包含预处理后的单数

浏览 0提问于2016-06-18得票数 5

1回答

在我的Xgboost机器学习模型中，当特征的重要性为0时，您应该丢弃它们还是将它们组合在一起？

machine-learning、xgboost、feature-selection

我一直在尝试构建一个ML模型，该模型预测不同产品通过部署管道所需的时间。我已经创建了大约30-40个不同的特征，其中90%是分类特征，10%是数字特征。例如，我有一个特性“产品类别”，它可以有5个不同的值。然后，我为我的所有分类变量创建了虚拟变量，最终得到了大约200-300个变量。我已经训练了一个XGboost模型，并检查了特征的重要性，注意到我的大多数特征的重要性都在0.001左右，而且很多特征的重要性在30左右。我该如何处理这些信息？我是应该删除这些变量(比如删除一半的产品类别)，还是应该将所有这些变量组合在一个“其他”类别中？有什么技巧或标准的方法来处理这个问题吗？编辑:我的超级参

浏览 4提问于2019-02-27得票数 1

1回答

在XGBoost或任何其他基于树的方法中，特性的重要性是否可靠？

feature-selection、decision-trees、xgboost、feature-engineering、boosting

这个问题很长，如果您知道基于树的方法的特性重要性是如何工作的，我建议您跳过图片下面的文本。在基于树的方法中，特征重要性(FI)是通过观察每个变量减少这类树的杂质(对于单树)或平均杂质(对于集成方法)的程度来确定的。我几乎可以肯定，对于单棵树来说，它是不可靠的，因为树的变化很大，主要是在终端区域是如何建造的。XGBoost在经验上优于单一树和“最佳”集成学习算法，因此我们将针对它进行研究。使用XGBoost的优点之一是它的正则化以避免过度拟合，XGBoost还可以学习像线性回归或线性分类器一样好的线性函数(参见Didrik )。我的麻烦是，它的解释已经出现了由于图像低沉： 📷 在上面，我得到了

浏览 0提问于2021-07-15得票数 0

回答已采纳

1回答

在XGboost中表示数值分类数据(特别是小时)变量的正确方式是什么？

machine-learning、classification、data-science、prediction、xgboost

是只使用一个主代码更好，还是只把它作为一个数字变量？我在网上读到了复杂的结论： “避免对高基数列和基于决策树的算法使用OneHot。” 而不是 "(onehotencoded)这是xgboost或任何其他机器学习工具的分类变量的正确表示。“

浏览 2提问于2019-11-19得票数 1

1回答

XGBoost培训时间似乎太长

python、machine-learning、xgboost、training-data

我正在尝试使用XGBoost包在Python语言中训练xgboost分类器。我在分类器的所有参数上使用默认值，我的训练集有大约16,000个元素和每个元素的180,000个特征。我没有使用gpu来训练模型，但尽管如此，训练过程已经花费了五个多小时，而且还在继续。我有32 I7的内存和6核的英特尔I7。我想知道现在是不是用我拥有的数据量训练这个分类器的正常时间，因为我听说有人在几分钟内训练模型。

浏览 69提问于2020-01-06得票数 1

1回答

用TargetEncoder和XGBoost分类器对Sklearn管道进行拟合时的dtype错误

python、pandas、scikit-learn、xgboost

在尝试安装使用XGBoost分类器作为其最后步骤的管道时，我遇到了以下错误：数据的 DataFrame.dtypes必须是int、DataFrame.dtypes或bool。没有预料到字段分类列中的数据类型。我使用下面的管道和一个TargetEncoder对分类列进行编码： numerical_transformer = MinMaxScaler() categorical_transformer = TargetEncoder() numerical_cols = X.select_dtypes(include=['float', 'int']).co

浏览 4提问于2020-07-05得票数 2

1回答

击打物所属的类别

pandas、data-mining、data-cleaning

因此，我有一个树形图，其中有不同的算法。例如，XGBoost属于梯度提升，决策树和随机森林被分类等等。我想知道击打属于哪一类。 📷

浏览 0提问于2022-08-08得票数 0

1回答

人脸识别与图像分类

image-processing、face-recognition、face-detection、image-classification

我需要使用张量流来构建一个图像分类模型，但是在我的数据集中，我的10000类、和每个类只有5图像。我知道5的图像数量太少，理想情况下每个类至少应该有100个图像，但此时我不明白某些“人脸识别”模型是如何工作的。例如，所有的现代智能手机都提供了一个“人脸识别”功能，它可以在世界上所有的面孔中识别手机的主人，而且设置非常容易，只需要对用户的脸进行快速射击(3到5秒)。那么，为什么这种方法可以工作，而图像分类模型却需要大量的图像才能达到可接受的精度？这些模型是在幕后使用不同的技术建立的吗？是否有可能使用智能手机用于“人脸识别”的技术建立“图像分类”模型？

浏览 5提问于2021-03-31得票数 1

1回答

用Python从XGBoost模型手工计算概率

python、machine-learning、data-science、xgboost

我正在尝试从XGBoost模型手工计算概率。有人能帮我拿出公式吗这样我就能复制。迄今所做的工作： model.best_estimator_.feature_importances_.Multiplied中的从中提取权值和各自的特征，并添加到一个value.1 / float(1 + np.exp(value))中以求出预测的概率。这似乎不起作用，因为上述方法的预测概率与predict_proba(分别为2.767918e-07和0.321 )的概率有很大不同。 FYI，数据中既有数字特征，也有分类特征。我还在学习，所以请随意改正上面的方法或建议正确的方法。提前感谢！

浏览 1提问于2021-05-17得票数 0

2回答

哪个分类器在使用“类权重”时性能更好？

random-forest、logistic-regression、class-imbalance

我使用“class_weight”方法平衡了我的多类分类问题，使用了Logistic回归、随机森林和XGBoost分类器。在这三种方法中，少数类的logistic回归结果显著高于其他两种模型。有谁能解释一下为什么LR在这种情况下胜过基于决策树的分类器？谢谢。

浏览 0提问于2019-08-30得票数 3

回答已采纳

1回答

对整个输入进行ML/DL预测，而不是逐行预测

tensorflow、machine-learning、keras、neural-network、multiclass-classification

我有一个测量各种特征的传感器的表格数据。当传感器处于“关闭”状态时，它将报告0作为值。为了进行分类，我正在训练一些机器学习模型kNN、XGBoost和NN。这是我面临的问题:我可以逐行训练和预测；然而，将范围分类为整体比逐行分类更好。另一个问题是范围的大小可能会有所不同。有关一个非常基本的示例，请参阅此图说明范围。 ? 我有一个基本的Keras模型： model = Sequential() model.add(Dense(100, activation='relu')) model.add(Dense(100, activation='relu')) m

浏览 26提问于2020-12-08得票数 0

2回答

如何在没有XGBoost库的情况下生成XGBoost输出？

python、c++、xgboost、mql4

我有一个用Python训练的XGBoost二进制分类器模型。我希望在不同的脚本环境(MQL4)中，使用纯数学操作，而不使用XGBoost库(.predict)，为新的输入数据生成该模型的输出。有人能在公式和/或算法方面提供帮助吗？

浏览 2提问于2016-12-02得票数 2

回答已采纳

1回答

黑匣子模型中分类特征的统计意义检验

machine-learning、xgboost、predictor-importance

假设我们有一个分类特性X_i，并且我们构建了一个类似于xgboost的黑匣子分类模型，X_i是众多预测器之一。我们想问一个问题：X_i对整个预测有影响吗?如果是的话，影响多少？特别是，X_i可以是：二分变量 N级变量，其中我们感兴趣的是两个特定级别之间的潜在差异。在像线性回归这样的白盒模型中，我们通过检验来获得统计显着性.但是，我们能用黑匣子模型获得统计意义相似的结果吗？来自可解释的人工智能领域的任何工具都适用于此吗？还是只对输出概率进行标准t检验会更好呢？

浏览 0提问于2020-02-06得票数 1

2回答

为什么树组不需要一次热编码？

machine-learning、decision-trees、xgboost、categorical-data、representation

我知道像随机森林和增强树这样的模型不需要对预测器级别进行一次热编码，但我并不真正理解为什么。如果树是在特征空间中分割的，那么是否存在固有的排序呢？这里一定有我遗漏的东西。让我更困惑的是，我遇到了我正在研究的一个问题，尝试在分类特性上使用一次热编码，而在R中使用xgboost将其转换为整数，使用一次热编码的泛化错误稍微好一些。然后我又取了一个变量，做了同样的测试，结果正好相反。有人能帮我解释一下吗？

浏览 0提问于2017-04-02得票数 8

回答已采纳

1回答

如何在使用XGBoost进行分类时偏爱特定的类？

machine-learning、python、bigdata、xgboost

我使用一个简单的XGBoost模型来对二进制上下文中的2个类(0和1)进行分类。对于原始数据，0是多数类，1是少数类。正在发生的事情是，在分类的情况下，大多数的0是正确的分类，其中很多是1s，但大多数1被错误地分类为0。我对此相当陌生，在查看了有关SE的各种文档和问题之后，对于如何指定我的XGBoost模型以支持1类(准确地说，如果大多数0被错误地分类为1s，这不是一个问题，但我希望大多数1s被正确地归类为1s )，我真的很困惑(如果存在假阳性，这不是什么问题)。我目前用于训练和测试XGBoost的代码段如下(之后，我使用了混淆矩阵，其中真正的正数(1s)被高度错误地分类为0)。 from

浏览 0提问于2019-03-16得票数 0

回答已采纳

2回答

SVM分类器中特征长度与预测的关系

opencv、machine-learning、svm、libsvm

目前，我正在使用opencv中的SVM分类器进行英语字母分类。我对做以上的事有疑问。特征向量的长度如何取决于分类？(如果特征长度增加(我当前的特征长度为125)，会发生什么？预测所需的时间是否取决于用于培训的数据的数量？为什么我们需要对特征向量进行归一化(这会提高预测的准确性和预测类所需的时间吗)？如何确定特征向量归一化的最佳方法？

浏览 5提问于2015-01-06得票数 1

回答已采纳

1回答

从logistic回归到XGBoost -选择特性来运行模型

feature-selection、xgboost、logistic-regression、boruta

我被要求将XGBoost (在R中实现，最多有50个特性)作为一种替代方案，以替代我从包含几千个预测器的一组非常大的信用风险数据中创建的已存在但尚未开发的logistic回归模型。关于逻辑回归的文件准备得很好，因此一直在跟踪排除每个变量的原因。其中包括：自动数据审计(通过内部工具)-即检测到过多的漏报，或异常低的差异等；缺乏单调趋势-在尝试粗分类后u形变量；高相关(>70%) -在生水平上或在混凝后；低GINI /信息值-在原始水平上或在绑定后；低代表性--通过人口稳定指数(PSI)进行评价；业务逻辑/专家判断。导出了大量变量(包括l)。其他预测因子的标准差的min /

浏览 0提问于2020-11-11得票数 3

1回答

当我根据我的测试数据进行预测时，xgboost -功能不匹配

python、xgboost

我正在使用xgboost训练一些数据，然后我想在测试集上给它打分。我的数据是分类变量和数值变量的组合，所以我使用pd.get_dummies来模拟我所有的分类变量。训练是好的，但是当我在测试集上给模型打分时，问题就出现了。我得到一个错误"feature_names_mismatch“，它列出了缺少的列。我的数据集已经在一个矩阵中(numpy数组格式)。那么，如果发生这种情况，有没有办法让模型仍然有效呢？

浏览 0提问于2020-11-12得票数 1

1回答

XGboost分类与eli5包的问题

machine-learning、classification、prediction、xgboost、eli5

在训练XGBoost分类模型时，我使用eli5函数"explain_prediction()“来查看对个人预测的特性贡献。然而，eli5包似乎将我的模型看作是一个回归者而不是一个分类器。下面是代码片段，显示我的模型、我的预测，然后是"explain_prediction“方法的输出。正如你所看到的，输出给出的分数是3.016，而不是0到1之间的概率。在这种情况下，我会期望0.953。任何帮助都很感激。

浏览 3提问于2020-05-20得票数 0

回答已采纳

2回答

SHAP值可以解释，对吗？

python、machine-learning、data-science、xgboost、shap

我在使用SHAP value来解释基于树的模型时遇到了一个问题。 () 首先，我输入了大约30个特征，我有2个特征，它们之间有很高的正相关性。在此之后，我训练了XGBoost模型(Python)，并查看了2个特征的Shap值，Shap值具有负相关性。你们能给我解释一下，为什么两个特征之间的输出SHAP值不具有与输入相关相同的相关性吗？我能不能相信SHAP的输出？ ========================= 输入之间的相关性: 0.91788 SHAP值之间的相关性：-0.661088 2个特性是 1)省内人口和 2)省内户数。模型性能训练AUC: 0.73 测试AUC: 0.7

浏览 11提问于2019-11-25得票数 0

1回答

为什么我的助推车型在61款中只有4款适合呢？

machine-learning、neural-network、classification、predictive-modeling、xgboost

我正在研究一个二元分类问题，使用平衡套袋随机森林，神经网络和增强技术。我的数据集大小是977，类比例是77:23。我的数据集中有61个特征。然而，经过大量的特征选择活动后，我得到了5个功能。但是，这5个特征是用RFECV、Borutapy等随机森林估计器来识别的。因此，有了5个特征，我认为我的Xgboost模型在测试集上不会过分适合，并且提供了更好的性能，但是Xgboost模型仍然适用于测试集，在测试集上产生的结果很差。然而，随机森林在train和test上都具有相似的性能。能帮我理解为什么会发生这种事吗？列车和试验性能如下随机林列数据 📷 随机森林-测试数据 📷 随机森林的 roc_a

浏览 0提问于2022-03-04得票数 1

9回答

xgboost预测方法为所有行返回相同的预测值

python、machine-learning、xgboost

我已经在Python中创建了一个xgboost分类器： train是一个100k行，50个特征作为列的pandas数据帧。《目标》是一个熊猫系列 xgb_classifier = xgb.XGBClassifier(nthread=-1, max_depth=3, silent=0, objective='reg:linear', n_estimators=100) xgb_classifier = xgb_classifier.fit(train, target) predictions = xgb_c

浏览 1提问于2015-11-02得票数 8

1回答

如何区分信息特征和非信息特征的重要性？

machine-learning、data-mining、predictive-modeling、feature-selection、feature-engineering

我有一个5K记录集中于二进制分类问题的数据集。我的数据集中有60多个特性。当我使用Xgboost时，我得到了下面的Feature Importance图。不过，我不知道如何找出所有这些是否都是信息？ 📷 问题 ( 1)是的，我可以选择前15/20/25等，但这是怎么做到的？有什么最低的F-score是我们应该寻找的吗？ ( 2)或者我是否选择了前10个特征，检查准确性，然后在每一轮中再添加2-3个特征，并手动验证准确性。是这样做的吗？ 3)你们会怎么做呢？我试过使用完整的数据集，准确率仅为86%。当我尝试使用15-20个功能时，只有84个。因此，手工特征选择是进一步改进的唯一途径？你能帮帮我

浏览 0提问于2019-12-15得票数 1

回答已采纳

1回答

XGBoost。如何从xgb.dump (多重:软目标)获取类概率

r、xgboost

我用XGBoost进行了三级分类预测.接下来是获取树模型(由xgb.dump()打印)，并在.net生产系统中使用。我真的不明白如何才能从休假中的单一值中得到概率的3倍值： <code> [1107] "booster[148]""0:[f24<1.5] yes=1,no=2,missing=1" [1109] "1:[f4<0.085] yes=3,no=4,missing=3""3:leaf=0.00624765" [1111] &#

浏览 4提问于2016-10-04得票数 1

1回答

对于1000行数据集，我可以使用xgboost来解决分类问题吗？

machine-learning、python、xgboost

我已经在我的数据集上使用了所有类型的分类算法，但是无论我如何尝试，我都无法提高我的分数。所以我读过关于Xgboost分类器的文章。因此，我想知道在大约1000行的数据集中使用xgboost是否实用。请让我知道。

浏览 0提问于2018-10-23得票数 3

回答已采纳

1回答

特性重要性评分Python

python、feature-extraction、feature-engineering

我有一个有7个属性的数据集，即时间，C1，.C7关于地震的报告，其中每一列/属性代表损害的某一方面，即功率、sewer_and_water、shake_intensity等。这些属性的等级从0到10，其中0表示无损伤，10表示最大损害。由于每个属性中的某些评分可能不可信，因此我试图计算一个加权分数，如下所示：(C1 * W1) + (C2 * W2) +.+ (C7 * W7)；其中Ci是ith属性，Wi是它的特征重要性评分。为了计算每个行/数据点的加权分数，我尝试训练一个分类器，如随机森林分类器、LightGBM分类器或XGBoost分类器，为每个属性提供一个特征重要性评分。然而，由于我

浏览 0提问于2019-05-23得票数 1

1回答

Decision_function用于XGBoost的SKLearn包装器

machine-learning、scikit-learn、xgboost

对于model.predict_proba(X)[:,0]，我得到的结果与SKLearn中的普通Grad决策树分类器的model.decision_function(X)不同，所以我知道这是不一样的。我要模型的分数。绘制ROC曲线等，如何利用XGBoost包装器获得SKLearn分类器的决策函数？为什么predict_proba和分数不同？

浏览 0提问于2018-04-11得票数 0

1回答

是否有可应用于分类数据输入的特征选择算法？

python、algorithm、machine-learning、scikit-learn、neural-network

我正在训练一个神经网络，它有大约10个分类输入。在对这些分类输入进行一次性编码后，我最终将大约500个输入输入到网络中。我希望能够确定我的每个分类输入的重要性。Scikit-learn有，但是其中任何一个都可以应用于分类数据输入吗？所有的例子都使用数值输入。我可以将这些方法应用于one-hot编码输入，但如何在应用于二进制化的输入后提取含义？如何判断分类输入的特征重要性？

浏览 15提问于2017-02-18得票数 6

3回答

是否可以将PCA应用于任何文本分类？

python、scikit-learn、pca、naivebayes

我在用蟒蛇做分类。我对网页使用朴素贝叶斯MultinomialNB分类器(从web检索数据到文本，稍后我对文本进行分类: web分类)。现在，我试图将PCA应用于这些数据，但是python给出了一些错误。我用朴素贝叶斯分类的代码： from sklearn import PCA from sklearn import RandomizedPCA from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB vectorizer = Count

浏览 6提问于2016-01-11得票数 16

1回答

使用xgboost预测的分类

classification、predictive-modeling、xgboost

我试着用xgboost R包构建一个0-1分类器。我的问题是如何做出预测？例如，在随机森林中，树木“投票”反对每一种选择，最后的预测是基于多数。关于xgboost，回归的情况很简单，因为对整个模型的预测等于弱学习者的预测和(增强树)，但是分类呢？ xgboost分类器是否与随机林中的工作方式相同(我不这么认为，因为它可以返回预测概率，而不是类成员资格)。

浏览 0提问于2016-01-19得票数 3

回答已采纳

2回答