有几篇关于如何将分类数据编码到Sklearn决策树的文章,但是从Sklearn文档中,我们得到了以下内容
决策树的一些优点是:
(...)
能够处理数字和分类数据。其他技术通常专门用于分析只有一种类型变量的数据集。有关更多信息,请参见算法。
但是运行以下脚本
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data
我想使用AdaBoost实现一个java应用程序,它可以对大象是非洲象还是亚洲象进行分类。我的Elephant类有字段:
int size;
int weight;
double sampleWeight;
ElephantType type; // (which can be Asian or African).
我是AdaBoost的新手,我了解到好的弱分类器是决策树桩。我想知道是否支持我只创建两个决策树桩(一个用于大小,一个用于重量),或者我是否应该创建更多的决策树桩(几个不同的大小和几个不同的重量)?分类器的创建到底是什么样子的?
假设我们有一个二进制分类问题,我们在数据集上构建了一个决策树。
假设我们有5个特征,那么决策树将在第一步中选择最优的特征,并在这个特征上选择最佳的阈值来分割数据集,然后继续使树更深。best的定义是分类误差最小的。
我的问题是:既然决策树在每一步都会选择最佳的特征来分割,那么为什么随机森林(也就是许多决策树)是对决策树的改进?一个决策树不就足够了吗?
更新
我的意思是:如果你有一个decision tree classifier和一个参数相同的random forest classifier (max_depth,number of children等),那么decision tree cla