李航《统计学习方法》决策树C4.5算法实现

Coggle数据科学

发布于 2019-09-12 16:19:59

5960

发布于 2019-09-12 16:19:59

文章被收录于专栏：Coggle数据科学

C4.5算法修改代码

def bestFeatureToSplit(dataset):
    '''
    input：数据集
    output：最好的划分特征
    describe：选择最好的数据集划分维度
    '''
    numFeatures = dataset.shape[1] - 1
    ShannonEnt = calcShannonEnt(dataset)
    bestInfoGain = 0.0
    bestFeature = -1
    cols = dataset.columns.tolist()
    for i in range(numFeatures):
        equalVals = set(dataset[cols[i]].tolist())
        newEntropy = 0.0
        for value in equalVals:
            subDataSet = splitDataSet(dataset, cols[i], value)
            prob = subDataSet.shape[0] / dataset.shape[0]
            newEntropy += prob * calcShannonEnt(subDataSet)
            #####计算特征熵#####
            splitInfo += -prob * log(prob, 2)
            ###################
        infoGain = ShannonEnt - newEntropy
        print(cols[i],infoGain)
        #####计算增益比#####
        infoGainRatio = infoGain / splitInfo
        ###################
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = cols[i]
    return bestFeature, bestInfoGain

对ID3算法中bestFeatureToSplit()函数进行了修改，计算增益比。

我们引入一个信息增益比的变量