② 属性用尽 ( 递归停止条件 ) : 如果
\rm T
没有用于继续分裂的变量 , 则将
\rm T
中出现频率最高的类别作为当前节点的类别 ;
③ 样本用尽 ( 递归停止条件 ) : 如果...\rm T
中的样本都分配完毕 , 现在为空 , 则停止递归 ;
④ 分支 ( 递归操作 ) : 如果
\rm T
包含的样本属于不同类别 , 根据变量选择策略 , 选择最佳的 变量 和 划分方式...; ( 递归停止条件 )
② 类型相同 : 如果
\rm T
所有样本都属于类别
\rm C
, 则
\rm C
类型就是当前结点类型 , 返回 ; ( 递归停止条件 )
③ 属性用尽 :...如果
\rm T
的所有变量属性都被使用了 , 则使用出现频率最高的类别作为本结点的类型 , 返回 ; ( 递归停止条件 )
④ 生成分支 : 根据 变量选择策略 选择最佳变量
\rm X
将...,
\rm X
结点指向 这些递归操作生成的新的分支 ;
⑦ 返回当前的结点 ;
五、 K-Means 算法优缺点
----
K-Means 算法优点 :
① 处理大数据量有 可扩充性 和 高效率