Nightmare004
决策树学习
决策树最关键的就是如何选择划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高 “信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合DDD中第kkk类样本所占比例为pk(k=1,2,⋯ ,∣Y∣)p_k\left(k=1,2,\cdots, \left|\mathcal{Y}\right|\right)pk(k=1,2,⋯,∣Y∣),