Hey
随机森林中有关熵概念
- 使熵概率越大,熵越小,所以是减函数
- 使熵可加,所以是log
- 熵可以看成为目标函数的期望
- 熵:H(X) = -P(x )logP(x)
- 条件熵:H(X,Y)-H(X)=H(Y | X)
2.信息增益
- 互信息:H(X)+H(Y)-H(X,Y)=I(X,Y)
- 信息增益表示特征a的信息使x的信息的不确定性减少的程度
- 特征A对训练数据集D的信息增益g(D,A)=H(D)-H(D |A),也就互信息
- 选择信息增益最大的特征作为当前的分类特征
3.样本不均衡的常用方法
- 对多的样本进行欠采样
- 对多的样本进行聚类
- 对少的数据进行过采样
- 随机插值得到新的样本
4.信息增益率 g(d,a) = g(D,a)-h(a)
5.gini系数 p(x)(1-p(x))
6.决策树的评价
7.决策树防止过拟合