0%

随机森林中有关熵概念

Hey

Machine Learning notes

随机森林中有关熵概念

  1. 使熵概率越大,熵越小,所以是减函数
  2. 使熵可加,所以是log
  3. 熵可以看成为目标函数的期望
  4. 熵:H(X) = -P(x )logP(x)
  5. 条件熵:H(X,Y)-H(X)=H(Y | X)

2.信息增益

  1. 互信息:H(X)+H(Y)-H(X,Y)=I(X,Y)
  2. 信息增益表示特征a的信息使x的信息的不确定性减少的程度
  3. 特征A对训练数据集D的信息增益g(D,A)=H(D)-H(D |A),也就互信息
  4. 选择信息增益最大的特征作为当前的分类特征

3.样本不均衡的常用方法

  1. 对多的样本进行欠采样
  2. 对多的样本进行聚类
  3. 对少的数据进行过采样
  4. 随机插值得到新的样本

4.信息增益率 g(d,a) = g(D,a)-h(a)

5.gini系数 p(x)(1-p(x))

6.决策树的评价

7.决策树防止过拟合