ggg/test.md
2025-06-05 00:41:38 +00:00

2.8 KiB
Raw Blame History

Entropy

  • 条件熵 H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)
  • 信息增益 (information gain) 或者互信息 (mutual information): g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}
  • 信息增益比 (information gain ratio): g_R(Y,X):= \frac{g(Y,X)}{H(X)}
  • H(Y)\leq log(n)
  • H(Y|Y)=0
  • 如果X与Y无关H(Y|X)=H(Y)
  • g(Y,X)=H(Y)+H(X)-H(X,Y)
  • H(Y|X)=H(X,Y)-H(X)
  • 交叉熵 (cross entropy): H(p,q)=\sum -p(x_i) \log q(x_i)
  • 相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}
  • g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))
  • JS 散度:JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) ), 这里m=(p+q)/2 。 p和q支撑集不相交时JS 散度为一个常数 log2
  • 最小化交叉熵=最小化KL=极大似然

Bias-Variance tradeoff

  • 通常“复杂”的模型(增加参数;增加特征等)有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias
  • 通常“简单”的模型(减少参数;减少特征等)有较小的 Variance 但会带来较高的 Bias. 可通过增加样本bagging等手段来降低 Variance.

分类器性能指标

  • 正确分类的比率 Acc=\frac{TP+TN}{TP+TN+FP+FN}
  • 正预测中被分对的比率 Pre=\frac{TP}{TP+FP}
  • 召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, Rec=TPR=\frac{TP}{TP+FN=P}
  • 特效度 (specificity) 负样本中被分对的比率 Spe=\frac{TN}{FP+TN=N}
  • False Postive Rate 负样本中被分错的比率 FPR=\frac{FP}{FP+TN=N}=1-Spe
  • 正负样本不平衡的情况下,高准确率不一定代表好的分类。比如正样本只有 1 个,实际的例子就是预测地震,每次都预测不地震。
  • F-Measure 又称 F-Score: F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}
  • 计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC)
  • ROC (Receiver operating characteristic) 曲线FPR vs TPR
  • PR (precision recall) 曲线Pre vs Rec
  • TPR = FPR, 它意味着无论一个样本本身是正还是负,分类器预测其为正的概率是一样的,这等同于随机猜测
  • 正样本集合中正负样本的比例大幅变化时ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化;
  • 比例不平衡有大量负样本时,会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计但精确率则会因为FP变化大幅下降使PR曲线下降明显而给出正确估计。我认不平衡导致TP显得过少FP显得过多
  • 考虑阙值分析的,我们使用 ROC 或者 PR分布不平衡的我们使用 F-Score 或者 PR
  • 这些指标只能用来衡量分类性能,不能训练分类器的参数。