ggg/test.md at 6b7b6ea60edb080b1d63f8c281ff4f38e13f823d

zhangy/ggg

Fork 0

zhangy 6b7b6ea60e 更新 test.md

2025-06-05 00:41:38 +00:00

2.8 KiB

Raw Blame History

Entropy

条件熵 H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)
信息增益 (information gain) 或者互信息 (mutual information): g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}
信息增益比 (information gain ratio): g_R(Y,X):= \frac{g(Y,X)}{H(X)}
H(Y)\leq log(n)
H(Y|Y)=0
如果X与Y无关，H(Y|X)=H(Y)
g(Y,X)=H(Y)+H(X)-H(X,Y)
H(Y|X)=H(X,Y)-H(X)
交叉熵 (cross entropy): H(p,q)=\sum -p(x_i) \log q(x_i)
相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}
g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))
JS 散度：JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) ), 这里m=(p+q)/2 。 p和q支撑集不相交时，JS 散度为一个常数 log2
最小化交叉熵=最小化KL=极大似然

Bias-Variance tradeoff

通常“复杂”的模型（增加参数；增加特征等）有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias
通常“简单”的模型（减少参数；减少特征等）有较小的 Variance 但会带来较高的 Bias. 可通过增加样本，bagging等手段来降低 Variance.

分类器性能指标

正确分类的比率 Acc=\frac{TP+TN}{TP+TN+FP+FN}
正预测中被分对的比率 Pre=\frac{TP}{TP+FP}
召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, Rec=TPR=\frac{TP}{TP+FN=P}
特效度 (specificity) 负样本中被分对的比率 Spe=\frac{TN}{FP+TN=N}
False Postive Rate 负样本中被分错的比率 FPR=\frac{FP}{FP+TN=N}=1-Spe
正负样本不平衡的情况下，高准确率不一定代表好的分类。比如正样本只有 1 个，实际的例子就是预测地震，每次都预测不地震。
F-Measure 又称 F-Score: F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}
计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC)
ROC (Receiver operating characteristic) 曲线：FPR vs TPR
PR (precision recall) 曲线：Pre vs Rec
TPR = FPR, 它意味着无论一个样本本身是正还是负，分类器预测其为正的概率是一样的，这等同于随机猜测
正样本集合中正负样本的比例大幅变化时，ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化;
比例不平衡有大量负样本时，会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计，但精确率则会因为FP变化大幅下降，使PR曲线下降明显而给出正确估计。（我认不平衡导致TP显得过少，FP显得过多）
考虑阙值分析的，我们使用 ROC 或者 PR；分布不平衡的，我们使用 F-Score 或者 PR；
这些指标只能用来衡量分类性能，不能训练分类器的参数。

2.8 KiB Raw Blame History Unescape Escape

Entropy

Bias-Variance tradeoff

分类器性能指标

2.8 KiB

Raw Blame History