ggg/test.md
2025-06-05 00:41:38 +00:00

37 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### Entropy
- 条件熵 $H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)$
- 信息增益 (information gain) 或者互信息 (mutual information): $g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}$
- 信息增益比 (information gain ratio): $g_R(Y,X):= \frac{g(Y,X)}{H(X)}$
- $H(Y)\leq log(n)$
- $H(Y|Y)=0$
- 如果X与Y无关$H(Y|X)=H(Y)$
- $g(Y,X)=H(Y)+H(X)-H(X,Y)$
- $H(Y|X)=H(X,Y)-H(X)$
- 交叉熵 (cross entropy): $H(p,q)=\sum -p(x_i) \log q(x_i)$
- 相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): $D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}$
- $g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))$
- JS 散度:$JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) )$, 这里$m=(p+q)/2 $ 。 p和q支撑集不相交时JS 散度为一个常数 log2
- 最小化交叉熵=最小化KL=极大似然
### Bias-Variance tradeoff
- 通常“复杂”的模型(增加参数;增加特征等)有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias
- 通常“简单”的模型(减少参数;减少特征等)有较小的 Variance 但会带来较高的 Bias. 可通过增加样本bagging等手段来降低 Variance.
### 分类器性能指标
- 正确分类的比率 $Acc=\frac{TP+TN}{TP+TN+FP+FN}$
- 正预测中被分对的比率 $Pre=\frac{TP}{TP+FP}$
- 召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, $Rec=TPR=\frac{TP}{TP+FN=P}$
- 特效度 (specificity) 负样本中被分对的比率 $Spe=\frac{TN}{FP+TN=N}$
- False Postive Rate 负样本中被分错的比率 $FPR=\frac{FP}{FP+TN=N}=1-Spe$
- 正负样本不平衡的情况下,高准确率不一定代表好的分类。比如正样本只有 1 个,实际的例子就是预测地震,每次都预测不地震。
- F-Measure 又称 F-Score: $F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}$
- 计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC)
- ROC (Receiver operating characteristic) 曲线FPR vs TPR
- PR (precision recall) 曲线Pre vs Rec
- TPR = FPR, 它意味着无论一个样本本身是正还是负,分类器预测其为正的概率是一样的,这等同于随机猜测
- 正样本集合中正负样本的比例大幅变化时ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化;
- 比例不平衡有大量负样本时,会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计但精确率则会因为FP变化大幅下降使PR曲线下降明显而给出正确估计。我认不平衡导致TP显得过少FP显得过多
- 考虑阙值分析的,我们使用 ROC 或者 PR分布不平衡的我们使用 F-Score 或者 PR
- 这些指标只能用来衡量分类性能,不能训练分类器的参数。