commit 537bc8520d0c371b1c51935610728861b1bd1806 Author: zhangy Date: Thu Jun 5 00:39:30 2025 +0000 添加 test.md diff --git a/test.md b/test.md new file mode 100644 index 0000000..4101b28 --- /dev/null +++ b/test.md @@ -0,0 +1,36 @@ +### Entropy + +- 条件熵 $H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)$ +- 信息增益 (information gain) 或者互信息 (mutual information): $g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}$ +- 信息增益比 (information gain ratio): $g_R(Y,X):= \frac{g(Y,X)}{H(X)}$ +- $H(Y)\leq log(n)$ +- $H(Y|Y)=0$ +- 如果X与Y无关,$H(Y|X)=H(Y)$ +- $g(Y,X)=H(Y)+H(X)-H(X,Y)$ +- $H(Y|X)=H(X,Y)-H(X)$ +- 交叉熵 (cross entropy): $H(p,q)=\sum -p(x_i) \log q(x_i)$ +- 相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): $D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}$ +- $g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))$ +- JS 散度:$JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) )$, 这里$m=(p+q)/2$。 p和q支撑集不相交时,JS 散度为一个常数 log2 +- 最小化交叉熵=最小化KL=极大似然 + +### Bias-Variance tradeoff +- 通常“复杂”的模型(增加参数;增加特征等)有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias +- 通常“简单”的模型(减少参数;减少特征等)有较小的 Variance 但会带来较高的 Bias. 可通过增加样本,bagging等手段来降低 Variance. + +### 分类器性能指标 +- 正确分类的比率 $Acc=\frac{TP+TN}{TP+TN+FP+FN}$ +- 正预测中被分对的比率 $Pre=\frac{TP}{TP+FP}$ +- 召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, $Rec=TPR=\frac{TP}{TP+FN=P}$ +- 特效度 (specificity) 负样本中被分对的比率 $Spe=\frac{TN}{FP+TN=N}$ +- False Postive Rate 负样本中被分错的比率 $FPR=\frac{FP}{FP+TN=N}=1-Spe$ +- 正负样本不平衡的情况下,高准确率不一定代表好的分类。比如正样本只有 1 个,实际的例子就是预测地震,每次都预测不地震。 +- F-Measure 又称 F-Score: $F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}$ +- 计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC) +- ROC (Receiver operating characteristic) 曲线:FPR vs TPR +- PR (precision recall) 曲线:Pre vs Rec +- TPR = FPR, 它意味着无论一个样本本身是正还是负,分类器预测其为正的概率是一样的,这等同于随机猜测 +- 正样本集合中正负样本的比例大幅变化时,ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化; +- 比例不平衡有大量负样本时,会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计,但精确率则会因为FP变化大幅下降,使PR曲线下降明显而给出正确估计。(我认不平衡导致TP显得过少,FP显得过多) +- 考虑阙值分析的,我们使用 ROC 或者 PR;分布不平衡的,我们使用 F-Score 或者 PR; +- 这些指标只能用来衡量分类性能,不能训练分类器的参数。