添加 test.md
This commit is contained in:
commit
537bc8520d
36
test.md
Normal file
36
test.md
Normal file
@ -0,0 +1,36 @@
|
||||
### Entropy
|
||||
|
||||
- 条件熵 $H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)$
|
||||
- 信息增益 (information gain) 或者互信息 (mutual information): $g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}$
|
||||
- 信息增益比 (information gain ratio): $g_R(Y,X):= \frac{g(Y,X)}{H(X)}$
|
||||
- $H(Y)\leq log(n)$
|
||||
- $H(Y|Y)=0$
|
||||
- 如果X与Y无关,$H(Y|X)=H(Y)$
|
||||
- $g(Y,X)=H(Y)+H(X)-H(X,Y)$
|
||||
- $H(Y|X)=H(X,Y)-H(X)$
|
||||
- 交叉熵 (cross entropy): $H(p,q)=\sum -p(x_i) \log q(x_i)$
|
||||
- 相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): $D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}$
|
||||
- $g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))$
|
||||
- JS 散度:$JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) )$, 这里$m=(p+q)/2$。 p和q支撑集不相交时,JS 散度为一个常数 log2
|
||||
- 最小化交叉熵=最小化KL=极大似然
|
||||
|
||||
### Bias-Variance tradeoff
|
||||
- 通常“复杂”的模型(增加参数;增加特征等)有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias
|
||||
- 通常“简单”的模型(减少参数;减少特征等)有较小的 Variance 但会带来较高的 Bias. 可通过增加样本,bagging等手段来降低 Variance.
|
||||
|
||||
### 分类器性能指标
|
||||
- 正确分类的比率 $Acc=\frac{TP+TN}{TP+TN+FP+FN}$
|
||||
- 正预测中被分对的比率 $Pre=\frac{TP}{TP+FP}$
|
||||
- 召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, $Rec=TPR=\frac{TP}{TP+FN=P}$
|
||||
- 特效度 (specificity) 负样本中被分对的比率 $Spe=\frac{TN}{FP+TN=N}$
|
||||
- False Postive Rate 负样本中被分错的比率 $FPR=\frac{FP}{FP+TN=N}=1-Spe$
|
||||
- 正负样本不平衡的情况下,高准确率不一定代表好的分类。比如正样本只有 1 个,实际的例子就是预测地震,每次都预测不地震。
|
||||
- F-Measure 又称 F-Score: $F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}$
|
||||
- 计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC)
|
||||
- ROC (Receiver operating characteristic) 曲线:FPR vs TPR
|
||||
- PR (precision recall) 曲线:Pre vs Rec
|
||||
- TPR = FPR, 它意味着无论一个样本本身是正还是负,分类器预测其为正的概率是一样的,这等同于随机猜测
|
||||
- 正样本集合中正负样本的比例大幅变化时,ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化;
|
||||
- 比例不平衡有大量负样本时,会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计,但精确率则会因为FP变化大幅下降,使PR曲线下降明显而给出正确估计。(我认不平衡导致TP显得过少,FP显得过多)
|
||||
- 考虑阙值分析的,我们使用 ROC 或者 PR;分布不平衡的,我们使用 F-Score 或者 PR;
|
||||
- 这些指标只能用来衡量分类性能,不能训练分类器的参数。
|
Loading…
x
Reference in New Issue
Block a user