diff --git a/test.md b/test.md index 7a87757..1b2b13c 100644 --- a/test.md +++ b/test.md @@ -22,11 +22,7 @@ Var(\hat\theta_i)=\frac{\sigma^2}{RSS_i} = \frac{\sigma^2}{TSS_i} /(1-R_i^2) $$ - 增加新的变量后,原来变量与新增变量越相关方差就会变得越大。因此整体的MSE也会因此变大。这也可以用来解释多重共线性时,单个系数会不显著(相关性增大了方差减小了 t 检验值)。 - $$ \hat y=X(X^TX)^{-1}X^Ty=:Hy \\ \hat y - y=:e=(I-H) \epsilon $$ -- $$ \frac{RSS}{\sigma^2} \sim \chi^2_{N-d} \\ -\frac{ESS}{\sigma^2} \sim \chi^2_{d-1}((Xθ)^T (H − \frac{1}{N} J)(Xθ))\\ -J := ones(N,N)\\ -\frac{TSS}{\sigma^2} \sim \chi^2_{N-1}((Xθ)^T (I − \frac{1}{N} J)(Xθ)) - $$ + - F检验 $ F= \frac{ESS/d-1}{RSS/N-d} = \sim F_{d-1,N-d} $ - T检验 $ T_i = \frac{\hat\theta_i}{\sqrt{\hat\sigma^2 c_{ii}}} \sim t_{N-d} $ ,这里 $ c_{ii}= (X^T X)^{−1} $ 的对角线上第 i 个元素, $ \hat\sigma^2=RSS/(N-d) $ 。 p-value 越小或者 Ti 越大说明特征 xi 可以有效预测 y。 T 检验不显著的原因可能是特征本身与 y 无关或者特征过多把单个特征的解释性稀释了。 - 增加线性相关的特征,不会影响系数估计和 y 的预测,因此也不会影响 R-Squared