test/机器学习.md at 9a3a5d88c1ecdf63bae076d00578e308f995e865

admin/test

Fork 0

admin 9a3a5d88c1 更新机器学习.md

2025-06-10 06:41:06 +00:00

12 KiB

Raw Blame History

Entropy

条件熵 H(Y|X):= \sum_j p(x_j) H(Y|X=x_j)
信息增益 (information gain) 或者互信息 (mutual information): g(Y,X):= H(Y)-H(Y|X)=\sum p(x_i, y_j) \log\frac{p(x_i, y_j)}{p(x_i)p(y_j)}
信息增益比 (information gain ratio): g_R(Y,X):= \frac{g(Y,X)}{H(X)}
H(Y)\leq log(n)
H(Y|Y)=0
如果X与Y无关，H(Y|X)=H(Y)
g(Y,X)=H(Y)+H(X)-H(X,Y)
H(Y|X)=H(X,Y)-H(X)
交叉熵 (cross entropy): H(p,q)=\sum -p(x_i) \log q(x_i)
相对熵 (relative entropy) 或者 KL 散度 (Kullback-Leibler divergence, KLD): D_{KL}(p||q):=H(p,q)-H(p)= \sum -p(x_i)\log \frac{q(x_i)}{p(x_i)}
g(X,Y)=D_{KL}(p(x,y)||p(x)p(y))
JS 散度：JS:=1/2 ( D_{KL}(p||m) + D_{KL}(q||m) ), 这里$m=(p+q)/2$。 m=(p+q)/2 p和q支撑集不相交时，JS 散度为一个常数 log2
最小化交叉熵=最小化KL=极大似然

Bias-Variance tradeoff

通常“复杂”的模型（增加参数；增加特征等）有较小的 Bias 但会带来较高的 Variance. 可通过像boosting等手段来降低 Bias
通常“简单”的模型（减少参数；减少特征等）有较小的 Variance 但会带来较高的 Bias. 可通过增加样本，bagging等手段来降低 Variance.

分类器性能指标

正确分类的比率 Acc=\frac{TP+TN}{TP+TN+FP+FN}
正预测中被分对的比率 Pre=\frac{TP}{TP+FP}
召回率 (recall) 也叫灵敏度 (sensitive) 或者 True Postive Rate(TPR), 正样本中被分对的比率, Rec=TPR=\frac{TP}{TP+FN=P}
特效度 (specificity) 负样本中被分对的比率 Spe=\frac{TN}{FP+TN=N}
False Postive Rate 负样本中被分错的比率 FPR=\frac{FP}{FP+TN=N}=1-Spe
正负样本不平衡的情况下，高准确率不一定代表好的分类。比如正样本只有 1 个，实际的例子就是预测地震，每次都预测不地震。
F-Measure 又称 F-Score: F=\frac{\alpha^2+1}{\alpha^2}\frac{1}{1/Pre+1/Rec}
计算 Phi coefficient , 可得 Matthews correlation coefficient (MCC)
ROC (Receiver operating characteristic) 曲线：FPR vs TPR
PR (precision recall) 曲线：Pre vs Rec
TPR = FPR, 它意味着无论一个样本本身是正还是负，分类器预测其为正的概率是一样的，这等同于随机猜测
正样本集合中正负样本的比例大幅变化时，ROC 曲线并不会产生过大的变化; 使PR 曲线发生巨大变化;
比例不平衡有大量负样本时，会产生大量错误的正预测 (FP)。ROC曲线变化不明显而给出错误的乐观估计，但精确率则会因为FP变化大幅下降，使PR曲线下降明显而给出正确估计。（我认不平衡导致TP显得过少，FP显得过多）
考虑阙值分析的，我们使用 ROC 或者 PR；分布不平衡的，我们使用 F-Score 或者 PR；
这些指标只能用来衡量分类性能，不能训练分类器的参数。

聚类

聚合 (agglomerative) 或自下而上 (bottom-up) 聚类：1. 构造 N 个类，每个类只包含一个样本；2. 合并类间距离最小的两个类；3. 计算新类与当前各类的距离重复以上步骤，直到类的个数达到阙值。复杂度是 O(N^3m): $\sum_{i=1}^N i^2$再乘以维度m.
分裂聚类（自上而下）：1.将所有数据点视为一个聚类。2.选择一个聚类进行分裂。3. 将所选聚类分裂为两个或多个子聚类。4.用新子聚类更新聚类集合。5. 重复：对子聚类重复步骤2-4。6.达到预定条件（如聚类数目或质量标准）后停止
k-means: 最小化类内方差也叫类内平方和
Lloyd 算法：1. 初始化令 t = 0 选择 k 个样本点作为初始聚类中心; 2. 根据上一步的中心进行聚类（E步）3. 重新计算步骤2的中心（M步）。缺点：不平衡即不同类中样本的数量差异很大
Hartigan-Wong 算法：1. 随机分配所有的点到 k 个类上，计算 k 个类的中心。2. 随机选择一个点移出所属类，重新计算类中心。3. 把移出的点重新分配到其距离最近的中心点的类上，其中距离函数中乘以了加权系数$\frac{类的元素个数}{类的元素个数+1}$，使得算法更倾向于把样本分配给样本数量较少的类
MacQueen算法（在线更新算法，只需一次迭代）：1. 选取头 k 个点作为类中心。2. 依次把下一个点分配到当前类中，更新该类的中心。直到所有的点分配完毕。
k-medians：把平方距离(L2)改为绝对值距离 (L1)时，中心也由平均值变成了中位数。
The Elbow Method：当聚类个数超过某个值时，能量减少明显变缓。
k‐means缺点和解决方案：
- 容易局部收敛，在大规模数据集上求解较慢：CLARA, CLARANS
- 离群点和噪声点非常敏感：k-medoids, PAM, DBSCAN
- 初始聚类中心选取敏感：1. 层次聚类选初值；2. k-mean++
- 划分聚类像球型：GMM
k-means++: 思想是使初始中心之间的相互距离尽可能远。1. 从样本集中随机选取一个作为中心；2. 对于每个剩余的数据点，计算它到已选择的聚类中心的“距离”; 3. 从剩余的数据点选一个作为新的中心点，根据2中的“距离”选取，距离远概率大。4. 选出k个中心后再k-means。
k‐medoids: 不计算中心，而是按准则函数选取类中成员 (medoids) 作为“中心”来代表这个类。
k-medoids一种实现方式：Partitioning Around Medoids(PAM)。通过不停对换中心来实现。1. 任意选取 k个点作为中心; 2. 将剩余点聚类到中心；3. 随机地选一非中心点替换中心点，如果损失减少，则交换； 4.重复直到总的损失不变
CLARA (Clustering LARge Applications): 应用于大规模数据。思想为每次随机抽取一小部分样本进行PAM。 1. 几次PAM后得到几组中心；2. 对每一组中心，将剩余点分配到距离最近的中心所代表的类中，计算绝对误差。3. 选取绝对误差最小的那组中心。
CLARANS: 在 CLARA 确定中心之后，类似PAM 中的方法，不停对换中心。
Density-based spatial clustering of applications with noise （DBSCAN ）：1. 按照核心点、边界点、噪声点标记；2. 删除噪声点；3. 把距离小于ϵ的核心点两两连在一起，连通集形成一个聚类；4. 将边界点指派到关联的核心点的聚类中。
- 优点：所有形状的聚类尤其是非凸集；不需指定簇的个数；噪音不敏感，可发现异常点；初始值无影响。
- 缺点：如果密度不均匀、聚类间距差相差很大时，聚类质量较差；计算效率低。
高斯混合模型聚类：假设每个点以一定概率被分配到一个类中，高斯分布可做椭圆划分。

采样

任意离散随机变量采样：利用均匀分布采样和Cumulative Distribution Function简称CDF
用 rand()% M 产生 rand()% N：rand()% M * rand()% M 产生 M*M; 然后用拒绝采样就近采样 N 的倍数
正态随机变量采样： Box-Muller法
- 从 U(0,1) 中抽取两个独立随机数 u_1 和 $u_2$。
- 使用以下公式生成两个独立的标准正态随机变量 $Z_1$和 $Z_2$： $$Z_1 = \sqrt{-2 \ln(u_1)} \cos(2\pi u_2) \ Z_2 = \sqrt{-2 \ln(u_1)} \sin(2\pi u_2) $$
重要性抽样：思想是从一个容易采样的提案分布中抽取样本，然后通过权重调整来估计目标分布下函数f的期望值。q 的选取要接近 p，否则就需要大量的采样才能收敛
舍选法或接受-拒绝抽样法 (accept-reject sampling method) ：通过均匀分布采样大于某阈值选择或舍弃某次采样。建议分布一定比目标分布有更粗的尾。接受一个建议样本的次数 N ∼ G(\frac{1}{M})
π 称为平稳分布 (Stationary distribution)如果 π^T = π^T Q 。
MCMC采样：下面 \alpha= \min(1, \frac{p(j)q(i|j)}{p(i)q(j|i)})
- 当t步时xt, 用概率分布 q(x|xt) 产生样本x_{t+1};
- 产生均匀分布 u ∼ Uniform(0, 1);
- 如果 u < α(x_t, x_{t+1}) 则x_{t+1}; 否则x_{t}.
建议分布
- Metropolis 选择：q(y|x) = q(x|y)
- 独立抽样：q(y|x) = q(y)
- 随机游走：y = x + ϵ . 参数过大则会导致拒绝率大；过小时有非常高的接受率，但产生的状态列自相关性太强导致收敛速度太慢。可解释为大自相关使MC均值的估计方差变大
- 建议分布的选取几个标准：Heavy Tails; 和目标分布一样的支撑集;如果目标分布时多峰值时，应该使用高斯混合模型。
Gibbs：迭代地更新多变量分布中每个维度的样本（在其他维度的当前值条件下），来近似复杂多维概率分布。

PCA

A^T Cov(X)A= diag(\lambda_1,...,\lambda_m), A是$m\times m$正交矩阵将随机向量X变换为互相无关的随机向量Y
X任何的单位向量线性组合=Y的单位向量线性组合。这个线性组合的方差就是特征根的加权平均，所以一定小于最大特征根
如果存在几个相关性很高的特征，比如某特征复制若干遍，则会出现一个主成分的方差异常高于其他的主成分，错误的认为只有一个主成分。一般情况下保留高相关性的特征，除非数量非常庞大显著影响到其他主成分
选几个主成分k一般由贡献率η来决定，η=前k个特征的和/全部的和
样本矩阵$X_{N×m}$，其中N为样本个数，m为特征个数。样本协方差和样本相关矩阵都是无偏估计。样本协方特征根和特征向量是 Cov(X) 的特征值和特征向量的MLE
X=X\alpha_1\alpha_1^T+...+X\alpha_m\alpha_m^T=
与回归类似，加入新的特征，新第一主成分的方差（特征根）一定不会减少
PCA需要标准化预处理，方差大的特征，相较于小的数据获得更高的权重，这样会导致它们不合常理的干涉第 1 主成分的变化。
最小平方误差理解 PCA: 前 k 个主成分$\alpha_1...\alpha_k$为 k-维超平面使得为样本点到超平面平方距离和最小。这是一个降维的过程也是编码解码的过程，可以推广到非线性降维即自编码器
可以考虑两个空间来思考PCA和回归问题：样本点所在的空间dim=m；随机向量空间当dim=N（样本PCA的时候）或无穷（总体PCA的时候）
主成分回归 (principal component regression, PCR)：使用PCA降维后再做Multiple Linear Regression
PCR可以用来消除线性规划中的多重共线性问题；小特征根会加大估计的方差，使得特征对输入变化非常敏感。
PCR 先考虑了X的方差，然后再考虑新特征与Y之间的相关性，这与同时考虑最大化X的方差和与Y的相关性不同。PCR不是PLSR dim y = 1的特殊情形
PCA异常值检验：
- 方差得分：考察某异常点往各个主成分上投影的（加权除以$\lambda_i$）平方和。这里$\lambda_i$使得各个特征向量之间有可比性。也可以选择前r个或者在后r个特征上的得分。
- 重构误差:=前k个特征向量的重构误差的加权平均
奇异值分解 (SVD)：$A_{m\times n}=U_{m\times m}\Sigma_{m\times n} V_{n\times n}^T$，这里U和V正交矩阵，\Sigma=diag(1,...,1,0,...)
紧奇异值分解 (compact singular value decomposition)等号；截断奇异值分解 (truncated singular value decomposition)约等于
线性判别分析(Linear Discriminant Analysis, LDA)是有监督的降维方法。思想是将每个类的样本点投影到低维超平面上使得类内方差最小，类外方差最大即使得降维后类间的分隔尽可能的大
$S_w$类内散度矩阵 (within-class scatter matrix)(也就是样本协方差矩阵m × m):类内样本协方差矩阵，再对类求和
$S_t$全局散度：所有样本协方差
$S_b$类间散度矩阵 (between-class scatter matrix) S_t-S_w=\sum |C_i| (\mu_i-\mu)(\mu_i-\mu)^T
LDA就是最大化 $max_W \frac{W^TS_bW}{W^TS_wW}$求对角线元素乘积；这里$S_b$秩最多k − 1也就是说非零特征根最多k − 1个，所以最大的投影超平面为 k − 1维
PCA 和 LDA 不同点：1有无监督；2维数不能超过类别数；3 LDA过分依赖类的中心，所以当类中心比较接近而依靠方差来分类时，PCA投影后分类效果优于LDA
稀疏编码：寻找一组过完备(overcomplete)的基向量（基向量个数远大于dim x）$A = [a_1, · · · , a_M]$来表示样本$x=Ah$，这里$h$稀疏

12 KiB Raw Blame History Unescape Escape

Entropy

Bias-Variance tradeoff

分类器性能指标

聚类

采样

PCA

12 KiB

Raw Blame History