diff --git a/机器学习.md b/机器学习.md index 832b668..68bc358 100644 --- a/机器学习.md +++ b/机器学习.md @@ -39,7 +39,7 @@ ### 聚类 -- 聚合 (agglomerative) 或自下而上 (bottom-up) 聚类:1. 构造 N 个类,每个类只包含一个样本;2. 合并类间距离最小的两个类;3. 计算新类与当前各类的距离重复以上步骤,直到类的个数达到阙值。复杂度是 $O(N^3m)$: $\sum_{i=1}^N i^2$再乘以维度m. +- 聚合 (agglomerative) 或自下而上 (bottom-up) 聚类:1. 构造 N 个类,每个类只包含一个样本;2. 合并类间距离最小的两个类;3. 计算新类与当前各类的距离重复以上步骤,直到类的个数达到阙值。复杂度是 $O(N^3m)$: $\sum_{i=1}^N i^2$ 再乘以维度m. - 分裂聚类(自上而下):1.将所有数据点视为一个聚类。2.选择一个聚类进行分裂。3. 将所选聚类分裂为两个或多个子聚类。4.用新子聚类更新聚类集合。5. 重复:对子聚类重复步骤2-4。6.达到预定条件(如聚类数目或质量标准)后停止 - k-means: 最小化类内方差也叫类内平方和 - Lloyd 算法:1. 初始化令 t = 0 选择 k 个样本点作为初始聚类中心; 2. 根据上一步的中心进行聚类(E步)3. 重新计算步骤2的中心(M步)。 缺点:不平衡即不同类中样本的数量差异很大