diff --git a/机器学习.md b/机器学习.md index 0aeccc1..ca72450 100644 --- a/机器学习.md +++ b/机器学习.md @@ -143,4 +143,3 @@ - 递归特征消除(Recursive Feature Elimination, RFE):1从全部特征开始,训练一个基线模型;2使用模型(如决策树、随机森林等)评估每个特征重要性;3. 根据特征重要性,选择一定数量特征进行消除;4递归,在消除了部分特征的数据集上重新训练模型,并重复2和3;5最终选择在多次迭代后保留下来的特征。优势在于可使RFE能够识别出那些在组合中对模型性能有显著影响的特征。 - 随机稀疏模型 (Randomized sparse models): 多次随机选取特征训练如L1稀疏模型,以被稀疏模型选中为非零特征的次数来排序。 - 要同时选中高相关特征的重要性除了过滤法外,也有改进RF的Boruta:通过随机打乱原始特征的值为数据集中的每个特征创建影子特征;将影子特征添加到原始数据集中,形成扩展数据集,并用其训练随机森林模型;在每次迭代中,比较每个原始特征的重要性与影子特征的最高重要性,若原始特征的重要性高于影子特征的最高值,则认为该特征是重要的(Hit),否则是不重要的(Miss);重复上述过程多次(通常100次),统计每个特征的“命中”次数和“未命中”次数;根据统计结果,将特征分为“重要”、“不重要”和“不确定”三类,重要特征被保留,不重要特征被剔除,而不确定特征则根据设定的迭代次数或阈值进一步判断 -