zl程序教程

您现在的位置是:首页 >  IT要闻

当前栏目

机器学习 | 特征选择(Feature Selection)

2023-03-20 14:56:52 时间

首先对Feature Selection相关的问题进行一个综合性的回顾,主要包含一下几点: 1) Dimensionality reduction(降维)简要介绍; 2) Feature extraction/ Feature projection(特征提取/特征投影)简要介绍; 3)Feature selection(特征选择)简要介绍; 4)Feature selection(特征选择)展开描述; 5)部分相关文献推荐。

Feature Selection其实是属于 Dimensionality reduction(降维)方法里面的一个子方向,所以我们先来说一说Dimensionality reduction.

1. Dimensionality reduction(降维) 简要介绍

Dimensionality reduction是数据挖掘/机器学习里面用来移除不相关特征(irrelevant, noisy)、冗余特征(redundant)的一种常用技术。所谓的不相关特征(irrelevant, noisy),也就是说这些特征和你要做的事情没有半毛钱关系。举个例子,如果你的算法是为了预测一个上海某高校本科生毕业年薪是多少,但是你采集变量的时候采集了格陵兰岛今年的降水量。降水量这个特征可以说是没有半毛钱关系;所谓的冗余特征(redundant),也就是说你采集的特征里面有可能高度相关的:比如说上一届学长学姐的平均税前收入、平均税后收入、平均纳税数额。 那么同学们有可能会问:数据不是越多越好吗?我们为什么要移除其中一部分变量呢?其实主要有两个原因:

1) 由于curse of dimensionality的存在(维数诅咒,不了解的同学可以去百度/谷歌一下),导致很多在较低维度空间有效的算法