您现在的位置是：首页 > IT要闻

当前栏目

机器学习 | 特征选择（Feature Selection）

学习

2023-03-20 14:56:52 时间

首先对Feature Selection相关的问题进行一个综合性的回顾，主要包含一下几点： 1) Dimensionality reduction(降维)简要介绍; 2) Feature extraction/ Feature projection(特征提取/特征投影)简要介绍； 3）Feature selection(特征选择)简要介绍； 4）Feature selection(特征选择)展开描述； 5）部分相关文献推荐。

Feature Selection其实是属于 Dimensionality reduction(降维)方法里面的一个子方向，所以我们先来说一说Dimensionality reduction.

1. Dimensionality reduction(降维) 简要介绍

Dimensionality reduction是数据挖掘/机器学习里面用来移除不相关特征(irrelevant, noisy)、冗余特征(redundant)的一种常用技术。所谓的不相关特征(irrelevant, noisy)，也就是说这些特征和你要做的事情没有半毛钱关系。举个例子，如果你的算法是为了预测一个上海某高校本科生毕业年薪是多少，但是你采集变量的时候采集了格陵兰岛今年的降水量。降水量这个特征可以说是没有半毛钱关系；所谓的冗余特征(redundant)，也就是说你采集的特征里面有可能高度相关的：比如说上一届学长学姐的平均税前收入、平均税后收入、平均纳税数额。那么同学们有可能会问：数据不是越多越好吗？我们为什么要移除其中一部分变量呢？其实主要有两个原因：

1) 由于curse of dimensionality的存在（维数诅咒，不了解的同学可以去百度/谷歌一下），导致很多在较低维度空间有效的算法

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

机器学习 | 特征选择（Feature Selection）

1. Dimensionality reduction(降维) 简要介绍

相关文章