特征缩放是强制性的吗? 什么时候使用标准化? 什么时候使用归一化?数据的分布会发生什么变化?对异常值有什么影响?模型的准确性会提高吗?
2023-09-11 14:18:32 时间
以上问题也是面试中经常被问到的问题,我将在本博客中尝试通过提供合适的例子来回答上述问题。我们将使用 sklearn 的 StandardScaler 和 MinMaxScaler。
让我们考虑一个数据集,其中Age和Estimated Salary是输入特征,我们必须预测产品是否已购买(输出标签)或未购买。
看看我们数据的前 5 行。
什么是标准化?
标准化 或 Z-Score 归一化是特征缩放技术之一,这里特征的转换是通过从均值中减去并除以标准差来完成的。这通常称为 Z 分数归一化。结果数据的平均值为 0,标准差为 1。
所以现在我们已经看到了标准缩放的公式,现在我们将看看如何将它应用于我们的数据集。
首先,我们将数据分为训练集和测试集,并应用标准缩放器。
数据集描述:
相关文章
- 数据库异常:SQL Error: 0, SQLState: S0022
- 解决poi导出Excel异常org.openxmlformats.schemas.spreadshe
- MySQL触发器更新本表数据异常:Can't update table 'tbl' in stored function/trigger because it
- GPDB · 特性分析 · Segment事务一致性与异常处理
- thinkphp6:自定义异常处理使统一返回json数据(thinkphp6.0.5 / php 7.4.9)
- 【译】11条Java异常处理的最佳实践
- Atitit 数据库抽象层jdbc pdo ado.net等比较与异常点 目录 1. 应该具有的功能1 1.1. 元数据 API1 1.2. 分布式事务 vs事务中使用 Savepoint1
- ML之R:通过数据预处理(缺失值/异常值/特殊值的处理/长尾转正态分布/目标log变换/柱形图-箱形图-小提琴图可视化/构造特征/特征筛选)利用算法实现二手汽车产品交易价格回归预测之详细攻略
- 已解决使用pycharm run运行代码正常而debug却抛出异常UnicodeDecodeError: ‘utf-8’ codec can’t decode bytes in position 10
- 【项目实战】Python基于局部离群因子LOF算法(LocalOutlierFactor)实现信用卡数据异常值检测项目实战
- 向QtableWidget中添加自定义widget崩溃异常: 0xC0000005
- 易飞-凭证打印异常(字符中含有空格,自己主动分行导致显示异常)
- 使用IDA查看汇编代码上下文去辅助排查C++软件异常问题
- 如何利用AI识别未知——加入未知类(不太靠谱),检测待识别数据和已知样本数据的匹配程度(例如使用CNN降维,再用knn类似距离来实现),将问题转化为特征搜索问题而非决策问题,使用HTM算法(记忆+模式匹配预测就是智能),GAN异常检测,RBF
- LSTM 时间序列数据的异常检测
- 异常检测——无监督、高斯分布模型,需要带标记的样本数据,基本假设:特征符合高斯分布
- php 异常
- C++中的异常处理(下)
- 线上问题排查-HBase写数据出现NotServingRegionException(Region ... is not online)异常
- 【异常】解决npm install慢的问题,在国内被墙
- 超全面,盘点14 种数据异常值检验方法
- VC中关于 0xcccccccc、0xcdcdcdcd和 0xfeeefeee 异常值说明