机器学习之特征归一化(normalization)详解大数据
对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价。下面,我们有这样一组训练样本:
注意到,房屋面积及卧室数量两个特征在数值上差异巨大,如果直接将该样本送入训练,则代价函数的轮廓会是“扁长的”,在找到最优解前,梯度下降的过程不仅是曲折的,也是非常耗时的:
该问题的出现是因为我们没有同等程度的看待各个特征,即我们没有将各个特征量化到统一的区间。
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:
StandardizationStandardization又称为Z-score normalization,量化后的特征将服从标准正态分布:
其中,
u和delta
分别为对应特征
xixi
的均值和标准差。量化后的特征将分布在
[-1, 1]
区间。
Min-Max Scaling又称为Min-Max normalization, 特征量化的公式为:
量化后的特征将分布在[0,1][0,1]区间。
大多数机器学习算法中,会选择Standardization来进行特征缩放,但是,Min-Max Scaling也并非会被弃置一地。在数字图像处理中,像素强度通常就会被量化到[0,1]区间,在一般的神经网络算法中,也会要求特征被量化[0,1]区间。
进行了特征缩放以后,代价函数的轮廓会是“偏圆”的,梯度下降过程更加笔直,收敛更快性能因此也得到提升:
三 实现
# ... def standardize(X): """特征标准化处理 Args: X: 样本集 Returns: 标准后的样本集 """ m, n = X.shape # 归一化每一个特征 for j in range(n): features = X[:,j] meanVal = features.mean(axis=0) std = features.std(axis=0) if std != 0: X[:, j] = (features-meanVal)/std else X[:, j] = 0 return X def normalize(X): """Min-Max normalization sklearn.preprocess 的MaxMinScalar Args: X: 样本集 Returns: 归一化后的样本集 """ m, n = X.shape # 归一化每一个特征 for j in range(n): features = X[:,j] minVal = features.min(axis=0) maxVal = features.max(axis=0) diff = maxVal - minVal if diff != 0: X[:,j] = (features-minVal)/diff else: X[:,j] = 0 return X
9349.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- Marcos Lopez de Prado:计量经济学家的机器学习手册
- 【2022新书】药物开发中的数据科学、人工智能和机器学习
- Python机器学习教程—数据预处理(sklearn库)
- 图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二)
- Byzer + OpenMLDB 实现端到端的,基于实时特征计算的机器学习流程
- 297个机器学习彩图知识点(5)
- 297个机器学习彩图知识点(12)
- 机器学习:如何解决类别不平衡问题
- 遥感数据机器学习的准备工作:python将栅格数据提取至EXCEL
- 【文末送书】2022世界杯冠军预测,机器学习为你揭晓
- 数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
- [NC | 论文简读] devCellPy是一个机器学习支持的管道,用于自动注释复杂的多层单细胞转录组数据
- OECD:人工智能、机器学习和大数据在金融领域的应用
- 【人工智能】机器学习工具总览
- BioRxiv|PointVS:识别重要的蛋白质-药物关联的机器学习打分函数
- CADD、人工智能和机器学习在药物发现中的应用:方法概述
- Python中用PyTorch机器学习神经网络分类预测银行客户流失模型|附代码数据
- R语言机器学习实战之多项式回归|附代码数据
- 应用数学家Lek-Heng Lim使用代数、几何和拓扑的工具来回答机器学习中的问题
- 香港理工大学招收大数据/机器学习博士生/博士后
- 机器学习之线性回归的最小二乘法求解详解大数据
- 机器学习信仰之朴素贝叶斯法详解大数据
- 机器学习之特征工程(一)详解大数据
- 机器学习之 损失函数和风险函数详解大数据
- 机器学习 贝叶斯分类详解大数据
- 一份不可多得的数据科学与机器学习Python库
- 一文看懂机器学习与大数据风控 | 雷锋网公开课
- Money2020重磅直击,一文看懂机器学习与大数据风控 | 新金融科技周刊
- 机器学习问答数据集:这是保险领域首个开放的QA语料库