您现在的位置是：首页 > Python

当前栏目

python 归一化方法

Python 计算数据

2023-04-18 14:43:12 时间

1、min-max标准化（Min-Max Normalization）
from sklearn import preprocessing

import numpy as np

X = np.array([[ 1., -1., 2.],

[ 2., 0., 0.],

[ 0., 1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()

X_minMax = min_max_scaler.fit_transform(X)

这类归一化让各列数按照均值归一化到【0，1】区间
2、归一到[-1,1]
from sklearn import preprocessing
import numpy as np

x = np.array([[3., -1., 2., 613.],
[2., 0., 0., 232],
[0., 1., -1., 113],
[1., 2., -3., 489]])
max_abs_scaler = preprocessing.MaxAbsScaler()
x_train_maxsbs = max_abs_scaler.fit_transform(x)
x_train_maxsbs
3、标准化(Standardization)：
将数据按比例缩放，使之落入一个小的特定区间内，标准化后的数据可正可负，一般绝对值不会太大。
计算时对每个属性/每列分别进行
将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。

使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化：

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1., 2.],
… [ 2., 0., 0.],
… [ 0., 1., -1.]])
X_scaled = preprocessing.scale(X)

X_scaled
array([[ 0. …, -1.22…, 1.33…],
[ 1.22…, 0. …, -0.26…],
[-1.22…, 1.22…, -1.06…]])

#处理后数据的均值和方差
X_scaled.mean(axis=0)
array([ 0., 0., 0.])

X_scaled.std(axis=0)
array([ 1., 1., 1.])

使用sklearn.preprocessing.StandardScaler类，使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据：

scaler = preprocessing.StandardScaler().fit(X)

4、正则化：
正则化的过程是将每个样本缩放到单位范数（每个样本的范数为1），如果后面要使用如二次型（点积）或者其它核方法计算两个样本之间的相似性这个方法会很有用。

Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。

p-范数的计算公式：||X||p=(|x1|^p+|x2|^p+…+|xn|^p)^1/p

该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。

1、可以使用preprocessing.normalize()函数对指定数据进行转换：

X = [[ 1., -1., 2.],
… [ 2., 0., 0.],
… [ 0., 1., -1.]]
X_normalized = preprocessing.normalize(X, norm=‘l2’)

X_normalized
array([[ 0.40…, -0.40…, 0.81…],
[ 1. …, 0. …, 0. …],
[ 0. …, 0.70…, -0.70…]])

2、可以使用processing.Normalizer()类实现对训练集和测试集的拟合和转换：

normalizer = preprocessing.Normalizer().fit(X) # fit does nothing
normalizer
Normalizer(copy=True, norm=‘l2’)

normalizer.transform(X)
array([[ 0.40…, -0.40…, 0.81…],
[ 1. …, 0. …, 0. …],
[ 0. …, 0.70…, -0.70…]])

normalizer.transform([[-1., 1., 0.]])
array([[-0.70…, 0.70…, 0. …]])

StandardScaler 与 scale结果是一样是，只是泛化不一样

猜你喜欢

MySQL数据库的优化（下）MySQL数据库的高可用架构方案
走近MongoDB开发者大会
数据库加密技术的功能特性与实现方法
传统数据库架构真的老到脆弱的不堪一击吗
MongoDB学习笔记(一) MongoDB介绍及安装
企业选型数据库系统的五点建议
用SQL Mail创建日常报告技巧介绍
减少SQL Server数据库死锁的技巧
MySQL数据库的优化（上）单机MySQL数据库的优化
Oracle PLM助力企业提高产品创新能力
Oracle数据库索引的优点与缺点的描述
成本更低、性能更高 IBM DB2成为行业首选
Java访问ACCESS数据库的方法
数据库暴库整理篇
解秘IBM数据库新利器
MySQL数据库的用户帐号管理基础知识
数据库安全解析
数百家SAP用户迁移到IBM DB2数据库
企业合并时十步骤助其减少数据风险
建立数据仓库的八条基本准则

zl程序教程

当前栏目

python 归一化方法

相关文章