zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

数据中心化与标准化

2023-04-18 16:47:48 时间

一、数据中心化与标准化

对具体问题进行统计分析离不开统计指标,统计指标是对分析对象的数量特征进行描述和分析的基本工具。在利用统计指标进行统计分析时,要特别注意统计数据的可比性和综合性问题。

我们都知道,对比分析是统计分析最基本、最常用的方法。首先,它强调可比性,若失去可比性,其分析结果就会出现偏差。例如,我们有5名新生婴儿的体重(斤)资料为:5、6、7、8、9;同时又有5名成年人的体重(斤)资料为:130,131,132,133,134,要求对比分析两组人员体重差异的大小。从数据表面看,两组人员体重的平均差异均是1斤,若由此便得出两组人员体重的差异和程度相同的结论则是不合适的。因为,两组人员的体重水平不在同一等级上,即量纲不同。从外观上看,婴儿的体重相差1斤就比较明显了,而成年人体重相差1斤则基本察觉不到,这时比较两组人员体重上差异的大小,不应该用平均差异,而应该消除其量纲(即体重基本水平)上的不同。用相对数表示为:体重的平均差异值/平均体重,即用1/7和1/132进行比较、分析。这种简单的对比分析的过程,表面上看是指标的选用问题,实际上则是指标数值无量钢化的处理问题。

除上述简单的统计对比分析外,统计分析更多的是针对较复杂的社会经济现象,需要用比较广泛的统计指标,即利用由众多指标构成的统计指标体系进行描述与分析。而利用多指标进行统计分析,往往需要借助于各种各样的统计综合合成方法,如多指标的综合评价、聚类分析、主成分分析、关联分析,等等。为此,需要指标之间具有综合性。此外,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用,从而使各指标数值可综合性的问题,必要时需要对各指标数值进行无量钢化处理。

无量钢化,也叫数据的标准化、规格化,它是通过简单的数学变换来消除各指标量纲影响的方法。

中心化,又叫零均值化,是指变量减去均值,中心化处理后的数据中心是(0,0),均值为0(图1)。

图1 数据中心化示意图

二、如何进行数据中心化

进行假设模型中调节效应检验前,一个很重要的步骤就是对样本数据进行中心化处理,为了解决这个问题,不妨假设变量A是单维度变量,由三个题项a1,a2,a3构成,现对A的样本数据进行中心化步骤如下:

首先分别计算每一个题项的均值:分析-描述统计-描述-拖入题项-选项-均值

计算得到三个题项的均值分别为3.85,3.54与3.99。

得到每一个题项的均值后,计算中心化值:

转换-计算变量-输入公式(每一个题项减去每一个题项的均值而后除以题项个数)

案例公式:((a1-3.85)+(a2-3.54)+(a3-3.99))/3

由此便可得到中心化后的样本数据。

当然了,当前随着PROCESS插件的应用,已经不需要手动地进行样本数据的中心化处理,具体而言,我们在进行调节效应检验中可以这么处理:

首先打开PROCESS插件:分析-回归-PROCESS

PROCESS默认不进行数据中心化,我们可以自行设置:回归-PROCESS-options,而后在右侧的Mean center for construction of products设置框中,选择“All variables that define products”即可。

参考文献

[1]马立平.统计数据标准化──无量纲化方法──现代统计分析方法的学与用(三)[J].北京统计,2000(03):34-35.