数据分析方法:非正态数据转化成正态数据
大部分的数据分析都希望原始数据是满足正态分布的定距变量。然而,显示是残酷的,在各种研究中,常常需要面对非正态分布的定距数据。为了解决数据的正态性问题,数学家们总结了很多转化方法,但是没有万能神药,都需要对症下药(根据数据的实际分布情况,选择合适的转化方法)。
下面不会介绍具体的转化方法,只是帮助大家理顺正态转化的思路,明白正态转化的逻辑,不至于将正态转化看做神秘领域,高不可攀。
正态转化四步骤
第一步:计算数据的分布状况及两个参数:偏度(Skewness)和峰度(Kurtosis)。
第二步:根据变量的分布形状和参数,决定是否做转换。
1、对称判断
看Skewness(偏差度)的取值。如果偏度为0,则是完全对称(但罕见);如果偏度为正值,则说明该变量的分布为正偏态;如果偏度为负值,则说明该变量的分布为负偏态。然而,偏度值还不能完全判断偏态的分布是否与正态分布有显著差别,所以还需要做显著性检验。如果检验结果显著,我们可能(注意是“可能”)可以通过转换来达到或接近对称。
2、峰度检验
Kurtosis(峰度)是判断曲线陡峭和平缓的指标。如果峰度为0,说明该变量分布合适(但罕见);如果峰度为正值,说明该变量的分布陡峭;反之,如果峰度为负值,说明变量的分布平缓。峰度也需要通过显著检验来判断与正态分布是否有显著差别。我们可能可以通过转换来达到或接近正态分布。
第三步:如果需要做正态转换,根据变量的分布形状,确定相应的转换公式。下面简单介绍3种常见的正态转换方法
1、如果是中度偏态
如果偏度为其标准误差的2-3倍,可以考虑取根号值来转换。
2、如果高度偏态
如果偏度为其标准误差的3倍以上,则可以取对数,其中又可分为自然对数和以10为基数的对数。
3、对于双峰或多峰数据
秩分的正态得分的转化方法,SPSS软件中常用,请关注SPSS视频教程。
第四步:再次检验转换后变量的分布形状。如果没有解决问题,或者甚至恶化,需要再从第二或第三步重新做起,然后再回到第一步的检验。直至达到比较令人满意的结果。
数据正态化注意点
1、偏度和峰度的标准误差与样本量直接有关。具体说来,偏度的标准误差约等于6除以n后的开方,而峰度的标准误差约等于24除以n后的开方,n为样本量。由此可见,样本量越大,标准误差越小。
2、数据的正态转化方法不是通用的,要根据不同的数据分布情况,选择合适的或创造合适的转化公式,转化后必须验证转化效果,最终达到转化的目的。
3、不是所有的非正态分布的数据都能够通过正态转化而转化为正态分布数据。非正态分布的数据也可以使用非参数方法进行分析。数据分析师培训
相关文章
- 大数据学习方法:大数据采集,大数据分析,大数据存储就该这样学!
- linux安装有几种方法_linux查看gcc是否安装
- 原创Paper | StealthHook - 一种在不修改内存保护的情况下挂钩函数的方法
- Linux基础:目录切换方法代码
- 异常处理:Oracle集群 diagwait的问题处理记录及方法
- 在CentOS 7.2上安装SuPHP的详细方法
- 操作系统组织数据的方法(详解版)
- MySQL导出部分数据的方法(mysql导出部分数据)
- 用Redis删除数据的方法(redisdel)
- Oracle删除数据失败:给出的解决方法(oracle删除不了数据)
- 的数据迁移从Hive到MySQL:实现数据迁移的方法(hive到mysql)
- 文件Linux系统中按时间删除文件的方法(linux按时间删除)
- MySQL中处理二进制数据的方法(mysql二进制数据)
- 生成Oracle随机字符串的实现方法(oracle随机字符串)
- 实现Oracle横表转纵表的方法(oracle横表转纵表)
- MySQL使用时间戳存储数据的巧妙方法(mysql存储时间戳)
- 使用Redis存储数组数据的方法详解(redis怎么存数组)
- 使用MySQL定位昨天日期的方法(mysql昨天日期)
- Oracle存储过程返回表:简单有效的数据访问方法(oracle存储过程返回表)
- MySQL中快速导入数据的方法(MySQL中导入数据)
- 从Redis中取出数据的方法(怎么从redis取出数据)
- MySQL下载漏洞及其解决方法(mysql下载漏洞)
- 使用MySQL实现本地数据上传方法(mysql上传本地数据)
- 使用Redis获取最新数据的方法(redis获取最新数据)
- asp的程序能实现伪静态化的方法
- jquery$.ajax()取xml数据的小问题解决方法
- mssql2005,2008导出数据字典实现方法
- Java反射获取类详细信息的常用方法总结
- C#中将ListView中数据导出到Excel的实例方法
- jsdata日期初始化的5种方法
- MySQL查询随机数据的4种方法和性能对比
- VC判断一个文件为目录的方法
- ASP.NET使用GridView导出Excel实现方法