数据分析方法:非正态数据转化成正态数据
大部分的数据分析都希望原始数据是满足正态分布的定距变量。然而,显示是残酷的,在各种研究中,常常需要面对非正态分布的定距数据。为了解决数据的正态性问题,数学家们总结了很多转化方法,但是没有万能神药,都需要对症下药(根据数据的实际分布情况,选择合适的转化方法)。
下面不会介绍具体的转化方法,只是帮助大家理顺正态转化的思路,明白正态转化的逻辑,不至于将正态转化看做神秘领域,高不可攀。
正态转化四步骤
第一步:计算数据的分布状况及两个参数:偏度(Skewness)和峰度(Kurtosis)。
第二步:根据变量的分布形状和参数,决定是否做转换。
1、对称判断
看Skewness(偏差度)的取值。如果偏度为0,则是完全对称(但罕见);如果偏度为正值,则说明该变量的分布为正偏态;如果偏度为负值,则说明该变量的分布为负偏态。然而,偏度值还不能完全判断偏态的分布是否与正态分布有显著差别,所以还需要做显著性检验。如果检验结果显著,我们可能(注意是“可能”)可以通过转换来达到或接近对称。
2、峰度检验
Kurtosis(峰度)是判断曲线陡峭和平缓的指标。如果峰度为0,说明该变量分布合适(但罕见);如果峰度为正值,说明该变量的分布陡峭;反之,如果峰度为负值,说明变量的分布平缓。峰度也需要通过显著检验来判断与正态分布是否有显著差别。我们可能可以通过转换来达到或接近正态分布。
第三步:如果需要做正态转换,根据变量的分布形状,确定相应的转换公式。下面简单介绍3种常见的正态转换方法
1、如果是中度偏态
如果偏度为其标准误差的2-3倍,可以考虑取根号值来转换。
2、如果高度偏态
如果偏度为其标准误差的3倍以上,则可以取对数,其中又可分为自然对数和以10为基数的对数。
3、对于双峰或多峰数据
秩分的正态得分的转化方法,SPSS软件中常用,请关注SPSS视频教程。
第四步:再次检验转换后变量的分布形状。如果没有解决问题,或者甚至恶化,需要再从第二或第三步重新做起,然后再回到第一步的检验。直至达到比较令人满意的结果。
数据正态化注意点
1、偏度和峰度的标准误差与样本量直接有关。具体说来,偏度的标准误差约等于6除以n后的开方,而峰度的标准误差约等于24除以n后的开方,n为样本量。由此可见,样本量越大,标准误差越小。
2、数据的正态转化方法不是通用的,要根据不同的数据分布情况,选择合适的或创造合适的转化公式,转化后必须验证转化效果,最终达到转化的目的。
3、不是所有的非正态分布的数据都能够通过正态转化而转化为正态分布数据。非正态分布的数据也可以使用非参数方法进行分析。数据分析师培训
相关文章
- ajax 跨域请求api_java跨域请求的三种方法
- 大数据学习方法:大数据采集,大数据分析,大数据存储就该这样学!
- win10锁定计算机命令,锁定Windows 10 PC的10种方法
- 笔记:超大数据下最优抽样理论与方法
- 处理医学时间序列中缺失数据的3种方法
- LR性能测试常见问题及处理方法(二)
- 低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算
- 舟谱数据出版《快消品经销商成功密码》,助力经销商方法升维
- 数据快速导出Oracle数据的简单方法(oracle导出)
- Linux查看所有用户:最简单方法(linux查看所有用户)
- Oracle中截断表数据的方法(oracle截断表)
- 访问MySQL控制数据访问的有效方法(mysql限制数据)
- Linux下快速写入数据的方法(linux写入数据)
- MySQL中添加新记录的简易方法(mysql表插入数据)
- MySQL部分数据导出:简单易行的方法(mysql部分数据导出)
- 文件Linux 下拷贝文件及其目录的方法(linux带目录拷贝)
- Linux下关闭防火墙的方法(关闭linux的防火墙)
- MySQL中快速导入数据的方法(mysql导入数据)
- MySQL BLOB类型:存储大对象数据的方法(mysql的blob)
- MSSQL查找数据的简易方法(mssql 查找数据)
- 数据一键批量删除Redis数据的简便方法(批量删除redis)
- Oracle中间连接连接数据的新方法(oracle中间连接)
- Oracle中子语句实现数据排序的方法简介(oracle中子语句排序)
- Oracle抓取第一行数据的简易方法(oracle中取第一行)
- jQuery1.6使用方法二
- mongoDB分页的两种方法(图例)
- JS网页图片按比例自适应缩放实现方法
- 动态创建script在IE中缓存js文件时导致编码的解决方法
- Linux下自动备份MySQL的方法
- Symfony数据校验方法实例分析