您现在的位置是：首页 > 其它

当前栏目

2.描述统计详解

详解

2023-09-27 14:23:04 时间

1.描述统计概述

在这里插入图片描述

1.1 什么是描述性统计

描述统计是研究

如何取得反映客观现象的数据（数据的收集）
通过图表形式对数据进行加工处理和可视化
通过概括与分析得出反映客观现象的规律性数量特征

1.2 数据的有效性和可靠性

既然描述统计首先需要进行数据的收集，那么数据的有效性(valid)
和可靠性(reliable)就非常重要了

有效性
实际测量的对象=希望测量的对象
可靠性
多次测量得到的数据是否一致

2.分类变量的描述

2.1 无序分类变量的描述

以性别为例：
现在有12个新生儿，他们的性别是：女，男，女，女，男，男，
男，男，女，男，男，女

频率表
条形图
集中趋势描述
众数:一组观测值中出现次数最多的数
例如：
颜色数据：赤1,橙1,黄1,绿1,青1,蓝1,紫1 不存在众数
颜色数据：赤2,橙6,黄1,绿10,青3,蓝10,紫4 存在多个众数
注意：
一组观测值中，可能存在一个或多个众数，也可能不存在众数

2.2 有序分类变量的描述

以教育程度为例：
小学(1)，初中(2)，高中(3)，本科(4)，研究生(5)
观测19个人的教育程度（n=19）
3，3，4，1，5，4，2，1，5，4，4，4，5，3，2，1，4，5，5

频率表
条形图
集中趋势
众数 ——>本科
中位数：对于有限的数集，把所有观测值按大小排序后，位于正中间的观测值即为中位数

2.3 总结

在这里插入图片描述

3.等距数值变量的描述

在这里插入图片描述
以一组摄氏温度数据（等距数值变量）为例：19,22,21,17,13,19,18,17,17,21,21,21,19,20 （n=14）

频率表
可以对数值变量进行小区间的分割，从而制作频率表
频率直方图
数值变量的频率直方图的纵坐标为"频率/间距",横轴为"间距"，这样每个长方形的面积就是频率，所有长方形的面积和为1
集中趋势
中位数：是将全体数据按大小顺序排列，在整个数列中处于中间位置的那个值均值：在一组数据中，所有数据之和再除以这组数据的个数，所得即为这组数据的均值
离散趋势：观测值偏离其中心的趋势
极差（全距）: 最大值减去最小值，可以简单描述数据的范围
大小；
分位数（分位点）：把数据n等分的分割点

四分位数：
箱线图

4.等比数值变量的描述

在这里插入图片描述

方差
每一个观测值与均值之间的差异的平方和的平均数
标准差
标准差是方差开根号的结果，标准差与原观测值具有相同的单位

注意：
本节课学习的方差公式与后面章节（统计推断）学习的样本方差公式的分母不一样，样本方差的分母是n-1,具体知识后面介绍

5.数值变量的描述统计

5.1 基于pandas的描述统计（pandas汇总函数）

常用的汇总函数(经常与分组数据一起使用)
count() Number of non-null observations
size() group sizes
sum() Sum of values
mean() Mean of values
median() Arithmetic median of values
min() Minimum
max() Maximum
std() Unbiased standard deviation
var() Unbiased variance

import pandas as pd
import scipy.stats as ss
import matplotlib
# 解决绘图的兼容问题
%matplotlib inline
matplotlib.rcParams['font.sans-serif'] =
['SimHei']

5.2 2. describe命令

df.describe( percentiles : 需要输出的百分位数，列表格式提供，如[.25, .5, .75]
 include = 'None' : 要求纳入分析的变量类型白名单None (default) : 只纳入数值变量列A 
 list-like of dtypes :
列表格式提供希望纳入的类型  
           'all' : 全部纳入
 exclude : 要求剔除出分析的变量类型黑名单，选项同上
)

6.常用软件包介绍

6.1 SciPy介绍

SciPy是什么

SciPy是一个开源的Python算法库和数学工具包
Scipy是基于Numpy的科学计算库，用于数学、课学、工程学等领域
SciPy官网地址

6.2 statsmodels介绍

statsmodels是什么

statsmodels是一个Python软件包，为SciPy提供了补充，以进行统计计算，包括描述性统计以及统计模型的估计和推断
statsmodels是擅长进行核心统计的库。这个多功能库混合了许多 Python 库的功能
statsmodels的使用方式
statsmodels有很多使用方式，这里仅举一例：
statsmodels的DescrStatsW类不仅可以用于进行变量的统计描述，更是进一步进行各种比较的基础对象。

class statsmodels.stats.weightstats.DescrStatsW(
 data : 希望分析的一维数组或者二维数据框
 weights = None : 案例权重，总和应当等于样本量
 ddof = 0 : 用于计算第二统计量的校正自由度，罕用
)

6.3 Pandas介绍

这个可以查看博客：数据分析-数据管理

6.4 Anaconda介绍

同上

猜你喜欢

测试人员如何感知线上有问题，怎么处理？
教你如何集成HMS Nearby Service 实现智能设备间文件的高速、免流量传输！
Android onTouchEvent, onClick及onLongClick的调用机制
【SystemVerilog基础】SystemVerilog Assertion 快速上手指南（下）bind 关键字的用法，实现与DUT的连接
【正点原子FPGA连载】第五十一章基于OV5640摄像头的中值滤波实验 -摘自【正点原子】新起点之FPGA开发指南_V2.1
Allegro172版本如何用自带的功能实现快速在1MMBGA下方等距放置电容
SQL state [99999]; error code [17056]; 不支持的字符集 (在类路径中添加 orai18n.jar): ZHS16GBK;
标准号：GB/T 14531-2017
JavaEE基础(06)：Servlet整合C3P0数据库连接池
论文教程之如何写教学类研究方法
leetcode 310. Minimum Height Trees 最小高度树(中等)
什么是问题？--人类才是最大的问题--所有的问题都是在人类认识世界和改造世界中产生的
linux 线程
web scraper 抓取分页数据和二级页面内容
SAP CRM 最新简介文字（2007年、中英文）
【历史上的今天】12 月 19 日：微型计算机的始祖 Altair 8800 问世；Linux 文件系统作者出生；微软推出 DirectX 9
php获取一个目录的大小
C语言程序设计编辑与调试环境
C++第9周项目1参考——分段函数求值
利用MEGA8完成单光子脉冲计数
中小企业部网解决方案

相关主题

java 继承详解
Java I/O流详解
Java 集合详解
Java引用详解
sed 命令详解
Python递归详解
CSS 选择器详解
Vue路由详解
iptables详解--转
【C++】 STL详解
设备树详解
线程池详解编程语言
正则表达式详解
树与二叉树详解
webview 详解
split()详解

zl程序教程

当前栏目

2.描述统计详解

1.描述统计概述

1.1 什么是描述性统计

1.2 数据的有效性和可靠性

2.分类变量的描述

2.1 无序分类变量的描述

2.2 有序分类变量的描述

2.3 总结

3.等距数值变量的描述

4.等比数值变量的描述

5.数值变量的描述统计

5.1 基于pandas的描述统计（pandas汇总函数）

5.2 2. describe命令

6.常用软件包介绍

6.1 SciPy介绍

6.2 statsmodels介绍

6.3 Pandas介绍

6.4 Anaconda介绍

相关文章