生存分析(一)
分析 生存
2023-06-13 09:18:11 时间
简介 #
生存分析是将观察的结局和出现结局所经历的时间结合起来进行分析的一系列统计方法,常用于研究影响因素与生存时间和结局的关系,预测不同因素水平个体生存预测。
因为跟时间相关,所以要定义要事件起点,以及事件终点。生存时间T也可以根据事件起终点计算出来。
由于有些事件无法被观测或者没有观察到,导致生存时间无法被记录的情况称为删失。其中最为常见的情形称为右删失(right censoring,下图)
- 右删失:对这样的病人我们只知道其生存时间要大于从试验开始到删失发生的时间。有多种原因可以导致右删失情况的出现,其中包括:(1)病人在某时间点上退出试验或失去随访信息;(2)病人在整个试验结束时事件还未发生;(3)病人由于毒性等原因停用被分派的药物或换用其它药物;(4)竞争风险事件的发生1。
- 左删失2:事件发生了,且发生时间在(0,t) ,但确切时间并不清楚。
- 区间删失: 事件发生在一个已知的具体时间段内,但是并不知道具体时间。
生存函数 #
生存函数
风险函数 #
风险函数的定义即在t时刻发生事件的概率。
生存函数是可以看到是从1到0递减的,而风险函数没有固定的单调性,可以是常数风险、可以随时间变化,比如上升、下降、先下降后上升。
,两边求导数可得
那么在t时刻发生事件的风险用极限的观点来看即在 这个区间内发生事件的数量除以在t时刻剩下的总人数
式1后面一个等式右边求偏微分等于等式左边,两边积分即式2。以上为风险函数与生存函数之间的关系3
Kaplan-Meier生存曲线 #
K-M曲线是非参数估计生存函数的一种方法。
如何绘制K-M生存曲线? 临床原始资料一般如下:
患者 | 生存时间 | 发生事件与否 | 删失与否 |
---|---|---|---|
a | 10 | 0 | r |
b | 28 | 1 | |
c | 30 | 1 | |
d | 2 | 1 | |
e | 7 | 0 | r |
假设是来分析患者生存分析,定义结局是死亡,最长实验观察时间是90天, |
首先是判断删失数据,假设a和e患者分别出院,观察不到死亡结局,那么以上两个患者是删失数据。
将资料整理成生存概率随时间变化表格
患者 | 生存时间 | 存活患者数n | 死亡人数d | 当前存活概率(n-d)/n | 生存概率 |
---|---|---|---|---|---|
0 | 1 | ||||
d | 2 | 5 | 1 | 4/5 | 4/5 |
e | 7+ | ||||
a | 10+ | ||||
b | 28 | 2 | 1 | 1/2 | ${4/5}*{1/2}=2/5$ |
c | 30 | 1 | 1 | 0 | 0 |
将上表生存时间以及生存概率可视化即可得到k-m曲线。
以上介绍了生存分析的基本原理以及非参数生存分析K-M曲线是如何来的,有空介绍半参以及参数化的生存分析方法。
- 揭秘生存曲线背后的生物统计学 ↩︎
- 怎么理解生存分析的风险函数? - 数据的小米虫的回答 - 知乎 https://www.zhihu.com/question/343779367/answer/2439383246 ↩︎
- 怎么理解生存分析的风险函数? - 郭老师医学统计的回答 - 知乎 https://www.zhihu.com/question/343779367/answer/1493205766 ↩︎
相关文章
- 基于YOLO算法看守所人员行为分析监测
- 【说站】python二分查找的原理分析
- 空间尺度分析_特征尺度的选取原则
- 2-网站日志分析案例-日志采集:Flume-Kafka-Flume-HDFS
- 只有测序数据不知道如何高级分析可以试试看这个期刊
- vue源码分析-响应式系统工作原理_2023-03-01
- 【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据
- Postgresql源码(94)SPI模块拆解分析二:SPI内存生命周期分析
- 2022-12-13:游戏玩法分析 I。写一条 SQL 查询语句获取每位玩家 第一次登陆平台的日期。+-----------+-
- linux用户和组命令实例分析【切换、添加用户、权限控制等】
- 分析掌握Oracle 数据库实时状况:系统级状态分析(oracle数据库状态)
- MySQL的3m优势分析(mysql3m)
- Linux系统CP命令源代码分析(linuxcp源代码)
- XHTML标签的自关闭写法的坏处分析