浅谈生存分析

如题所述

第1个回答 2022-07-15

在生物医学研究中，生存分析是非常重要和常见的分析方法。本文对生存分析中的Kaplan–Meier模型、Cox比例风险模型进行简要的介绍，帮助大家更好地理解生存分析等相关概念。

生存分析经常用在癌症等疾病的研究中，例如在对某种抗癌药物做临床试验时，会首先筛选一部分癌症患者随机分为两组，一组服用该试验药物，一组服用对照药物，服药后开始统计每个患者从服药一直到死亡的生存时间，通过考察两组之间的病人在生存时间上是否有统计学差异来判断试验药物是否有效。

在这里，死亡是整个实验中重点观测的事件，即event。对于每个病人，需要记录他们发生该事件的具体时间。因此，生存分析可以抽象概述为，研究在不同条件下，特定事件发生与时间的关系是否存在差异。

这些具体事件可以是死亡，也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件，而不同条件即为不同的分组依据，可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。

A列是从试验开始起，持续的观测时间，星号代表在该时间有删失数据发生；
B列是指在A列对应的时间开始之前所有存活的研究对象个数，也可以叫做at risk的人数，表示当前具有死亡风险的有效人群，是排除了已经死亡和删失的数据之后剩余的人数；
C列为恰好在A列对应的时间死亡的人数；
D列是在该时间点删失的个数，即在实验过程中丢失的、失去跟踪的数据。

在引入Kaplan–Meier公式之前，大家可以先尝试自己去思考下如何计算每个时间节点的生存概率，即研究对象从试验开始直到某个特定时间点仍然存活的概率S(t)。比如在1.536年这个时间点，即表中的第五行，病人在该点的生存概率是多少呢？

很容易可以想到，要想在1.536这个时间点存活，他/她必须在1.536之前的所有时间点存活才行，也就是说在0.909、1.112、1.322、1.328这几个时间点，病人都必须存活。那么在1.536这个时间点的生存概率实际上就等于在包括1.536 在内的所有之前的时间点都不死亡的概率乘积，即：P(存活至1.536) = P(0.909时不死亡) * P(1.112时不死亡) * P(1.322时不死亡) * P(1.328时不死亡) * P(1.536时不死亡)

对于某个特定时间点不死亡的概率，可以用 1 – 死亡概率来估算，举个例子：P(0.909时不死亡) = 1 – P(0.909时死亡) = 1 – (0.909时死亡的人数)/(0.909之前的所有人数) = 1 – 1/10 = 0.9

当我们计算出每个时间点不死亡的概率之后，我们就可以通过连续乘积算出每个时间点的生存概率，即存活至该时间点的概率。如下表所示：

该表中E列即不死亡概率，F列则表示累积的生存概率，可以看到随着时间增加，死亡人数增多，越到后期，生存概率越低。

上面这个例子的思路就是Kaplan–Meier方法的主要思路，我们也可以用数学公式来表示。一共有m个时间点，每个时间点用下标 i 来表示, i 为从 1 到 m 的整数, 生存概率 S(ti) 可以表示为：

其中，ti 表示第 i 个时间点，ni 表示在 ti 之前的有效人数，di 表示在 ti 死亡的人数，S(ti-1) 表示在上一个时间点 i-1 的生存概率。

根据这一公式，我们可以画图来展示生存率的变化情况，即Kaplan-Meier生存曲线，如下图所示：

图中横轴即时间轴，纵轴是累积存活比例，也就是生存概率，加号表示删失数据。

一般来说，生存分析是要比较不同组之间的一个生存情况，因此Kaplan-Meier生存曲线一般不止一条曲线。如果想比较整体生存时间分布是否存在统计学差异，一般我们可以采用Logrank统计方法来对生存数据进行统计分析。Logrank统计方法假设两组的生存时间分布一致，去检验是否能拒绝该假设。

除了Logrank检验之外，常用的检验包括Breslow检验，即Wilcoxon检验。该方法加入了权重因子，即每个时刻的总人数，使得试验前期的权重较大，贡献更大，所以Breslow检验对试验前期的差异更加敏感。

Kaplan-Meier方法只能针对单一的变量进行分析，无法同时考察多个因素。当需要同时考察多个因素的影响时，这时我们可以使用Cox比例风险回归模型。

Cox比例风险回归模型(Cox's proportional hazards regression model)，简称Cox模型，Cox来自提出者英国统计学家D.R.Cox的名字，主要用于肿瘤和其他疾病的预后分析。这个模型是一种半参数回归模型，因为它的公式中既包含参数模型又包含非参数模型。

其中

t是生存时间，

x1, x2到xp指的是具有预测效应的多个变量，

b1,b2到bp则是每个变量对应的effect size，即效应量，可以理解为结果的影响程度。

h(t)就是不同时间t的 hazard，即风险值，例如在观测死亡事件时，指的是研究对象从试验开始到某个特定时间t之前存活，但在t时间点发生死亡的概率。

h0(t)是基准风险函数，也就是说在其他协变量x1, x2到xp都为0时，即不起作用时，衡量风险值的函数。

根据公式我们可以看到指数部分是参数模型，因为其参数个数有限，即b1,b2到bp，而基准风险函数h0(t)由于于其未确定性，可根据不同数据来使用不同的分布模型，因此是非参数模型。所以说, Cox模型是一种半参数模型。

从公式中我们可以看到，Cox模型能够把诸多可能影响生存率的因素都当作协变量引入到公式中去，在该公式中即x1, x2到xp，所以可以同时考察多个因素的影响。

我们的主要目标是通过一定方法来找到合适的h0(t)，以及所有协变量的系数b1,b2到bp。实际上cox模型是需要用到极大似然估计等计算方法，首先构建特定的似然函数，通过梯度下降等方法来求解模型的参数，使得函数求解值最大，这里不对细节进行解读。

假设我们已经通过计算得到了合适的h0(t)和协变量系数，如何去解读结果呢？我们可以比较某个协变量x1 在不同值时对应的不同风险比(hazard ratio)，这里 x1和x1+1，即若增加1个单位，增加前后的风险比实际上等于 exp(b1)。

假如x1指的是年龄，那么对于年龄 51岁 (x+1) 和年龄 50 岁 (x) 的人，可能死亡的风险比为 exp(b1）。如果b1>0，则 exp(b1)>1，意味着年龄+1，死亡风险增加；如果b1<0, 则 exp(b1)<1，意味着年龄+1，死亡风险降低；如果b1=0，exp(b1)=1，意味着年龄变化对死亡风险不起作用。从hazard ratio推导的结果看到，它是不包括时间t的。这是Cox模型可用的一个基本假设，即任意两人的风险比例是不随时间变化的。

研究者开发了方便进行生存分析的R包，survival和survminer。首先安装并加载这两个包：

在survival包中提供了coxph()函数可以用来计算cox模型：

method默认为 “efron”，也可以是 “breslow”和“exact” 。以示例数据为例：

从结果中看到：sex对应的系数(coef)为-0.5310，小于0表示sex增加会降低风险，风险比(hazard ratio)为exp(coef) =0.588，该数值小于1，同样表明sex增加会导致风险增加，即女性比男性预后更好。

除了关注系数外，同时需要关注的是p value，即该参数估计是否具有统计学显著性，这里给出三种方法的结果，分别是Likelihood ratio test，Wald test和Score logrank test。

分析多个因素的影响：

最后是结果的可视化：

以上是对生存分析中主要知识的一个整理，希望梳理清楚生存分析中的大多数概念，有助于大家在自己的工作中使用相关方法进行分析。

相似回答

什么是生存分析,如何进行生存分析?答：③生存分析可以处理删失数据。主要研究内容：①描述生存过程，如癌症治疗后的5年存活率；②比较两组/多组的生存时间，如接受不同治疗方案存活时间的长短比较；③评价各因素对生存时间的影响，如患者的存活时间是否受到其性别、年龄、接受的治疗方案等因素的影响。比如，还是异地是否影响分手，我们根据收集的...

浅谈生存分析答：根据这一公式,我们可以画图来展示生存率的变化情况,即Kaplan-Meier生存曲线,如下图所示: 图中横轴即时间轴,纵轴是累积存活比例,也就是生存概率,加号表示删失数据。一般来说,生存分析是要比较不同组之间的一个生存情况,因此Kaplan-Meier生存曲线一般不止一条曲线。如果想比较整体生存时间分布是否存在统计学差异,一般...

生存分析(Survival analysis)的总结整理答：生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断，研究生存时间和结局与众多影响因素间关系及其程度大小的方法，也称生存率分析或存活率分析。起始事件 (initial event)：反应生存时间起始特征的事件，如疾病确诊、某种疾病治疗开始等。失效事件 (failure event...

生存分析是什么答：生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象，所以对生存时间的长度确定至关重要。删失/失访删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点，这种删失称...

生存分析资料主要包括哪些内容?答：1、在医学领域，生存分析被用来评估疾病的治疗效果，以及预测患者未来的生存概率。2、在生物学领域，生存分析被用来评估生物物种的生存状况，以及预测物种未来的生存概率。3、在社会科学领域，生存分析被用来评估不同的社会政策对群体生活状况的影响，以及预测群体未来的生存概率。4、在经济学领域，生存分析被...

16种常用的数据分析方法-生存分析答：应用场景生存可以指人或动物的存活（相对于死亡),可以是患者的病情正处于缓解状态（相对于再次复发或恶化），还可以是某个系统或产品正常工作（相对于失效或故障），甚至可是是客户的流失与否等。在生存分析中，研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率，例如产品的失效...

生存分析(1)答：Kaplan-Meier 生存分析，即就是乘积极限法，是一种非参数方法，用于根据观察到的生存时间估算生存概率（Kaplan和Meier，1958年）。时刻的生存概率计算如下：= 在存活的概率 = 之前还活着的病人数量是指再时刻事件的发生的书目 =0,估计概率(S(t))是仅在每个事件发生时才改变值的...

多变量分析的生存分析答：生存分析有多种模型，最常用的有Cox回归模型，它的特点是：m个变量联合作用的相对风险可以表示成每个变量单独作用时相对风险的乘积（故也称为乘法模型）。另外常用的模型为可加性模型，它的特点是：m 个变量联合作用的相对风险可表示为每个变量单独作用之和。究竟应使用什么样的模型应在具体问题中结合专业...

论述一个企业的生存与发展从几个方面分析答：一个充满活力、具有顽强生命力的企业应该分两个阶段经营 1、第一阶段：从一开始“满足人”.再向“完善“职场”阶段的发展里程.原因是这样的：假如企业风气员工不喜欢便也焕发不出员工的活力,失去活力的企业就会增大成本.如果说企业员工所具有的能力只发挥50%,那的确员工不喜欢企业风气,到公司来热心就...

大家正在搜

生存分析单因素和多因素分析浅谈对材料分析测试的认识与理解浅谈基本面分析浅谈曲式分析论文层次分析法及其案例分析生存分析怎么做生存分析的结果生存分析截尾单因素生存分析怎么做