生存分析(survival analysis)

生存分析(survival analysis),第1张

一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。

生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。

应用场景

什么是生存?生存的意义很广泛,它可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。

在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。对生存资料的分析称为生存分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,称为生存分析。

例如研究病人感染了病毒后,多长时间会死亡;工作的机器多长时间会发生崩溃等。 这里“个体的存活”可以推广抽象成某些关注的事件。 所以SA就成了研究某一事件与它的发生时间的联系的方法。这个方法广泛的用在医学、生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。

生存分析研究的内容 1描述生存过程研究生存时间的分布特点,估计生存率及平均存活时间,绘制生存曲线等,根据生存时间的长短,可以估算出各个时点的生存率,并根据生存率来估计中位生存时间,也可以根据生存曲线分析其生存特点,一般使用Kaplan-Meier法和寿命表法。2比较生存过程可通过生存率及其标准误对各样本的生存率进行比较,以探讨各组间的生存过程是否存在差异,一般使用Log-rank检验和Breslow检验。3分析危险因素是通过生存分析模型来探讨影响生存时间和终点事件的保护因素和不利因素,因素作用的大小及方向,相对危险度的大小,基本使用Cox回归模型。4建立数学模型建立最终的数学模型,也是通过Cox回归模型完成。

生存分析对资料的基本要求 1样本由随机抽样方法获得,要有一定的数量,死亡例数和比例不能太少2完整数据所占的比例不能太少,即截尾值不宜太多3截尾值出现的原因无偏性,为防止偏性常常对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析4生存时间尽可能精确5缺项要尽量补齐

生存资料的共同特点 1蕴含有结局和时间两个方面的信息2结局为两分类往斥事件3一般是通过随访收集得到,随访观察往往是从某统一时间点(如入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止。4常因失访等原因造成研究对象的生存时间数据不完整,分布类型复杂,不能简中地套用以前的方法

二、生存分析的基本概念

起始事件(initial event): 反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。 失效事件(failure event): 在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。

终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。

生存时间: 广义上指某个起点事件开始到某个终点事件发生所经历的时间,度量单位可以是年、月、日、小时等,常用符号t所示。这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。比如距离等,具体要根据研究目的而定义。1)分布类型不易确定。一般不服从正态分布,多数情况下不服从任何规则的分布类型。2)影响因素多而复杂且不易控制。3)根据研究对象的结局,生存时间数据可分为两种类型:   完全数据 (Completed Data):从观察起点到发生死亡事件所经历的时间。   不完全数据 (Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的   不完全数据分为 :删失数据(censored Data),截断数据(truncated Data)   不完全主要原因:    失访:指失去联系;    退出:死于非研究因素或非处理因素而退出研究;    终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。

删失的表现形式    右删失(Right Censoring):只知道实际寿命大于某数;    左删失(Left Censoring):只知道实际寿命小于某数;    区间删失(Interval Censoring):只知道实际寿命在一个时间区间内。

条件死亡概率: 表示某时段开始存活的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2

条件生存概率 (conditional probability of survival):某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2

生存函数

若含有删失数据,须分时段计算生存概率 。假定观察对象在各个时段的生存时间独立,应用概率乘法定理将分时段的概率相乘得到生存率。

生存率与条件生存概率不同。 条件生存概率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulative probability of survival ),是多个时段的累积结果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年还存活的可能性。

生存率s(t)的估计方法有参数法和非参数法。 常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,乘积极限法主要用于观察例数较少而未分组的生存资料,寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。

生存曲线 (survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。 生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。

中位生存期 (median survival time):又称半数生存期,表示恰好有50 %的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。

概率密度函数f(t)

[上传失败(image-f5d8a7-1630478089306)]

生存函数S(t)

危险函数h(t)

累计危险函数H(t)

三、生存分析目的

估计 :根据样本生存资料估计总体生存率及其它有关指标 ( 如中位生存期等 ) , 如根据脑瘤患者治疗后的生存时间资料 , 估计不同时间的生存率 、生存曲线以及中位生存期等 。 比较 :对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。

影响因素分析 :目的是为了探索和了解影响生存时间长短的因素 , 或平衡某些因素影响后 , 研究某个或某些因素对生存率的影响 。 如为改善脑瘤病人的预后 , 应了解影响病人预后的主要因素 , 包括病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等 。 预测 :具有不同因素水平的个体生存预测 ,如根据脑瘤病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等预测该病人t 年 ( 月 )生存率 。

四、生存分析的具体方法 生存分析方法可以分为描述法、参数法、半参数法和非参数法 1描述法 根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。 优点:方法简单且对数据分布无要求 缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。

2非参数法 估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。 常用方法:乘积极限法、寿命表法 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。 缺点:不能建立生存时间与危险因素之间的关系模型。

3参数法 根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。 生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。 缺点:需要事先知道生存时间的分布

4半参数法 不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。

Cox 比例风险回归模型(Cox’s proportional hazards regression model) , 简称Cox 回归模型

如果Cox PH Model中的变量会随时间变化,那么就成了extended Cox model,此时HR不再是一个常量。很简单的例子,如果病人的居住地也是一个变量,病人有可能会搬家,例如在北京吸霾了5年,再跑去厦门生活,那么他旧病复发的概率肯定会降低。所以住所这个变量是和时间相关的。一种简单的做法是,按照变量改变的时刻,把时间切割成区间,使得每个区间内的变量没有变化。然后再套用Cox PH模型。

生存分析:分析不同实验条件下,研究对象“生存时间”的分布情况,从而了解实验条件对生存时间的影响。这里的“生存时间”不是专指人或动物的生命延续时间,而是泛指某个事件发生前的延续等待时间。之所以用“生存”分析这个名称,是因为这种分析技术常用于描述病人在接受某种治疗后,他们存活时间的分布情况。

事件及事件发生

事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点

生存时间

生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要。

删失/失访

删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点,这种删失称为右删失;只知道生存时间小于某一时点的删失称为左删失;只知道生存时间在某一段时间之内的删失称为区间删失,右删失的情况最为常见。虽然删失使得生存时间无法准确计算,但在生存分析时还是应该将其考虑在内,因为删失数据会影响到最终的生存率结果。

生存分析原理

生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢?可以用一个二维坐标图来描述,横轴是时间长度,纵轴是事件发生概率,这就能很清楚的知道生存时间的概率分布情况了。

因为涉及到概率,那么自然要用概率函数来表示。根据计算概率的不同,生存分析的概率函数有两种:风险函数和生存函数。生存函数和风险函数是用来描述生存时间的分布的两个主要工具。

用一个非负随机变量T来表示生存时间,生存函数定义为随机变量T越过某个时点t时,所有考察对象中,没有发生事情的概率,也就是生存下来的概率。当t=0时,生存函数的取值为1,随着时间的推移(t值增大),生存函数的取值逐渐变小,生存函数是时间t的单调递减函数。

根据生存函数,又可以提出累积风险函数,它的公式为:

表示生存时间T为超过时间点t时,研究对象中,已经发生事件的概率。

此外还有一个风险概率密度函数,它是累积风险函数的导数,公式如下:

风险概率密度函数表示某个时间点t上,事件发生的概率。

通过以上公式,最终我们可以得到风险函数,计算公式为:

表示生存时间T达到时间点t时,在接下来一瞬间,事件发生的概率。

从上面的结果可知,风险函数和生存函数是可以互相推导的,因此在生存分析中,既可以生存函数,也可以用风险函数,一般生存函数的运用更多。

事件及事件发生: 事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。

生存时间: 一般指某个事件的开始到终止这段事件,如癌症研究中的疾病确诊到缓解或者死亡,其中有几个比较重要的肿瘤临床试验终点。

生存概率(Survival probability): 指某段时间开始时存活的个人至该时间结束时仍然存活的可能性大小。

删失: 删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。生存数据存在很多数据删失现象。删失分为右删失、左删失和期间删失三种。

生存分析原理:

生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布。用一个二维坐标图来描述,横轴是时间长度,纵轴是事件发生概率。

生存分析的概率函数有两种:风险函数和生存函数。用来描述生存时间的分布。

生存函数定义为随机变量越过某个时点t时,所有考察对象中,没有发生事情的概率,也就是生存下来的概率。当t=0时,生存函数的取值为1,随着时间的推移(t值增大),生存函数的取值逐渐变小。

根据生存函数,又可以提出累积风险函数。表示生存时间T为超过时间点t时,研究对象中,已经发生事件的概率。此外还有一个风险概率密度函数,它是累积风险函数的导数。风险概率密度函数表示某个时间点t上,事件发生的概率。

通过以上公式,最终可以得到风险函数,表示生存时间T达到时间点t时,在接下来一瞬间,事件发生的概率。

从上面的结果可知,风险函数和生存函数是可以互相推导的,因此在生存分析中,既可以生存函数,也可以用风险函数,一般生存函数的运用更多。这就好像测量汽车速度,可以测量瞬间速度,也可以通过测量距离和行驶时间计算平均速度,瞬时速度的测量通常是比较困难的,而且容易受到随机误差影响。

细胞间质: 细胞与细胞之间存在着细胞间质。人体组织内的细胞都浸润在细胞间质液中。细胞间质的多少与细胞间的密集程度有关。细胞间质就是细胞之间的物质。

基质细胞: 源自血液器官(如骨髓或胎肝)的一种非血细胞,可支持血细胞在体外的生长。基质细胞是人体内具有强分化能力和再生能力的功能细胞。

内皮细胞: 内皮细胞形成血管的内壁,保持血液的正常流动和血管的长期通畅。

NK细胞:自然杀伤细胞是机体重要的免疫细胞,与抗肿瘤、 抗病毒感染和免疫调节有关。

ECM: 细胞外基质,由细胞分泌到细胞外空间,不仅对组织细胞起支持、保护、营养作用,而且还与细胞的增殖、分化、代谢、识别、黏着、迁移、死亡等基本生命活动密切相关。细胞外基质被纤维母细胞修饰,这一修饰会增加ECM壁厚和胶原纤维,起到限制免疫细胞接触癌细胞的物理屏障作用。

EMT: 上皮细胞间质转化,EMT 简单来说就是上皮细胞转化为间质型细胞的过程。一般来说,这种转化有助于细胞在胚胎中的迁移。人类的大部分癌症主要先累及的是器官的上皮细胞层,通常情况下它们并不具备运动能力,但发生EMT的癌细胞由于粘附能力显著减弱,会造成癌症的转移。

基因标签( Gene   signature ): 从数万个基因中寻找与疾病相关的差异表达基因,这些基因将成为诊断或愈后相关疾病的基因标签。

免疫检查点分子: 免疫系统中起抑制作用的调节分子,其对于维持自身耐受、防止自身免疫反应、以及通过控制免疫应答的时间和强度而使组织损伤最小化等至关重要。免疫检查点分子表达于免疫细胞上,将抑制免疫细胞功能,使机体无法产生有效的抗肿瘤免疫应答,肿瘤形成免疫逃逸。

免疫检查点抑制剂: 针对相应的免疫检查点研发的一些单抗类药物,其主要作用为阻断表达免疫检查点的肿瘤细胞与免疫细胞之间的作用,从而阻断肿瘤细胞对免疫细胞的抑制作用。类似于免疫检查点封锁(ICB)

抗原呈递: 抗肿瘤免疫需要T细胞在MHC上识别肿瘤表位,这一过程称为抗原呈递。

抗原提呈: 指抗原被抗原提呈细胞摄取,加工后以免疫性肽的形式呈现于提呈细胞表面,最终被免疫活性细胞识别的过程。抗原提呈过程是免疫反应的起始阶段,它发动免疫应答过程。

抗原表位: 是抗原物质分子表面或其他部位,具有一定组成和结构的特殊化学基团,能与其相应抗体或致敏淋巴细胞发生特异性结合的结构。

免疫原性: 免疫原性是指能引起免疫应答的性能,即抗原能刺激特定的免疫细胞,使免疫细胞活化、 增殖、分化,最终产生免疫效应物质抗体和致敏淋巴细胞的特性。一种物质能否被定义为抗原,取决于其是否具有免疫原性及免疫反应性(抗原性)。肿瘤会产生不同程度的免疫反应的特性被称为免疫原性。

免疫表型: 免疫表型是通常所说的白细胞分化标志,即CD加上数字,比如,CD3+是T细胞。

免疫效应: 免疫效应大致可分为抗体依赖性和非抗体依赖性两类。前者又称体液免疫,后者又称细胞免疫。

免疫耐受: 免疫耐受是指对抗原特异性应答的T细胞与B细胞,在抗原刺激下,不能被激活,不能产生特异性免疫效应细胞及特异性抗体,从而不能执行正常免疫应答的现象。

免疫毒性: 机体对自身组织成分或细胞抗原失去免疫耐受性,导致自身免疫效应细胞和自身抗体,对自身组织进行病理性免疫应答,引起组织结构的损伤。

免疫排斥: 免疫排斥是机体对异体细胞、组织或器官通过特异性免疫应答使其破坏的过程。

免疫编辑: 免疫系统在清除一些肿瘤细胞的同时,也对另一些肿瘤细胞的生物学特性(如肿瘤的抗原性)进行重塑,也即所谓的“免疫编辑”。被免疫编辑过的肿瘤细胞恶性程度越来越高,对免疫攻击的抵抗力越来越强,直至最终摧毁机体的免疫系统,造成肿瘤细胞的恶性生长并扩散。

肿瘤浸润性淋巴细胞(TIL): 从肿瘤组织中分离出的浸润淋巴细胞。

单克隆抗体: 由单一B细胞克隆产生的高度均一、仅针对某一特定抗原表位的抗体。

肿瘤免疫逃逸机制: 指肿瘤细胞通过多种机制逃避机体免疫系统识别和攻击,从而得以在体内生存和增殖。

肿瘤突变负担(TMB): 每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数。肿瘤突变负荷是一个具有良好前景的全新生物标志物。TMB高与免疫治疗疗效呈正相关。

人类白细胞抗原(HLA): 人类的主要组织相容性复合体(MHC)的表达产物。

DNA损伤: 复制过程中发生的DNA序列永久性改变,并导致遗传特征改变的现象。

DNA修复: 细胞对DNA受损伤后的一种反应,这种反应可能使DNA结构恢复原样,重新能执行它原来的功能;但有时并非能完全消除DNA的损伤,只是使细胞能够耐受这DNA的损伤而能继续生存。

冷肿瘤和热肿瘤: 肿瘤的发生一定需要躲开免疫细胞的监控。一般有两种情况,第一种是肿瘤细胞装正常细胞装得特别好,隐藏得很深,免疫细胞完全没有发现异常,在显微镜下看,这类肿瘤中间往往没有免疫细胞的影子,这就是“冷肿瘤”;第二种情况是肿瘤细胞没有装,免疫细胞已经识别并包围了肿瘤细胞,但肿瘤细胞进化过程中启动了免疫抑制,阻止了免疫细胞杀死癌细胞。如果我们在显微镜下面看这类肿瘤,会发现肿瘤中其实有很多“充满正义感”的免疫细胞,但它们没能发挥作用,这就是“热肿瘤”。对“热肿瘤”患使用免疫检验点抑制剂疗法,就会帮助已有的免疫细胞启动,起到杀伤并清除癌细胞的效果。而对“冷肿瘤”,由于免疫细胞根本就不认识肿瘤细胞,启动免疫系统也没用,因此免疫疗法效果很差。

肿瘤拓扑图(TTG): 肿瘤微环境的空间结构,可以清楚解析所有细胞类型间的空间相互作用,作为肿瘤-宿主相互作用的表型。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/12184915.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存