type
status
date
slug
summary
tags
category
icon
password
生存数据是一类特殊的统计数据,它们涉及到时间到事件(time-to-event)的数据,其中“事件”可以是死亡、疾病复发、设备故障等感兴趣的结果。生存数据分析的目的是估计和预测事件发生的时间以及影响这些时间的因素。以下是生存数据、生存函数和风险函数的详细解释:生存数据(Survival Data)
生存数据通常包含以下三个基本组成部分:
- 基线数据(Baseline Data):在研究开始时收集的个体特征,如年龄、性别、健康状况等。
- 事件时间(Event Time):从基线数据收集到事件发生(如死亡、疾病复发)的时间间隔。
- 事件指标(Event Indicator):一个二元变量,表示事件是否发生。如果事件在研究结束前发生,则为1;如果事件未发生或在研究结束时仍未发生(即右删失),则为0。
生存函数(Survival Function)
生存函数,通常表示为 S(t),是生存分析中描述个体生存时间分布的函数。它定义为个体生存时间超过时间t的概率,即:[ 其中,T是表示生存时间的随机变量。生存函数回答了“在时间 t之后,个体生存的概率是多少?”这个问题。风险函数(Hazard Function)
风险函数,也称为危险函数或失效率,通常表示为,是生存分析中描述在给定个体已经生存到时间t的情况下,个体在时间t处发生事件的瞬时率。数学上,风险函数定义为: 其中,是一个无限小的时间间隔。风险函数可以解释为在时间t处的生存时间密度函数与生存函数的比率。它们之间的关系
生存函数和风险函数之间存在密切的关系。根据风险函数的定义,我们可以推导出生存函数的另一种形式: 这意味着,生存函数的对数的负导数等于风险函数。这个关系在生存分析中非常重要,因为它允许我们使用风险函数来估计生存函数,即使我们无法直接观察到生存时间的完整分布。总结来说,生存数据提供了个体生存时间及其相关协变量的信息,生存函数描述了个体生存时间的分布,而风险函数描述了在特定时间点发生事件的瞬时风险。这些概念是生存分析和预测模型构建的基础。
标题 | 会议 | 主要方法 | 面向问题 | 优势 |
BMC Med Res Methodol | DeepSurv 模型:是一个多层感知器,输出为预测患者死亡风险的风险函数。采用负对数部分似然作为损失函数,并运用了权重衰减正则化、ReLU 激活函数、批归一化等多种现代深度学习技术。通过随机超参数优化搜索调整网络超参数。
治疗推荐系统:将患者分为不同治疗组,假设每个治疗组有独立的风险函数。通过计算不同治疗组风险函数的对数差值(推荐函数来提供个性化治疗建议。若>0,则治疗j比治疗i导致死亡风险更低;反之,治疗i
更有效 。 | 神经网络和生存森林等非线性方法可建模复杂关系,但在治疗推荐系统中的有效性尚未得到充分验证。此前神经网络在生存分析中的表现未超越传统方法。 | 深度学习在生存分析中具有优势,DeepSurv 在预测患者风险方面表现出色,优于其他线性和非线性生存方法。它能有效计算复杂的非线性特征,在提供个性化治疗建议方面优于随机生存森林。 | |
ㅤ | ㅤ | ㅤ | ㅤ |
DeepSurv: Personalized Treatment Recommender System Using ACoxProportional Hazards Deep Neural Network
介绍了DeepSurv这一用于个性化治疗推荐的Cox比例风险深度神经网络,展示了其在生存分析和个性化治疗推荐方面的优势及应用。 BMC medical research methodology, 2018
- 研究背景
- 生存模型的应用:医学研究人员使用生存模型评估预后变量在死亡或癌症复发等结果中的意义,Cox比例风险模型(CPH)是常用的标准生存模型,假设患者的死亡风险是其协变量的线性组合,该假设称为线性比例危险条件。但它假设风险函数为线性,在个性化治疗推荐等应用中存在局限性,需要更复杂的非线性模型来更好地拟合生存数据。
- 神经网络在生存分析中的应用:为建模非线性生存数据,研究人员应用了多种神经网络方法:
- 分类方法
- 原理:这类方法将生存分析问题转化为分类问题。神经网络被训练为将患者分为不同的风险类别,通常是基于生存时间和事件是否发生。
- 实现:可以采用二分类或多分类神经网络,其中二分类网络预测个体是否会在特定时间内发生事件,而多分类网络可以预测个体属于不同的生存时间间隔。
- 优点:实现相对简单,易于理解和解释。
- 缺点:可能无法充分利用时间到事件数据的信息,因为它忽略了生存时间的连续性。
- 时间编码方法
- 原理:这些方法通过将生存时间直接作为神经网络的输入来编码时间信息。网络学习生存时间与协变量之间的关系。
- 实现:可以将生存时间分为多个时间间隔,并为每个间隔创建一个二进制输入,表示个体是否在该间隔内发生事件。
- 优点:能够捕捉生存时间的连续性,更好地利用时间到事件数据。
- 缺点:需要对时间进行离散化,可能丢失信息,且对时间间隔的选择敏感。
- 风险预测神经网络
- 原理:这类方法使用神经网络直接预测个体的风险函数,即在给定协变量的情况下,个体在特定时间内发生事件的风险。
- 实现:通常采用前馈神经网络(Feed-forward Neural Network, FNN),输出层的输出代表风险函数的估计值。这种网络结构可以是线性的,也可以是非线性的。
- 优点:能够灵活地捕捉风险函数的非线性关系,适用于复杂的生存数据。
- 缺点:需要对风险函数进行建模,可能需要更多的数据来训练,且模型的解释性不如分类方法直观。
其中风险预测型神经网络(如Faraggi-Simon网络)可学习预后特征与个体失败风险间的复杂非线性关系,但此前研究中其预测风险的能力结果不一,未超越标准方法(如CPH)。本文旨在证明深度学习在生存分析中的应用效果优于其他方法,并展示深度神经网络可作为个性化治疗推荐系统及医学研究框架。
- 方法
- DeepSurv模型:DeepSurv是一个多层感知器,用于预测患者死亡风险,输出为单个节点,通过设置损失函数为负对数偏似然来进行训练。
- 负对数偏似函数
- 它允许深层架构,并应用了权重衰减正则化、ReLU、SELU、dropout、梯度下降优化算法、Nesterov动量、梯度裁剪和学习率调度,通过随机超参数优化搜索调整网络超参数。
- 治疗推荐系统:在临床研究中,患者根据预后特征和接受的治疗有不同风险水平。DeepSurv可预测患者接受不同治疗的风险,通过计算推荐函数(不同治疗风险函数的差值)来提供个性化治疗推荐。与CPH模型相比,DeepSurv优势在于无需预先指定治疗交互项,更具成本效益。

- 实验结果
- 模拟生存数据实验
- 线性风险实验:模拟患者具有线性风险函数,结果表明DeepSurv在预测能力上与标准线性Cox回归相当且优于随机生存森林(RSF),在建模真实风险函数方面优于CPH,其均方误差(MSE)更小。
- 非线性风险实验:风险函数设为非线性的高斯函数,DeepSurv的C指数优于线性CPH且与RSF相当,能正确学习患者协变量与风险间的非线性关系,而CPH在该实验中表现不佳。
- 真实生存数据实验
- Worcester Heart Attack Study(WHAS):该数据集包含1,638个观察值和5个特征,研究患者因素对急性心肌梗死(MI)生存的影响。DeepSurv优于CPH,但RSF表现更优。
- Study to Understand Prognoses Preferences Outcomes and Risks of Treatment(SUPPORT):数据集包含9,105名患者和14个特征,研究重病住院成年人的生存时间。DeepSurv与RSF表现相当且优于CPH,验证了其在真实生存数据上预测患者风险排名的能力。
- Molecular Taxonomy of Breast Cancer International Consortium(METABRIC):该数据集包含1,980名患者的基因表达数据和临床特征,用于确定新的乳腺癌亚组。DeepSurv优于CPH和RSF,展示了其建模基因表达数据风险效应的能力以及作为预后工具的潜力。
- 治疗推荐系统实验
- 模拟治疗数据实验:通过向模拟数据添加治疗协变量,DeepSurv成功建模两种治疗的风险函数,其推荐子集的生存曲线右移,中位生存时间增加,p值小于1e - 5,而RSF推荐效果不显著,表明DeepSurv能提供更有效的个性化治疗推荐。
- Rotterdam & German Breast Cancer Study Group(GBSG)实验:使用Rotterdam肿瘤库数据训练DeepSurv,为GBSG研究中的患者提供治疗推荐。结果显示DeepSurv的预测能力优于CPH和RSF,其推荐子集生存曲线与反推荐子集有显著差异,中位生存时间增加,验证了DeepSurv在真实临床数据上提供个性化治疗推荐的能力。

- 研究结论 深度学习在生存分析中的应用使模型更灵活,能基于治疗选项对个体风险的预测提供有效治疗推荐。DeepSurv在预测患者风险方面表现优于或与其他线性和非线性生存方法相当,可计算复杂非线性特征,在个性化治疗推荐方面优于随机生存森林。研究还发布了DeepSurv的Python模块和可重现实验脚本,为未来深度神经网络与生存分析的研究奠定了基础,有望补充传统生存分析方法,成为医学从业者研究和推荐个性化治疗选项的标准方法。
Deep weighted survival neural networks to survival risk prediction
由Hui Yu、Qingyong Wang等人撰写,提出了一种基于重加权方法、多样性策略和网格优化的DRGONet方法,用于提高癌症特异性生存风险预测的准确性。《Complex & Intelligent Systems》
- 研究背景
- 癌症与人工智能:癌症是全球主要死因,人工智能辅助计算可处理大量数据,机器学习的进步能提高生存预测准确性,深度神经网络(DNN)在生存分析预测中广泛应用。
- 数据问题与解决方法:高质量数据有助于生存分析,但临床癌症数据集存在噪声和稀缺问题,影响模型性能。重加权方法可调整数据点权重减少噪声影响,多样性策略可缓解过拟合,优化超参数也能提高模型性能。
- 研究方法
- 整体流程
- 首先,运用重加权方法对每个权重进行优化。这一步骤旨在根据数据点的重要性或相关性,调整数据集中不同数据点的权重,从而减轻噪声或不相关数据对模型的影响,为后续的准确预测奠定基础。
- 接着,多样性模型整合多个最优样本权重。多样性策略在模型中发挥着重要作用,它通过结合多个学习模型,使模型能够从不同角度看待数据,降低所有模型同时犯相同错误的风险,进而提高预测的准确性。
- 最后,将优化后的样本最优权重应用于生存风险预测模型,从而得出生存分析预测的最优结果。
- 各部分作用
- 重加权方法是整个模型的起始点,通过优化权重,突出重要数据,减少无关或噪声数据的干扰,为后续模型的准确预测提供更优质的数据基础。
- 多样性模型通过整合多个最优样本权重,引入了不同模型的视角和信息,增强了模型的泛化能力,避免过拟合,提高了模型在不同情况下的预测准确性。
- 生存风险预测模型利用前面步骤得到的最优权重,进行最终的预测计算,输出生存分析预测的结果,为临床决策提供参考依据。
- DRGONet方法:基于重加权、多样性策略和网格优化,包含权重优化和生存风险预测两部分。通过优化多个基模型权重获得最优权重,用于生存风险预测模型,以最大化一致性指数(CI)为目标,使用Adam优化器优化损失函数。
- 优化过程:使用Adam优化器,通过小批量训练样本优化损失函数,更新模型参数,在验证步骤中估计样本权重,对权重进行归一化处理。

- 实验过程
- 数据集:使用来自TCGA的五类癌症特异性数据,包括膀胱癌(BLCA)、乳腺癌(BRCA)、胶质母细胞瘤(GBM)、头颈癌(HNSC)和肺癌(LUNG),数据包含二元基因水平非沉默突变、RNAseq基因表达数据,预处理后特征维度为1440个基因。
- 实验设置:生存数据集包含生存时间和删失指标,采用五折交叉验证,对输入数据特征进行归一化处理。比较方法包括简约可见神经网络架构、突变通路可见神经网络架构、随机人工神经网络和全连接人工神经网络。实验使用Python和TensorFlow框架,在配备Nvidia RTX 3090 GPU和128GB CPU RAM的工作站上进行。
- 超参数选择:通过网格优化选择超参数,选择乳腺癌数据集进行五折交叉验证,选择不同模型结构,在训练阶段通过网格搜索选择最优学习率和L₂正则化尺度。
- 实验结果
- 模型性能:优化后的模型超参数学习率和L₂正则化尺度均为0.001。DRGONet方法在各类癌症特异性生存风险预测中表现优于其他方法,宏观平均CI值至少比其他方法高5%,权重排名最小。
- 消融实验:评估DRGONet方法各组成部分影响,去除多样性策略或重加权方法后,性能均不如完整方法。

- 研究讨论与结论
- 讨论:生存分析对癌症预后重要,DRGONet方法在生存分析预测中表现优越,与其他模型比较结果表明其优势,如在BRCA数据上平均C - index值最高。通过通路富集分析,以BLCA为例展示数据富集结果,基因富集分析有助于理解疾病机制。
- 结论:DRGONet方法可提高癌症特异性生存风险预测准确性,减少噪声数据影响,增强模型性能,通过五折交叉实验验证优势,还可帮助医生决策,减少患者痛苦。未来计划扩展方法纳入多组学数据,探索在其他医学领域应用,堆叠智能超表面技术有望解决深度学习问题,提升癌症生存预测能力。
📎 参考文章
- 一些引用
- 引用文章
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- Author:NotionNext
- URL:https://tangly1024.com/article/1a9df6db-5286-801e-9591-db3671163dc1
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts