当前位置: 首页 > news >正文

Lancet Digit Health(IF=24.1)牛津大学:基于Transformer的心血管病预防性治疗人群筛选

01文献信息本次分享的文献是由牛津大学Kazem Rahimi教授团队联合牛津大学多个系、哈佛大学、奥克兰大学、Memorial Sloan Kettering癌症中心等多家机构于2025年6月在柳叶刀子刊《The Lancet Digital Health》中科院1区topIF24.1上发表的研究“Refined selection of individuals for preventive cardiovascular disease treatment with a transformer-based risk model”即基于Transformer模型的心血管疾病预防性治疗人群精细化筛选研究该研究旨在通过深度学习的Transformer架构开发一个新的风险预测模型TRisk用于预测未来10年内心血管疾病CVD事件风险。研究基于英国近300万成年人的电子健康记录EHR比较了TRisk与现行主流模型如QRISK3、DeepSurv的性能。结果表明TRisk在总体人群及糖尿病亚群中均表现出显著更高的区分度C-index约0.91并能减少约三分之一被推荐治疗的人数而不降低事件预防效果。02研究背景1.研究问题现有心血管疾病风险预测模型存在两大核心问题过度推荐治疗传统统计模型如QRISK3、SCORE2、ASCVD虽广泛用于临床但会将大量低风险人群误判为“高风险”导致过度治疗如英国30-79岁成人中约1/3被推荐治疗但多数不会发生CVD事件特殊人群模型缺失对糖尿病等基础疾病人群当前指南采用“全员治疗”策略忽略个体风险差异如部分糖尿病患者CVD风险较低无需常规干预模型在该类人群中适用性不足。2.研究难点数据处理局限传统模型依赖专家驱动的特征工程难以处理电子健康记录EHR中“多模态、变长时序”的数据如诊断、药物、实验室检查的动态变化亚组性能不稳定传统模型对年龄依赖性强在窄年龄范围、不同性别或社会经济地位亚组中性能显著下降决策平衡难题难以同时实现“减少过度治疗”降低高风险人群分类和“避免漏判”降低假阴性二者常存在trade-off。3.解决思路架构创新采用Transformer基于BEHRT模型改进利用其自动提取时序特征的能力处理EHR多模态数据无需人工特征工程生存分析适配将BEHRT从二分类模型转为生存分析模型解决随访数据中的“截尾问题”如患者失访、研究结束时未发生事件迁移学习优化先在大样本一级预防人群训练模型再在糖尿病患者中微调适配高风险人群特征避免单独建模的样本量不足问题。03研究目标开发并验证TRisk模型实现一级预防人群和糖尿病患者的10年CVD风险精准预测对比TRisk与现有基准模型QRISK3、DeepSurv、SCORE2-Cox模型的性能鉴别能力、校准度、决策净获益评估TRisk在不同亚组年龄、性别、社会经济地位中的稳定性验证其对“弱势群体”的预测公平性量化TRisk的临床价值在减少过度治疗的同时确保CVD事件预防效果不降低。04Trisk模型架构TRisk基于双向电子健康记录TransformerBEHRT改进核心架构如下1. 输入层多模态特征涵盖EHR中4类核心数据共6366个特征单元3858种诊断、390类药物、1439项实验室检查、679个操作代码时序标注每个特征单元关联患者“年龄”和“医疗服务接触时间”形成变长时序序列如患者A的诊断记录按“2010年50岁-2012年52岁”排序无人工预处理无需缺失值插补直接保留缺失状态作为特征、无需人口统计学特征如性别、社会经济地位模型通过时序数据自动捕捉相关信息。2. Transformer层注意力机制通过自注意力Self-Attention捕捉不同特征间的时序关联如“高血压诊断利尿剂使用”的组合对CVD风险的协同影响双向编码采用双向Transformer结构同时考虑“基线前历史”的正向和反向时序依赖如“实验室检查异常后调整药物”的因果关系。3. 生存分析输出层风险函数建模在Transformer输出后接入生存分析模块基于Cox比例风险模型框架输出患者的10年CVD风险概率截尾处理通过对数似然损失函数优化纳入截尾数据如失访患者的信息避免偏倚。4. 迁移学习适配预训练阶段在222万一级预防人群中训练模型学习通用CVD风险时序模式微调阶段在4.5万糖尿病患者中微调模型参数适配“糖尿病其他并发症”的特殊风险模式提升高风险人群预测精度。05数据和方法研究数据数据来源英国临床实践研究数据链CPRD覆盖291家诊所训练和98家诊所验证。样本量一级预防人群约297万糖尿病患者约5.9万。随访时间中位2.5年IQR0.8–5.9。结局定义复合心血管事件冠心病、缺血性卒中、短暂性脑缺血发作。表 1一级预防人群推导集与验证集的人口特征研究方法对比模型QRISK3、DeepSurv、基于SCORE2的Cox模型。评估指标C指数、校准曲线、决策曲线分析、临床影响分析高风险人数、真阳性、假阴性。统计方法使用TRIPODAI指南报告模型性能。06结果与分析1.一级预防人群核心结果1鉴别能力TRisk显著优于基准模型模型C 指数95% CI精确召回曲线下面积AUC-PRTRisk0.910 (0.906-0.913)0.892QRISK30.831 (0.826-0.835)0.785DeepSurv0.846 (0.841-0.850)0.8012校准度所有模型在临床阈值内表现良好0-20%风险阈值临床推荐治疗阈值范围内TRisk、QRISK3、DeepSurv的校准曲线均接近对角线仅QRISK3在高风险区间15%略有高估预测风险高于实际风险TRisk校准最稳定。图 2决策曲线分析DCA3风险分布TRisk分类更极端减少“中间模糊人群”TRisk将23.5%患者归为“极低风险5%”或“极高风险20%”而QRISK3仅12.1%基准模型风险分布集中在8%-15%导致大量“中间风险人群”难以决策TRisk可减少此类模糊分类。图 1模型校准图与预测风险分布4临床影响减少过度治疗且降低漏判以1000名一级预防人群为基准不同阈值下的对比结果10%阈值下QRISK3高风险272人真阳36、假阴9TRisk高风险216人↓20.6%真阳40、假阴515%阈值下QRISK3高风险187人真阳29、假阴15TRisk高风险178人↓34.6%真阳37、假阴820%阈值下QRISK3高风险131人真阳24、假阴21TRisk高风险152人真阳35、假阴10。此外全员治疗全归高风险真阳45不治疗无高风险假阴45。表 3不同风险阈值下各模型的临床影响标准化至 1000 人2.糖尿病患者核心结果鉴别能力TRisk的C指数0.89595%CI0.887-0.903高于QRISK30.812和DeepSurv0.828表 2一级预防人群中各模型的鉴别性能C 指数对比临床影响对比“全员治疗”策略TRisk在10%阈值下减少24.3%治疗推荐757/1000vs1000/1000假阴性仅2例0.2%对比QRISK310%阈值TRisk减少12.6%高风险人群757/1000vs866/1000真阳性多1例115vs114。3.亚组性能TRisk稳定性更优年龄亚组在窄年龄范围40-69岁中TRisk的C指数0.902较QRISK30.815优势扩大差值从0.079增至0.087性别与社会经济亚组TRisk在男性/女性、不同IMD分层中C指数差异0.02而QRISK3在贫困人群IMD1分中C指数下降0.05从0.831降至0.781。07结论性能优势TRisk在一级预防人群和糖尿病患者中10年CVD风险预测的鉴别能力、校准度和决策净获益均显著优于传统模型QRISK3、DeepSurv等亚组稳定性TRisk对年龄、性别、社会经济地位的依赖性低在各亚组中性能一致可减少健康不平等临床价值TRisk可减少约1/3一级预防人群、1/4糖尿病患者的治疗推荐同时降低假阴性率实现“精准医疗资源节约”双赢可及性TRisk仅依赖常规EHR数据无需额外检查如基因检测、生物标志物便于在基层医疗推广。08讨论1.创新方向技术创新首次将Transformer架构用于CVD生存风险预测突破传统模型“手工特征工程”的局限自动挖掘EHR中的时序关联如“药物调整后实验室指标变化”对风险的影响方法创新通过迁移学习实现“通用人群→特殊人群”的模型适配解决糖尿病队列样本量不足的问题为其他基础疾病如慢性肾病的风险预测提供范式评估创新结合“决策曲线分析”和“临床影响量化”从“统计性能”到“实际临床价值”形成闭环评估避免模型仅停留在理论层面。2.临床价值减少过度医疗按英国人口估算TRisk可减少约350万一级预防人群的他汀/降压药推荐降低药物不良反应如他汀相关肌肉疼痛和医疗成本优化糖尿病管理替代“全员治疗”策略使24.3%低风险糖尿病患者避免不必要治疗同时确保高风险者不被漏判推动基层医疗效率基层医生无需掌握复杂风险评分规则TRisk可基于EHR自动输出风险分层辅助快速决策。3.局限性数据代表性仅基于英国CPRD数据需在其他国家/地区如美国、中国进行外部验证确认模型跨人群适用性随访时间中位随访2.5年部分患者缺乏完整10年随访数据虽与同类研究一致但长期预测精度需进一步验证可解释性Transformer模型存在“黑箱”问题虽BEHRT既往研究已挖掘部分风险因素如缺铁性贫血与心衰关联但TRisk的具体预测机制仍需更深入的解释性分析部署挑战TRisk依赖完整EHR数据和计算资源无法简化为“纸质评分表”需开发轻量化工具如离线计算模块适配基层医疗的低算力环境。4.未来展望外部验证在北美、欧洲、亚洲等不同医疗体系中验证TRisk性能优化模型适配性多组学融合纳入基因组、代谢组数据提升对“罕见高风险人群”的预测精度实时部署开发临床决策支持系统CDSS将TRisk集成到电子病历系统实现“患者就诊时自动生成风险报告”长期效果评估开展随机对照试验对比“TRisk指导治疗”与“传统模型指导治疗”的长期CVD事件发生率验证其因果效应。
http://www.rkmt.cn/news/1410621.html

相关文章:

  • Windows下pip升级报错“拒绝访问”?试试这个--user参数,5分钟搞定
  • 2026年哈尔滨特种作业培训与特种设备安全管理:工业锅炉司炉、压力容器操作、电梯修理、起重机司机复审实操精准推荐 - 品牌企业推荐师(官方)
  • RAG检索精度评测:三维评估体系下的条件化最优解选择
  • 语法层的灭绝:论贾子理论对旧认知体系的非历史性替代
  • 别再手动写接口文档了!用NestJS + Swagger 5分钟自动生成(附完整配置与常用装饰器详解)
  • 目标检测模型在Jetson边缘设备上的实战部署:以NanoDet和CenterNet为例,踩坑与优化全记录
  • 2026年4月口碑好的净水机生产厂家有哪些,净水机/反渗透膜/混床设备/电渗析器/离子交换设备,净水机生产厂家推荐 - 品牌推荐师
  • Amazon SageMaker全托管机器学习服务:从核心架构到实战部署
  • 别再拍脑袋定大小了!FreeRTOS栈空间配置的5个常见误区与避坑指南
  • 避坑指南:SAP利润中心月末关账,分配分摊循环(3KE1/4KE1)配置常犯的5个错误
  • ESP32-S2/S3 USB摄像头WiFi图传实战:从选型到实现稳定MJPEG流
  • mPEG4-alcohol 甲氧基聚乙二醇4-乙醇 CAS:23783-42-8 反应原理
  • Confluence数据迁移避坑实录:从旧服务器到新集群,我踩过的雷都帮你填平了
  • 别再傻傻写双重循环了!一个公式搞定‘所有数对乘积之和’问题(以蓝桥杯LQ0014为例)
  • 电源纹波忽大忽小?别急着换电容,先看看铝电解电容的ESR温度特性
  • 工业物联网边缘智能:基于压缩CRNN的超低功耗振动监测方案
  • 基于本地AI与多通道OCR的截图隐私保护工具开发实践
  • 从功能堆砌到工作流设计:构建以用户任务为中心的数字产品
  • 保姆级教程:在Vue3里给Highcharts频谱图加个‘瀑布流’背景(附完整代码)
  • 技术揭秘:基于计算机视觉的AI瞄准辅助系统架构解析
  • 2026年安全防爆的定制化汽车窗膜/高性价比汽车窗膜口碑好的厂家推荐 - 行业平台推荐
  • 终端AI助手实战:Ollama与LLM集成提升开发效率
  • 【可观测性】分布式追踪与监控:构建完整的系统可观测体系
  • 别再乱加电阻了!手把手教你用万用表判断CAN总线终端电阻是否匹配(附实测数据)
  • 2026年靠谱的工业拉伸膜/物流打包拉伸膜/拉伸膜缠绕膜/彩色拉伸膜生产厂家推荐 - 行业平台推荐
  • Unity UGUI不规则高度列表终极方案:ScrollViewEx组件详解与避坑指南
  • Agent推理可视化打破AI黑盒,让思考过程透明可见
  • 别再只叫它‘全景图投影’了:深入聊聊等距圆柱投影在游戏贴图和Web 3D中的应用
  • 2026年低反光的隔热汽车窗膜/汽车窗膜/出口级汽车窗膜推荐厂家精选 - 品牌宣传支持者
  • STM32CubeIDE串口DMA实战:从零到一实现稳定可靠的数据收发(附完整代码)