当前位置：首页 > news >正文

抗体改造预测：多模态特征工程如何超越通用预训练模型

news 2026/5/26 15:38:08

1. 项目概述与核心挑战在治疗性抗体开发的漫长旅途中我们常常需要扮演“分子裁缝”的角色。一个在天然IgG格式下表现优异的抗体为了适配高通量筛选、细胞穿透或是构建双特异性抗体等新需求经常需要被“裁剪”并“重组”成更紧凑的格式比如单链可变区片段scFv。这个过程我们称之为“抗体改造”或“抗体格式化”。听起来像是简单的模块化拼接对吧但实际干过这活儿的同行都知道这简直是开盲盒。你把重链VH和轻链VL用一段连接肽linker串起来得到的scFv很可能压根儿表达不出来或者即便表达了也失去了原有的结合活性甚至聚成一团沉淀。传统的做法是设计一堆候选序列然后一股脑儿扔进实验室进行表达和筛选成功率低不说时间和金钱成本高得吓人。最近几年机器学习尤其是基于海量序列数据预训练出的蛋白质语言模型PLMs在蛋白质性质预测上风头正劲。大家似乎形成了一种共识模型越大、预训练数据越多预测能力就越强。我们最初也抱着同样的想法试图用这些“大模型”来预测抗体改造的成功率。然而当我们面对一个包含56个不同抗体家族、近1500个改造实验的真实世界数据集时结果却令人大跌眼镜。那些参数动辄数十亿的预训练模型其预测表现竟然被一个简单的、基于独热编码one-hot encoding的线性逻辑回归模型给比下去了。特别是在“零样本”预测——即模型需要预测一个从未在训练集中出现过的全新抗体家族的改造结果时预训练模型的泛化能力出现了明显的短板。这引出了我们工作的核心在抗体改造这个特定且数据有限的生物物理预测任务中精心设计的、融合了多维度领域知识的特征其价值可能远超通用的、大规模预训练的表示。我们的目标不是否定预训练模型的价值而是强调在特定领域问题中回归问题本质构建一个能真正理解“改造”背后物理化学原理的预测框架比盲目追求模型复杂度更为有效。2. 核心思路为什么是多模态特征要预测一个抗体从IgG格式改造为scFv格式是否会成功我们需要思考改造失败可能源于哪些因素这决定了我们需要从哪些维度去描述一个抗体。2.1 序列信息最基础但非万能序列VH和VL的氨基酸排列是抗体的“身份证”。它决定了抗体的基本身份和潜在的结合特性。一个简单的独热编码就能捕获所有可能的氨基酸突变信息。预训练蛋白质语言模型如AbLang, ESM的优势在于它们从数十亿的蛋白质序列中学到了深层的进化约束和语义信息理论上能更好地理解哪些氨基酸组合是“自然”的、稳定的。然而抗体改造的成功与否不仅仅关乎序列本身的“合理性”更关乎格式转换带来的结构扰动。预训练模型通常是在天然、稳定的蛋白质序列上训练的它们可能不擅长捕捉因人为连接linker和顺序改变VH-VL或VL-VH而引入的、非自然的“应力”。2.2 结构信息洞察改造带来的形变这是我们的关键洞见之一。IgG中的VH和VL域是通过非共价相互作用和链间二硫键稳定在一起的。当我们将它们用一段柔性的连接肽串联成scFv时这两个域的相对空间取向和内部构象很可能发生改变。这种结构变化我们称之为“格式转换诱导的结构扰动”。我们通过结构预测工具如Boltz-2分别预测了原始IgG的VH/VL结构以及改造后scFv中对应域的结构。然后我们将它们进行刚性叠合计算了两个关键指标全局均方根偏差RMSD衡量整个VH或VL域在改造前后Cα原子的整体位置偏差。一个较大的RMSD可能意味着该域在scFv中发生了显著的构象变化这可能影响其稳定性或与抗原结合的口袋形状。逐残基坐标特征我们将叠合后scFv和IgG中每个对应残基的Cα三维坐标拼接起来。这提供了一个更精细的视图能捕捉局部区域的微小但可能关键的位移。例如某个关键CDR环上的一个残基发生了轻微移动可能就足以破坏其与抗原的结合。注意结构预测本身存在误差但我们假设对于同源比较即同一个VH域在IgG和scFv中的两种状态预测误差是系统性的因此计算出的相对变化RMSD和坐标差比绝对结构坐标更具参考价值。这好比用同一把尺子去量身高变化尺子本身可能不准但量出的变化量是可靠的。2.3 生物物理特征预测可开发性的经典指标即使序列合理、结构变化不大一个蛋白质也可能因为表面性质不佳而表达失败或聚集。我们从预测的scFv结构中提取了一系列经典的可开发性developability指标表面疏水性斑块PSH蛋白质表面疏水性过强的区域容易导致非特异性聚集。表面负电荷/正电荷斑块PNC/PPC电荷分布不均可能导致溶解度问题或非期望的相互作用。scFv电荷分离乘积SFvCSP一个综合衡量电荷分布均匀性的指标。这些特征直接关联到蛋白质的物理化学稳定性是湿实验科学家们长期以来依赖的经验性指标。将它们纳入模型相当于为机器学习模型注入了领域专家的先验知识。我们的核心假设是抗体改造的成功是序列适应性、结构兼容性和物理化学稳定性三者共同作用的结果。任何单一模态的信息都不足以全面描述这个问题。因此我们将这三类特征序列独热编码、结构变化描述符、生物物理属性拼接起来构成了一个多模态特征向量作为我们机器学习模型的输入。这个思路的本质是用领域知识指导特征工程让模型直接“看到”那些我们认为与任务最相关的信号。3. 数据构建与评估策略贴近真实研发场景机器学习项目成败的一半在于数据。我们的数据集来源于多个真实的治疗性抗体优化项目包含了从全长的IgG抗体改造为scFv的实验结果。每个数据点包含输入VH序列、VL序列、连接肽序列、域连接顺序VH-VL或VL-VH。输出/标签合成结果分类任务成功1或失败0。这里的“失败”主要指蛋白质根本表达不出来这是后续所有功能测试的“守门员”。合成产量回归任务表达量ng/µL这是一个连续值能提供更精细的优先级排序。我们定义了一个“scFv签名”(VH序列, VL序列, 连接肽, 连接顺序)。具有相同签名的scFv被视为等同其实验标签会被取平均以避免重复数据的影响。最终我们得到了1477个独特的scFv签名它们源自56个不同的“亲本家族”。一个亲本家族指的是所有由同一个原始IgG抗体衍生出的不同scFv变体。评估策略的设计是另一个关键。如果我们随机划分训练集和测试集模型很容易通过记住同一家族内高度相似的序列变体来获得虚假的高分但这无法反映真实的研发挑战。在现实中我们最需要模型回答的问题是“对于一个全新的、我们从未做过实验的抗体预测它的各种改造方案能否成功” 为此我们设计了三种数据划分方式模拟了从易到难的研发场景3.1 scFv签名划分理想情况所有56个抗体家族的数据都出现在训练、验证和测试集中只是具体的scFv签名不同。这模拟了“我们正在优化一系列已知抗体”的场景模型可以利用同一家族内的大量变体信息。这是最简单的任务用于建立性能基线。3.2 目标家族划分小样本学习我们选定一个抗体家族作为“目标家族”。训练时模型能看到少量例如5-10个该目标家族的scFv数据同时也能看到所有其他家族的数据。测试时则用该目标家族剩余的scFv数据。这模拟了现实中最常见的场景拿到一个新抗体先做一小批一个“批次”试点实验然后用模型预测这个抗体其他改造方案的成败以指导后续大规模实验设计。3.3 亲本家族划分零样本预测这是最具挑战性、也最贴近“全新抗体”预测的场景。我们将整个数据集按亲本家族划分。训练时模型完全看不到某个或某几个家族的任何数据。测试时则用这些被完全隐藏的家族进行评估。这要求模型必须学会泛化到序列和性质可能截然不同的全新抗体上是检验模型泛化能力的“试金石”。4. 模型架构与实验设计我们的模型策略遵循“从简到繁”的原则旨在清晰地对比不同特征和模型架构的效果。4.1 基线模型简单但强大的起点我们首先建立了两个简单的线性基线模型逻辑回归分类/线性回归回归独热序列特征仅使用VH和VL的独热编码序列、连接肽和连接顺序的类别编码。这是一个信息量极大但维度很高的稀疏特征。逻辑回归分类/线性回归回归预训练模型嵌入使用AbLang、ISM等预训练PLMs将VH和VL序列分别输入获取每个残基的嵌入向量然后进行平均池化得到固定长度的序列表示。这些嵌入在后续训练中被冻结不更新。4.2 对比模型预训练与结构编码器为了与我们的多模态思路对比我们评估了基于PLM嵌入的MLP在冻结的PLM嵌入之上搭建一个多层感知机MLP进行预测。基于结构的模型AbMPNNMLP使用抗体专用的图神经网络GNN编码器AbMPNN它基于预测的3D结构逆折叠任务训练生成嵌入。DPLM2MLP使用扩散增强的蛋白质语言模型DPLM2它同时融合了序列和结构信息。4.3 我们的多模态模型核心就是一个简单的线性模型逻辑回归或线性回归但其输入是我们精心构建的多模态特征向量[独热序列特征结构变化特征RMSD逐残基坐标生物物理特征]。我们没有使用复杂的深度学习架构就是为了突出特征本身的价值而非模型的拟合能力。所有实验均重复10次随机划分报告平均性能和标准差。评估指标上分类任务主要看AUROC受试者工作特征曲线下面积和AUPRC精确率-召回率曲线下面积对不平衡数据更敏感回归任务看皮尔逊相关系数。5. 实验结果与分析领域特征为何胜出实验结果的对比非常鲜明也颠覆了我们最初的预期。5.1 预训练模型在泛化上的“滑铁卢”在相对简单的scFv签名划分下所有模型表现尚可。但当我们把目光投向最具挑战性的亲本家族划分零样本时问题暴露无遗。模型特征来源亲本家族划分 AUROC (均值±标准差)亲本家族划分 AUPRC (均值±标准差)LogisticReg (我们的基线)独热序列 (vhvl_only)66.35 ± 10.7359.21 ± 15.65AbLangMLPPLM嵌入 (vhvl_only)62.58 ± 19.3758.75 ± 11.70ISMMLPPLM嵌入 (vhvl_only)58.09 ± 9.5054.02 ± 6.10DPLM2MLPPLM结构嵌入47.91 ± 5.2951.21 ± 11.13AbMPNNMLP结构嵌入54.30 ± 5.6954.67 ± 6.67关键发现1简单的独热编码线性模型在跨家族泛化任务上稳定地超越了所有基于预训练嵌入的复杂模型MLP。这个结果令人惊讶。AbLang是专门在人类抗体序列上训练的ISM和DPLM2更是融合了结构信息但它们学到的通用表示在应对抗体家族间强烈的分布偏移时似乎丢失了对于“改造成功率”预测至关重要的特异性信息。而独热编码虽然简单却完整、无损地保留了每个位置的氨基酸身份信息让线性模型能够直接学习到哪些具体的氨基酸组合或突变在改造背景下是“致命”的。关键发现2纯结构模型AbMPNN表现不佳。这暗示仅靠静态结构信息不足以预测动态的改造结果。结构特征必须与序列特征结合才能发挥作用。5.2 多模态特征的威力111 3当我们把序列、结构和生物物理特征融合起来输入给同一个简单的线性模型时性能得到了质的飞跃尤其是在泛化场景下。数据划分模型特征AUROCAUPRCscFv签名划分多模态 (序列结构生物物理)92.93 ± 3.6191.18 ± 4.59仅序列89.46 ± 1.6387.46 ± 2.33亲本家族划分 (零样本)多模态 (序列结构生物物理)88.92 ± 14.9385.68 ± 20.94仅序列66.35 ± 10.7359.21 ± 15.65目标家族Fam2 (小样本)多模态 (序列结构生物物理)82.96 ± 9.5166.10 ± 13.57仅序列71.81 ± 7.9754.87 ± 9.28关键发现3多模态特征带来了巨大的泛化性能提升。在零样本的亲本家族划分中多模态特征将AUROC从66.35提升到了88.92AUPRC从59.21提升到了85.68。这意味着对于一个全新的抗体我们的模型能以接近90%的准确率判断其改造方案是否会表达失败。在模拟小样本学习的目标家族划分中提升同样显著。为什么融合特征如此有效我们可以这样理解序列特征告诉模型“这是什么抗体”结构变化特征告诉模型“改造对它造成了多大的形变冲击”生物物理特征告诉模型“改造后的分子表面性质是否友好”。这三者构成了一个完整的“改造风险评估报告”。线性模型能够高效地学习这些特征与失败概率之间的权重关系。例如模型可能学到“如果VH域的RMSD大于某个阈值且某个关键疏水斑块面积突然增大那么失败概率极高。” 这种跨模态的交互信息是任何单一模态的预训练模型都难以充分捕获的。5.3 特征消融实验的启示我们进一步做了消融实验移除了多模态特征中的某些部分仅用序列生物物理性能显著下降尤其是在泛化场景。仅用序列结构无生物物理性能与完整多模态特征接近说明序列与结构特征的协同是提升泛化的核心。仅用全局RMSD序列提升有限。这证实了逐残基的精细结构变化信息比一个整体的RMSD数值包含更多预测信号。实操心得在构建多模态特征时不要满足于一个整体的结构差异指标。尽可能提取逐残基、局部的结构变化描述符。这些细微的、空间上的扰动往往是决定蛋白质折叠和稳定性的关键。6. 实战指南如何构建你自己的抗体改造预测流程基于我们的研究如果你想在自己的项目中应用这套方法可以遵循以下步骤。这里假设你已有一定的生物信息学和机器学习基础。6.1 数据准备与特征工程数据收集整理你的抗体改造实验数据。至少需要亲本抗体如IgG的VH和VL序列、改造后格式如scFv的完整序列包含连接肽、连接顺序、以及实验测得的标签合成成功/失败或产量。序列特征提取使用AHo或IMGT编号方案对VH和VL序列进行比对统一长度。进行独热编码。对于长度为L的序列每个位置是一个20维的向量20种标准氨基酸。将VH和VL的独热向量拼接。连接肽和连接顺序作为类别变量进行独热编码后拼接到序列特征后面。结构特征计算结构预测对亲本抗体格式如IgG的Fv区和改造后格式如scFv分别进行3D结构预测。推荐使用本地部署的AlphaFold2/3、RoseTTAFold或Boltz-2。确保使用相同的参数和配置以保证预测的一致性。结构叠合与特征提取使用PyMOL或Biopython等工具将改造前后同一个可变域如VH的预测结构进行刚性叠合基于Cα原子。计算该域的全局Cα RMSD。提取逐残基坐标差对于叠合后每个匹配的残基计算其Cα原子在三维空间中的坐标向量差(Δx, Δy, Δz)。对于因插入缺失无法匹配的位置用零向量或特定标识符填充。对VH和VL域重复此操作将两个域的RMSD和所有残基的坐标差向量拼接成一个长向量。生物物理特征计算基于改造后格式如scFv的预测结构使用工具计算可开发性指标。推荐工具PyRosetta可编程功能强大、SCWRL4或专门的商业软件如MOE、Schrödinger。可以计算表面疏水性如使用PyRosetta的calc_relative_hydrophobic_sasa。表面静电势和电荷斑块需要先计算净电荷和表面电势分布。聚集倾向性预测如TANGO,AGGRESCAN的算法实现。将这些标量或向量特征拼接到特征总向量中。6.2 模型训练与评估特征标准化对连续型特征如RMSD、产量、各种生物物理指标进行标准化如Z-score标准化。类别特征独热编码不需要。数据划分务必使用基于亲本家族的分层划分来模拟真实场景。使用scikit-learn的GroupShuffleSplit或LeaveOneGroupOut。将来自同一个亲本抗体的所有变体视为一个组group确保同一个组不会同时出现在训练集和测试集中。模型选择与训练首选从简单的线性模型开始如LogisticRegression分类或Ridge/Lasso回归。它们可解释性强且我们的实验表明其性能卓越。进阶尝试可以尝试梯度提升树如XGBoost, LightGBM它们能自动捕捉特征间的非线性交互可能进一步提升性能。使用交叉验证和网格搜索优化超参数。谨慎使用深度学习在数据量有限10k样本的情况下复杂的深度学习模型容易过拟合。如果使用务必加强正则化Dropout, Weight Decay并采用早停策略。评估主要关注亲本家族划分零样本下的性能。报告AUROC和AUPRC。同时计算在目标家族划分小样本下的性能这更具实际指导意义。6.3 结果解读与应用模型可解释性对于线性模型查看特征的系数权重。正权重大的特征可能是“风险因子”如某个位置特定的氨基酸、较大的RMSD、高疏水性负权重大的特征可能是“保护因子”。这能为你提供生物学见解指导后续的理性设计。决策阈值选择根据你的业务需求调整分类阈值。如果你希望尽可能不漏掉任何有潜力的候选分子高召回率可以设定较低的失败概率阈值如果你资源有限只想做最有把握的实验高精确率则设定较高的阈值。可以在验证集上绘制P-R曲线来选择。流程集成将训练好的模型集成到你的抗体设计流程中。在生成一批scFv候选序列后先用模型进行虚拟筛选只对预测成功率高的候选分子进行湿实验验证。这可以大幅降低实验成本实现“设计-预测-实验”的快速迭代循环。7. 常见问题与避坑指南在实际操作中我们踩过不少坑也积累了一些经验。7.1 数据相关问题实验数据标签噪声大。合成“失败”可能源于表达系统问题、实验操作失误而不仅仅是序列/结构问题。对策尽可能收集重复实验的数据取平均值或一致性结果作为标签。与实验人员紧密沟通理解失败的可能原因在数据清洗时考虑排除非设计相关的失败案例。问题数据不平衡。成功和失败的样本数可能相差很大。对策使用AUPRC作为主要评估指标它比准确率更可靠。在训练时可以为逻辑回归设置class_weightbalanced或对少数类进行过采样如SMOTE但要注意过采样可能加剧过拟合。问题特征计算失败。例如某些突变导致结构预测失败无法计算生物物理特征。对策建立稳健的流水线。对于计算失败的特征可以采用数据集的均值/中位数进行填充并添加一个二值标识特征如structure_prediction_failed让模型知道该数据点存在信息缺失。7.2 特征工程相关问题结构预测耗时且计算资源要求高。对策对于大规模虚拟筛选可以考虑使用更快的、精度稍低的蛋白质结构预测工具如ESMFold或者探索是否能用序列协方差分析、深度接触图预测等方法来间接推断结构变化而无需全原子预测。问题多模态特征向量维度极高序列独热编码可能就上千维导致“维数灾难”。对策特征选择使用L1正则化Lasso的线性模型它会自动将不重要的特征系数压缩为零。查看哪些特征被保留。降维对高维特征如逐残基坐标差先进行主成分分析PCA保留主要成分后再输入模型。分阶段建模先只用序列特征做初步筛选对通过初筛的候选分子再计算昂贵的结构特征进行精筛。7.3 模型与泛化问题模型在训练集上表现很好但在全新的抗体家族上表现骤降。对策这很可能就是遇到了“分布外”OOD泛化问题。除了使用我们提出的多模态特征还可以尝试领域泛化技术在训练时显式地将亲本家族作为域标签使用如IRM、GroupDRO等算法鼓励模型学习跨家族不变的特征。数据增强对序列进行保守的突变模拟或对结构坐标添加微小的高斯噪声以增加数据的多样性。最重要的持续收集新的、多样化的抗体家族数据并更新模型。机器学习模型的能力边界最终由数据决定。问题如何确定连接肽和连接顺序VH-VL vs VL-VH的影响对策在我们的特征体系中连接肽类型和连接顺序是作为明确的类别特征输入的。模型会学习到它们与输出之间的关联。你可以事后分析这两个特征的系数或者固定其他特征观察改变它们时模型预测概率的变化从而评估其影响。通常连接肽的柔性和长度对scFv的稳定性有显著影响。这项工作给我们深的体会是在AI席卷生物学的时代面对一个具体的、数据有限的工程问题最炫酷的模型未必是最优解。回归第一性原理深入理解你所要预测的生物学过程抗体改造中的结构扰动和物理化学变化并将这种理解转化为机器可读的特征往往能带来意想不到的、稳健的性能提升。我们的框架提供了一个可扩展的蓝图其核心思想——整合序列、结构和生物物理的多视角信息——可以很容易地迁移到其他蛋白质工程任务中比如预测点突变对稳定性的影响、或者设计新的蛋白质结合界面。工具永远在迭代但用领域知识指导建模的思路会一直是我们解决复杂生物问题最可靠的罗盘。

查看全文

http://www.rkmt.cn/news/1393026.html