人民大学、上海AI实验室等联合打造的“全能生物AI“-尧图网站建设

📅 发布时间：2026/6/26 1:17:28

这项由中国人民大学高岭人工智能学院、上海人工智能实验室、浙江大学、上海创新研究院、华东师范大学、中关村学院以及武汉大学人工智能学院联合完成的研究，发布于2026年6月，论文编号为arXiv:2606.22138，感兴趣的读者可通过该编号查阅完整原文。

一、科学家面对的"语言障碍"问题

在生物医学领域，研究一种药物分子、一种蛋白质，或者理解它们之间的相互作用，就好像要同时读懂三种完全不同的语言：一种是化学家写在纸上的"分子结构式"，一种是蛋白质研究者使用的"氨基酸序列"，还有一种是科学家们在论文里写的"自然语言描述"。更复杂的是，每种语言还有"平面版本"（序列）和"立体版本"（三维空间结构）之分。

以往的人工智能模型，就像是只会说一门外语的翻译官——有的擅长处理蛋白质序列，有的擅长理解分子化学式，有的能读懂科学论文，但几乎没有一个能把所有这些信息融会贯通地放在同一个"大脑"里处理。这就造成了一个尴尬的现实：当你需要研究"某种小分子药物如何与某种蛋白质结合"这样跨界的问题时，现有的AI工具往往需要多个系统协同配合，信息在系统间传递时还容易出现"翻译错误"。

研究团队把这个问题用一张表格总结得相当清楚：比如ESM3这款模型，只会处理蛋白质，不懂分子；AlphaFold3能处理分子和蛋白质的结构预测，却读不懂自然语言；而BioT5这类模型能把分子序列和自然语言联系起来，却完全不懂三维立体结构。没有任何一款模型能同时处理分子序列、分子三维结构、蛋白质序列、蛋白质三维结构，以及自然语言这五种信息。

正是为了填补这个空缺，研究团队构建了BioMatrix——一个能同时"说"所有这五种"语言"的统一生物基础模型。

二、BioMatrix的核心思路：把所有语言翻译成同一套"字母表"

BioMatrix解决这个问题的核心思路，可以用一个厨房的比喻来理解。假设你是一家需要处理中餐、西餐、日料和印度料理的"超级餐厅"的厨师长。最笨的办法是为每种菜系雇一个专门的厨师，他们各自用不同的度量单位（一个用克，一个用盎司，一个用匙）、不同的刀法、不同的火候标准，互相之间根本没法协作。而聪明的办法是：把所有菜系的食谱都统一转换成同一套标准语言——统一的度量单位、统一的操作步骤描述、统一的术语体系——然后用一套通用厨房设备完成所有工作。

BioMatrix采用的就是这种"统一食谱语言"的策略，技术上称为"统一分词方案"（unified tokenization scheme）。简单说，就是把所有不同类型的生物信息都转换成同一套"字符集"或"代码"，让一个大语言模型能够统一处理。

具体来说，研究团队做了这样几件事。对于分子的"平面表示"（也就是分子式），模型同时支持两种写法：一种叫SMILES，是化学领域最常用的线性表示法，比如乙醇写成CCO；另一种叫SELFIES，是一种更新的表示法，它有个特殊优势：任何语法正确的SELFIES字符串都必然对应一个合法的分子，不会出现"写了半天发现这个分子根本不存在"的问题。对于分子的三维结构，研究团队改进了一种叫MolStrucTok的技术——该技术把分子中每个原子的空间位置（用距离、角度来描述）压缩成一个离散的数字代码，就像把GPS坐标量化成邮政编码一样。对于蛋白质的平面表示（氨基酸序列），模型使用每种氨基酸对应一个专属代码，共26个代码覆盖所有常见和非常见氨基酸。对于蛋白质的三维结构，研究团队使用了一种叫GCP-VQVAE的技术，把蛋白质骨架的几何信息压缩成每个氨基酸残基对应一个数字代码，用4096个代码构成一本"蛋白质结构字典"。而自然语言，就直接使用原有的语言模型词表。

将这一切整合在一起后，一个蛋白质折叠问题就变成了这样一个任务："给定氨基酸序列代码串，预测对应的结构代码串"——这和普通语言模型处理"给定一段中文，预测下一个词"在形式上完全一样。

三、两个关键的技术改进：让"结构字典"更精准

在分子三维结构的编码方面，研究团队对原有的MolStrucTok进行了一项精妙的改进。原版的系统用一个共享的神经网络头部同时预测四个不同的几何参数：原子间距离、极角、方位角的绝对值，以及方位角的符号（正负）。这四个参数的性质差别很大——距离是正数，两个角度是有界的弧度值，符号只是0或1——就像用同一把尺子同时测量体重、身高、血压和心率，各自的量纲完全不同，放在一起会互相干扰。

研究团队的解决方案是把这个共享头部拆开，让四个参数各自拥有一个专属的神经网络头部独立预测。这个改动看起来很小，但效果相当明显：在QM9分子数据集上，每个几何参数的重建误差平均降低了约0.1埃（埃是原子尺度的距离单位，1埃等于0.1纳米）。就好像把一个负责同时报告天气、交通、股市和体育的播音员拆分成四个专业播音员，每个人只报自己最擅长的内容，准确率自然提高了。

在词汇表设计上，研究团队还解决了一个"词汇爆炸"的问题。理论上，分子结构的代码词汇表可以通过把925种SELFIES原子符号和512种MolStrucTok结构代码两两组合得到，最多约47万种组合。但实际训练数据中真正出现过的组合远没这么多。研究团队统计了预训练数据中所有实际出现的组合，按频率从高到低排列，只保留能覆盖99%出现频次的最小前缀集合，最终精简到11294个联合词条。这就像编一本真正实用的词典——不是把所有理论上能造的词都收进来，而是只收录真正在书面语中频繁出现的词，让模型能充分学习每个词的含义，而不是对着大量几乎从未见过的生僻词发愁。

对于蛋白质则采用了不同的策略。如果也把氨基酸符号和结构代码组合，理论上需要超过7万个联合词条，这几乎相当于原始语言模型词汇表的一半，而且许多组合在训练数据中只出现寥寥几次，根本学不到什么有用信息。因此蛋白质的氨基酸词条和结构词条保持独立，每个残基用两个代码分别描述序列信息和结构信息，在自然对齐的同时避免了词汇表的膨胀。

四、让新词汇"不从零开始"：聪明的初始化策略

向语言模型的词汇表中加入几千个新代码，会遇到一个实际问题：这些新词条的初始"理解"从哪里来？如果随机初始化，模型在训练早期对这些新词条完全无知，需要很长时间才能建立起对它们的基本理解，训练过程会很不稳定。

研究团队采用了一种巧妙的"以旧带新"策略：为每个新词条编写一段简短的自然语言描述，然后用原有语言模型对这段描述的理解来初始化新词条的表示向量。比如，控制分子SMILES片段开始的特殊标记，描述为"开始一段分子SMILES字符串"；代表丙氨酸的蛋白质词条，描述为"丙氨酸"。对于那些本身就是纯粹数字代码的结构词条（没有自然语言对应物），就直接用代码字符串本身作为描述。这样，每个新词条在训练开始时，就已经"住在"语言模型的语义空间中一个有意义的位置附近了，就像给一个新员工安排了一个有经验同事的座位，而不是把他扔在一个完全陌生的角落。

五、304.4亿词的学习材料：喂给AI的"生物学图书馆"

构建BioMatrix的第二个关键步骤是准备训练数据。研究团队为此建立了一个规模达到3044亿词（这里"词"是token的意思，大致对应一个汉字或英文词片段）的预训练语料库，涵盖四大类内容。

第一类是通用文本和科学文本，包括FineWeb-Edu这个大规模教育内容筛选数据集，以及来自FineFineWeb的生物、化学、医学和健康四个专业子集，还有PubMed收录的大量同行评审文献全文。这部分数据的作用是防止模型在大量专业训练后"忘记"如何说正常的人话，同时获得扎实的科学表达能力。

第二类是以分子为中心的数据，主要来自PubChem数据库，覆盖截至2025年12月的所有化合物，每个分子的SMILES表示、SELFIES表示、三维结构代码、物理化学性质（如分子量、亲水性、极性表面积等），以及IUPAC命名和文字描述，都被组合成训练样本。此外还引入了PCQM4Mv2和PubChemQC两个高精度量子化学数据集的三维构象，以及MolTextNet这个包含约250万个分子描述对的数据集。

第三类是以蛋白质为中心的数据，来源包括UniRef50（提供大规模蛋白质序列覆盖）、RCSB蛋白质数据库（实验解析的三维结构）、UniProt/Swiss-Prot（含丰富功能注释的人工审核蛋白质数据库）、UniProt/TrEMBL（自动注释的大规模蛋白质序列库），以及AlphaFold蛋白质结构数据库（包含约1.3亿个预测结构，覆盖数据库中60%以上的条目）。对于同时具有序列和结构信息的蛋白质，研究团队采用了"三视图"策略：对每个蛋白质生成三种训练样本，分别是只有序列的样本、只有结构的样本，以及序列和结构同时出现的联合样本，让模型既学会独立处理每种模态，也学会联合理解两种模态。

第四类是跨实体和交错数据，专门用于建立不同生物分子之间的关联知识。其中"交错生物医学文本"是通过一个叫BERN2的工具对PubMed、bioRxiv、S2ORC和USPTO专利数据库中的科学文本进行处理，自动识别文中提及的分子和蛋白质实体，并在实体名称后面直接插入对应的结构表示——这就像在一本化学教科书里，每次出现"苯"这个词，后面都自动附上苯的化学结构式和三维坐标，让模型学会文字描述和结构之间的对应关系。还有来自BindingDB、STITCH、CrossDocked2020等数据库的分子-蛋白质相互作用数据，以及蛋白质-蛋白质相互作用数据，让模型能够理解不同生物分子之间的结合与相互作用。

六、训练过程：在64块顶级显卡上度过的漫长学习之旅

BioMatrix的预训练在64块英伟达H100 GPU上进行，批次大小为1024，序列最大长度8192个词条，使用AdamW优化器，峰值学习率为0.0002，按余弦退火策略逐渐降低，共经历约36400步训练，消耗完全部3044亿词的训练数据。研究团队同时训练了1.7亿参数规模和40亿参数规模两个版本，两者都以Qwen3语言模型为基础进行持续预训练。

训练过程中出现了一些短暂的损失值"峰刺"——可以把它想象成一个学生在大量学习过程中偶尔因为遇到特别陌生的内容而短暂困惑，但很快就恢复了正常学习节奏。研究团队对出现峰刺前后的检查点进行了验证集测试，确认这些短暂波动并没有对模型整体学习造成实质性损害。

预训练完成后，研究团队还进行了指令微调，让模型学会按照人类指令完成具体任务。微调数据涵盖80个具体任务，分属6大类别，总计约2485万条训练样本。为了防止模型对固定指令格式产生依赖，每个子任务都设计了多个语义等价但措辞不同的指令模板，训练时随机抽取，就像老师换着方式问同一道题，确保学生真的理解了概念而不只是死记硬背了一种表述。

七、80项考试的成绩单：分子领域的表现

评估BioMatrix能力的方式是让它参加80项来自已发表文献的标准测试，与专门为各任务设计的专精模型正面竞争。

在分子序列相关任务中，BioMatrix展现出了相当扎实的综合能力。以无条件分子生成（即让模型从零开始生成有效分子）为例，在MOSES和GuacaMol两个标准测试集上，BioMatrix-4B的SELFIES变体生成的10000个分子中，有效率高达99.8%，独特性为100%，新颖性98.6%，同时在分子内部多样性上也超过了大多数专精生成模型。更重要的是，它在有效性、新颖性、多样性三个维度上达到了一个相当平衡的状态，而以往的模型往往在一个维度上出色但在其他维度上有所欠缺。

在分子命名转换（将IUPAC系统命名与分子式、SMILES等互相转换）任务上，BioMatrix-4B的SMILES变体在IUPAC转序列的精确匹配率上达到92.83%，超过了参数量约是其两倍的SciReasoner-8B（该模型的得分为84.40%）。

在分子性质预测（从分子结构预测物理化学或生物活性性质）方面，BioMatrix在六个标准数据集中的五个上达到了大语言模型方法中的最佳或第二佳成绩，在HIV活性分类任务上甚至超越了专门为此任务训练的专精模型。

分子描述生成（给定分子，用自然语言描述其功能和特征）和基于文本的分子生成（给定文字描述，生成对应分子）这两个双向翻译任务，是最能体现多模态理解优势的测试场景。在SMolInstruct测试集上，BioMatrix-4B在分子描述生成的METEOR评分上达到61.5分，在基于文本的分子生成任务中，精确匹配率从之前最好的SciReasoner-8B的48%提升到了65.07%，Tanimoto指纹相似度从BioMedGPT-Mol-8B的77.50%提升到了85.47%——这些数字的背后是模型对分子结构与自然语言描述之间对应关系的更深入理解。

在正合成（预测给定反应物会生成什么产物）和逆合成（给定目标产物，推断可能的反应物和路径）任务上，BioMatrix-4B的SMILES变体分别达到了77.94%和45.16%的精确匹配率，在所有大语言模型方法中名列前茅。

分子编辑任务（按照自然语言指令对分子进行局部结构修改）是一个更精细的测试。研究发现BioMatrix在成分添加和成分删除两类操作上大幅超越了所有对比基准，但在成分替换（同时做删除和插入）这个最复杂的操作上仍落后于一些闭源商业模型，这符合研究者的预期——替换操作需要同时定位目标位置、理解上下文约束、执行两步操作，难度本质上更高。

在分子优化任务上，BioMatrix在logP（脂溶性）和MR（摩尔折射率）两个性质的单性质优化上，以及在全部八个MolOpt-Instructions测试子任务上，全面超越了DrugAssist等专精优化模型。一个有趣的观察是：在这里SELFIES变体表现明显优于SMILES变体——而在之前的定制化分子生成任务中，SELFIES变体却几乎完全失效。研究团队对此做了深入分析：SELFIES的语法保证让模型生成的任何输出都是合法分子，这在"优化一个现有分子使某种性质变好"这类任务中非常有价值；但在"生成满足特定原子数量/键数量/官能团约束"这类需要把结构约束锚定到具体词条的任务中，SELFIES那种把原子类型和键型信息融合进单个词条的编码方式，反而让模型无法简单地通过"数词条数量"来满足计数约束，导致表现糟糕。这个发现提示：两种表示法不是相互竞争的，而是互补的，不同任务应该选择不同的表示法。

在分子问答（MoleculeQA）任务上，BioMatrix-4B的总体准确率达到73.78%，显著超过此前最佳的MolCA-1.3B的64.79%，在结构类知识子类上的提升尤为突出（83.36%对比71.12%）。

八、三维分子结构的生成：与扩散模型的正面交锋

在三维分子结构生成这个历来是扩散模型主场的领域，BioMatrix交出了一份值得关注的成绩单。

在无条件三维分子结构生成任务中（生成合法分子的同时生成其三维构象），BioMatrix在二维图形层面的指标上表现出色：FCD距离（衡量生成分子与真实分子分布差异的指标，越小越好）达到0.064，与扩散模型NExT-Mol（0.070）持平，并且在原子稳定性、分子稳定性、有效性这些二维质量指标上达到满分或接近满分。

然而在原子级别的几何精度上，原始输出的键长误差比NExT-Mol大得多，原子稳定性也低一些。研究团队对此给出了直接的解释：基于离散码本的自回归重建方式，本质上会引入量化误差，而且原子坐标是逐步累积重建的，误差会沿着遍历路径累积，这与扩散模型同时对所有原子坐标进行去噪的做法有本质区别。不过，只需在生成结果上跑一步MMFF分子力场优化（这是一个非常轻量的后处理步骤），FCD从1.04大幅降到0.23，原子稳定性从0.897恢复到0.985，说明这个几何精度的缺口并非无法弥补，而是可以通过廉价的后处理来恢复的。

在性质条件控制的三维分子生成任务中，BioMatrix的优势则相当惊人。这个任务要求模型生成的分子在量子化学性质（如HOMO能量、LUMO能量、偶极矩等）上与给定目标值匹配。BioMatrix-4B在六个量子化学性质上全面超越此前最强的NExT-Mol，误差缩小幅度在2到4倍之间——其中HOMO能量误差从205 meV降到57 meV，LUMO能量误差从235 meV降到54 meV，HOMO-LUMO能隙误差从297 meV降到81 meV。研究团队认为，这种巨大的提升来自于统一词空间的优势：当目标性质值和分子结构代码都在同一个词表示空间里，模型能够直接从性质描述"预测"结构序列，这种以文本序列形式进行的条件控制，比扩散模型通过梯度引导或条件注入来实现控制更为直接有效。

九、蛋白质任务：从序列理解到折叠预测的全面考核

BioMatrix在蛋白质相关任务上的表现同样全面。

在蛋白质序列理解方面，包括EC编号预测（判断一个蛋白质是哪类酶）、折叠类型分类（判断蛋白质属于哪个结构家族）以及亚细胞定位预测（判断蛋白质在细胞中位于哪个区室），BioMatrix的两个规模变体都达到了与或超越SciReasoner-8B（参数量是BioMatrix-4B两倍）的水准，而GPT-O3、DeepSeek-R1等通用大语言模型在这些任务上几乎完全失效，证明这类任务确实需要专业的生物学领域训练。

在蛋白质功能注释预测方面（预测蛋白质的基因本体论术语、UniProt关键词、功能文字描述等），BioMatrix-4B在关键词F1得分上达到91.26%，基因本体论F1达到86.33%，并在Mol-Instructions测试集的所有子任务上建立了新的最佳成绩。值得一提的是，即使是当时最先进的GPT-O3模型，在这些需要精确生物数据库知识的任务上得分接近于零，而BioMatrix则展现出了真正掌握了生物数据库内在知识体系的迹象。

在蛋白质知识挖掘任务（从基因符号预测相关组织或癌症类型）上，BioMatrix-4B在基因符号到癌症类型的关联预测上达到F1=79.53%，与参数量两倍的SciReasoner-8B（F1=81%）非常接近。

在蛋白质结构理解（给定蛋白质序列和三维结构，回答关于其功能的问题）上，BioMatrix-4B在PFUD测试集的全部四个指标上都超越了此前最佳的ProtTeX-Llama3模型（该模型基于Llama3-8B，参数量是BioMatrix-4B的两倍），BLEU-2得分从41.54提升到46.07。

在结构预测（折叠）任务上，BioMatrix-1.7B和BioMatrix-4B都达到了TM-score=0.84的水平，超越了DPLM-2-150M和DPLM-2-650M，与DPLM-2-3B（TM=0.86）非常接近，当然仍与专精折叠工具ESMFold（TM=0.93）存在差距——后者的整个架构和训练目标都是为折叠这一单一任务而设计的，这种差距是预期中的、合理的代价。

在逆折叠任务（给定蛋白质三维结构，预测可以折叠成该结构的氨基酸序列）上，BioMatrix取得了令人意外的突出成绩：氨基酸恢复率（生成序列与天然序列逐残基匹配的比例）达到75.50%，远超DPLM-2-3B的61.67%，超出幅度相当显著。研究团队认为这得益于残基对齐词表的设计：每个氨基酸词条和对应的结构词条严格一一对应，逆折叠就自然变成了一个直接的词条到词条映射问题，不需要任何额外的机制来实现这种对应。

在序列-结构协同生成（同时从零生成互相一致的氨基酸序列和骨架结构）任务上，BioMatrix在序列→结构方向达到scTM=0.965，在结构→序列方向达到scTM=0.979，全面超越DPLM-2-650M，并在结构→序列方向上的scTM和scRMSD联合指标上甚至超过了天然PDB蛋白质作为参照物的水平。在无条件蛋白质骨架生成（从零生成可设计的蛋白质骨架）任务上，BioMatrix-4B的scTM达到0.963，超过了RFDiffusion（0.914）、FrameDiff（0.818）和FoldFlow（0.540）这些专为蛋白质结构生成设计的扩散模型，接近天然PDB结构的0.969上限。在文本引导的蛋白质设计（根据功能文字描述生成氨基酸序列）上，BioMatrix在可折叠性、序列多样性等指标上达到了具有竞争力的水平。

十、分子与蛋白质的相互作用：跨实体推理的终极考验

分子-蛋白质相互作用预测（即预测一种药物分子和一种蛋白质靶点的结合亲和力）是验证BioMatrix跨实体理解能力的核心场景。

在仅使用序列信息的结合亲和力预测任务中，BioMatrix-4B在BindingDB数据集上的均方根误差降低到1.030，明显超越了此前文献中报告的最优结果（1.340），在PDBBindv2019/CASF-2016数据集上达到1.268，同样超越了各类蛋白质专用编码器基准。

在需要同时使用分子三维结构和蛋白质三维结构的结合亲和力预测任务（PDBBindv2020数据集）上，BioMatrix-4B在四个评估指标中的三个上取得最佳成绩，超越了TANKBind——后者是一个专门为此任务设计的、使用三角几何感知的交叉注意力机制来联合处理配体和口袋几何信息的专精模型。BioMatrix实现这个结果的方式相当简洁：把配体的SELFIES对齐结构代码和蛋白质的逐残基结构代码直接拼接在同一个词序列里，让统一的语言模型进行推理，没有任何专门的口袋编码模块、几何交叉注意力或融合网络。这个结果直接证明了一件事：把两种异质生物分子放进同一个离散词空间，让下游推理在统一的词序列上进行，确实足以支撑跨实体的结构感知预测，不一定非要设计针对特定任务的专门架构。

在蛋白质-蛋白质相互作用任务上，BioMatrix在二分类（预测两种蛋白质是否相互作用）和回归（预测相互作用的亲和力）任务上都达到了与专精蛋白质编码器持平的水准。

十一、几个贯穿全文的规律性发现

通过80个任务的系统测试，研究团队归纳出了几个值得关注的规律。

关于参数规模扩展的效益：在分子序列任务上，从1.7B扩展到4B带来平均7.2%的相对提升，且在文本引导的分子生成、名称转换、定制化生成等知识密集型任务上收益最为显著；在蛋白质序列任务上，4B对1.7B的优势平均约1.9%，主要体现在知识挖掘这类需要大量记忆生物数据库知识的任务上；而在蛋白质三维结构任务上，两个规模之间的差异微乎其微（平均仅0.2%），说明这类任务在当前规模下已接近饱和，主要瓶颈不在模型容量而在其他地方。少数任务在4B上的性能反而略低于1.7B，主要集中在小数据集上的回归任务，研究团队认为这属于小数据场景下优化噪声，并非真实的性能退化。

关于单一模态任务与跨模态任务的差异：在只涉及单一实体、单一模态的任务上，BioMatrix通常和专精模型旗鼓相当，并不展现出显著优势；而在需要跨越模态（如文字→结构、结构→文字）或跨越实体（如分子-蛋白质联合预测）的任务上，BioMatrix相对于专精模型的优势才明显扩大。这个模式说明统一词空间的价值不主要体现在单任务性能的微小提升上，而是体现在让以前需要多个独立系统协作的跨模态任务变成单个模型可以直接处理的问题。

关于分词的几何精度瓶颈：在所有需要精细原子级别几何精度的任务上，BioMatrix与专精方法的差距都主要集中在从结构代码重建三维坐标的步骤上，而非在建模或预测步骤上。这指明了一个清晰的改进方向：更好的结构分词器（更大的码本、分层编码、非自回归坐标重建等）将直接转化为这类任务上的性能提升，而无需改动语言模型本身。

十二、不足之处：研究团队的坦诚自我评估

BioMatrix的研究团队没有回避这个系统的局限性。

分子和蛋白质的三维结构目前存在于两个独立的码本空间中，两者没有共享的几何参考框架，这意味着BioMatrix目前无法原生表示或生成分子-蛋白质复合体的三维结构，也就无法直接支持基于结构的分子对接或口袋条件的配体设计这类任务。这是下一步最重要的技术改进方向。

预训练语料库和微调/评估数据之间没有进行专门的实体级别去重，这意味着评估中用到的一些分子和蛋白质，可能在预训练阶段就已经被模型见过了。研究团队认为这是大规模生物学基础模型的普遍现实——各大数据库和基准测试之间的实体大量重叠，完全做到"零数据泄漏"既不现实也未必必要，但他们提醒读者注意这一点并据此评估结果。

持续预训练在大量专业数据上进行，尽管引入了FineWeb-Edu和MegaScience来减轻遗忘，模型在通用语言理解和推理能力上仍可能有所退化，研究团队坦承没有系统评估这部分。

最后，BioMatrix目前不涵盖核酸（DNA、RNA）、多糖、脂质等其他生物学重要实体，扩展到这些实体类型在概念上与现有框架是兼容的，是自然的未来延伸方向。

说到底，BioMatrix做了一件以前没人完整做成的事：把五种截然不同的生物信息类型统一放进同一个词表，用同一套语言模型来处理，而且在80个测试任务中的77个上达到了最好或第二好的水平。这不仅仅是一个技术指标的突破，它更代表了一种思路的验证：生物信息的多样性不必然需要多个独立AI系统的"联合国"来处理，一个足够统一的词表加上足够丰富的训练数据，可以让单个模型成为真正意义上的"生物语言全科医生"。

归根结底，这项研究最令人印象深刻的地方，不是它在任何单一测试上的极致表现，而是它在如此广泛的任务谱上保持了如此一致的竞争力，同时还揭示了两个深刻的规律：跨模态任务恰恰是统一设计价值最大的地方，而几何精度的瓶颈也恰恰不在语言模型本身，而在结构分词这个下游改进的明确靶点上。这两个规律将直接指导这个领域未来几年的技术路线。

感兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2606.22138查阅完整原文，代码和模型权重也已在GitHub（QizhiPei/biomatrix）和HuggingFace（QizhiPei/biomatrix）上开源。

---

Q&A

Q1：BioMatrix模型支持哪些类型的生物信息输入和输出？

A：BioMatrix支持五种类型的生物信息：分子的一维序列表示（包括SMILES和SELFIES两种格式）、分子的三维空间结构、蛋白质的一维氨基酸序列、蛋白质的三维骨架结构，以及自然语言文字描述。这五种信息类型都被统一转换成同一套离散代码词表，由一个语言模型处理，输入和输出都可以是其中任意一种或多种类型的组合。

Q2：BioMatrix的三维分子结构生成和NExT-Mol这类扩散模型相比优势和劣势分别是什么？

A：在二维分子质量指标（有效性、多样性、分布相似性）上，BioMatrix与NExT-Mol基本持平；在量子化学性质条件控制的三维生成上，BioMatrix误差远小于NExT-Mol，约减少3到4倍。但在原始输出的键长几何精度上，BioMatrix的自回归重建方式会引入量化误差，原子级精度弱于扩散模型。不过，在生成结果上加一步轻量MMFF力场优化后，大部分几何误差可以被修复。

Q3：SMILES和SELFIES在BioMatrix中各自适合什么任务？

A：两种分子表示格式在BioMatrix中各有优势。SELFIES由于语法上保证生成的字符串必然对应合法分子，在需要生成合法分子的任务（如无条件生成、性质优化）上有效率更高，且在保持化学合法性的同时更好地满足性质条件；SMILES由于每个原子、键、官能团都有固定的表面形式，在需要精确锚定结构约束的任务（如原子数量控制、键数量控制、官能团指定、合成路径预测）上表现更好。研究建议两者并用，根据任务类型选择合适的表示格式。