哔哩哔哩直播
159.7MB · 2025-10-18
预测蛋白质在细胞内的定位对于生物学研究和药物开发具有重要意义,这一过程被称为亚细胞定位。蛋白质的功能与其所处位置密切相关,明确其存在于细胞核、细胞质还是细胞膜,有助于深入理解细胞活动机制,并为潜在治疗靶点的发现提供新线索。
本文介绍了研究人员如何利用 NVIDIA FLARE 和 NVIDIA BioNeMo 框架,在无需跨机构传输敏感数据的前提下,协作训练人工智能模型,以预测蛋白质的亚细胞定位等特性。
新的 NVIDIA FLARE 教程演示了 如何对 ESM-2nv 模型进行微调,以实现基于亚细胞定位的蛋白质分类。该 ESM-2nv 模型利用论文 《Light Attention Predicts Protein Location from the Language of Life》 中提出的数据集,从蛋白质序列嵌入中学习特征表示。
我们专注于亚细胞定位预测,采用符合生物训练器标准的 FASTA 文件格式,包含蛋白质序列、训练/验证集划分以及10个定位类别(如细胞核、细胞膜等)。
该 FASTA 格式的数据样本如下所示:
>Sequence1 TARGET=Cell_membrane SET=train VALIDATION=False MMKTLSSGNCTLNVPAKNSYRMVVLGASRVGKSSIVSRFLNGRFEDQYTPTIEDFHRKVYNIHGDMYQLDILDTSGNHPFPAMRRLSILTGDVFILVFSLDSRESFDEVKRLQKQILEVKSCLKNKTKEAAELPMVICGNKNDHSELCRQVPAMEAELLVSGDENCAYFEVSAKKNTNVNEMFYVLFSMAKLPHEMSPALHHKISVQYGDAFHPRPFCMRRTKVAGAYGMVSPFARRPSVNSDLKYIKAKVLREGQARERDKCSIQ
其中:
该数据集包含10个位置类别,构成了一个极具现实意义的分类挑战。
运行此示例十分简便。通过 BioNeMo Framework v2.5 在 Docker 中,您可以直接启动 Jupyter Lab 环境,并在浏览器中运行 Federated Protein Property Prediction with BioNeMo tutorial notebook。
除 BioNeMo 框架外,还引入了 NVIDIA FLARE 实现联邦学习。各参与方在本地独立训练模型,仅上传模型更新,而非集中各站点的数据。通过 FedAvg 算法,这些更新被聚合为一个共享的全局模型,在保护数据隐私的同时实现协同训练。
在本次演示中,团队对BioNeMo中预训练的6.5亿参数ESM-2nv模型进行了微调。该规模的模型在预测准确性与计算效率之间实现了良好的平衡,非常适用于联合训练场景。
工作流程中的关键步骤包括:
该团队在异构数据条件下(alpha = 1.0),将各站点的本地训练与联邦训练(FedAvg)进行了对比。
客户端 | 示例本地精度 | FedAvg 准确率 | |
站点 1 | 1844 | 78.2 | 81.8 |
站点 2 | 2921 | 78.9 | 81.3 |
站点 3 | 2151 | 79.2 | 82.1 |
平均值 | — | 78.8 | 81.7 |
这些结果凸显了联合学习通过整合多机构的知识,能够构建出比各机构单独训练更为强大的模型。
使用 BioNeMo 和 FLARE 的优势不仅在于预测蛋白质在细胞内的定位,更在于推动科学社区共同构建适用于科研的 AI 模型。通过 BioNeMo 和 FLARE,研究人员能够协作开发、共享成果,加速生命科学领域的创新与发现。
将生命语言(蛋白质序列)与联合AI工作流相结合,利用NVIDIA BioNeMo和NVIDIA FLARE进行联合蛋白质属性预测,正成为一种强大的新范式。这一方法不仅有助于加速药物研发、医疗健康和生物技术领域的科学发现,同时也能有效保护数据隐私。
生命科学与人工智能的未来并非孤立发展,而是通过协作得以实现。借助 FLARE 和 BioNeMo,这一未来已然到来。欢迎访问 NVIDIA/NVFlare GitHub 仓库,体验基于 Federated Protein Property Prediction with BioNeMo 并探索 更多高级示例。