hi运动
32.38MB · 2025-11-09
几十年来,生物学中最深奥的谜题之一,便是氨基酸链如何自发折叠成复杂而精密的生命结构。尽管研究人员精心构建了各种模拟与统计模型,致力于揭示其中的规律,却始终未能实现对折叠结果的大规模准确预测。
随后,深度学习彻底改变了这一局面。通过直接从序列数据中学习进化的语言规律,人工智能开始揭示分子结构中隐藏的规则,使结构预测从一门艺术转变为一门工程学科。
如今,这一转变迎来了一个新的里程碑。由 OpenFold 联盟 开发、NVIDIA 加速支持的 OpenFold3,将生产级蛋白质人工智能引入 NVIDIA 生态系统,实现了开放科学与企业级性能的深度融合。OpenFold3 将结构预测的能力从单一蛋白质拓展至多链复合物、核酸以及小分子配体,全面覆盖生物相互作用的各类关键组分。
借助 NVIDIA cuEquivariance 实现对称感知的 GPU 加速,结合支持 MMseqs2-GPU 实现快速序列搜索,并利用 NVIDIA FLARE 支持联合训练,OpenFold3 可为全球生物制药与生物技术团队提供卓越的速度、可扩展性以及具备隐私保护的协作能力。
OpenFold3 现已发布,并可通过 NVIDIA NIM 获得额外加速。本文将介绍如何在结构预测任务中使用 OpenFold3 NIM。
借助 OpenFold3 NIM,结构预测可轻松实现从原型到生产的快速过渡,具体步骤如下。
您可以通过 build.nvidia.com 获取 OpenFold3 NIM,支持在本地、集群或作为托管 NIM 服务部署容器。
docker pull nvcr.io/nim/openfold/openfold3:latestexport LOCAL_NIM_CACHE=~/.cache/nimexport NGC_API_KEY=docker run --rm --name openfold3 --runtime=nvidia --gpus 'device=0' -p 8000:8000 -e NGC_API_KEY -v $LOCAL_NIM_CACHE:/opt/nim/.cache --shm-size=16g nvcr.io/nim/openfold/openfold3:latest
部署完成后,您可以通过标准的 REST 调用或 Python 客户端与 API 进行交互。
#!/usr/bin/env python3import requestsimport osimport jsonfrom pathlib import Path# Define output file and inference endpointoutput_file = "output.json"url = "http://localhost:8000/biology/openfold/openfold3/predict"# Define protein sequenceprotein_sequence = "MGREEPLNHVEAERQRREKLNQRFYALRAVVPNVSKMDKASLLGDAIAYINELKSKVVKTESEKLQIKNQLEEVKLELAGRLEHHHHHH"# Define MSA alignment in CSV formatmsa_alignment_csv = "key,sequencen-1,MGREEPLNHVEAERQRREKLNQRFYALRAVVPNVSKMDKASLLGDAIAYINELKSKVVKTESEKLQIKNQLEEVKLELAGRLEHHHHHH"# Define DNA sequences (complementary pair)dna_sequence_b = "AGGAACACGTGACCC"dna_sequence_c = "TGGGTCACGTGTTCC"# Build request datadata = { "request_id": "5GNJ", "inputs": [ { "input_id": "5GNJ", "molecules": [ { "type": "protein", "id": "A", "sequence": protein_sequence, "msa": { "main_db": { "csv": { "alignment": msa_alignment_csv, "format": "csv", } } } }, { "type": "dna", "id": "B", "sequence": dna_sequence_b }, { "type": "dna", "id": "C", "sequence": dna_sequence_c } ], "output_format": "pdb" } ]}r = requests.post(url=url, json=data)# Save the json outputprint(r, "Saving to output.json:n", r.text[:200], "...")Path(output_file).write_text(r.text)预测包含3D坐标(PDB/mmCIF格式)以及置信度指标(如pLDDT、pTM和ipTM),所有预测均可在配备NVIDIA H100 Tensor Core GPU的设备上于数秒内完成。
OpenFold 联盟 是由 Bayer、Bristol Myers Squibb、Johnson& Johnson、Novo Nordisk、Outpace Bio 等公司组成的行业领导联盟,在推进开放、可复制的建模系统方面发挥了重要作用。
OpenFold3 是该联盟至今最重要的里程碑之一。该模型将结构预测能力拓展至多聚体、蛋白质-DNA/RNA复合物以及配体复合物,其预测精度达到甚至超越了当前领先的开源模型。
值得注意的是,OpenFold3 在蛋白质-核酸相互作用的基准测试中表现优异,性能已达到与 AlphaFold3 相当的水平,而此前的模型在这一领域普遍表现不足。此外,该系统被纳入 Linux 基金会开放模型定义中的 1 类开源项目,确保了其完全的透明度和可复现性。
OpenFold3 已针对 NVIDIA 加速 AI 计算堆栈进行了优化,涵盖以下方面:
这些集成使 OpenFold3 NIM 既便于开发者使用,也适合企业部署,可作为适用于本地、混合及云环境的即插即用服务。借助 NVIDIA TensorRT,大型多聚体和核酸复合物的推理速度可提升 1.8 倍。
OpenFold3 已通过 Apheris 与 SandboxAQ 在安全联合工作流中的验证,展现出其在国际制药研发环境中良好的可扩展性。借助该联合工作流,合作伙伴无需跨越机构边界传输数据,即可基于专有数据(如抗体-抗原复合物或RNA-配体组合)进行模型微调。
根据 Linux 基金会的开放模型定义,OpenFold3 属于第一类开放系统,使软件及联盟能够受益于快速发展的贡献者群体和基准生态系统,从而保障持续优化与长期可靠性。
通过集成 NVIDIA FLARE,各机构可在多个站点(如制药合作伙伴、研究联盟和医院)协同训练 OpenFold3,同时无需共享敏感数据。
该方法在支持监管合规性(如 GDPR 和 HIPAA)的同时,还能整合原本孤立的不同数据集,从而提升模型的性能。
OpenFold3 不仅是一个模型,更奠定了未来十年蛋白质人工智能发展的基石。它凝聚了 OpenFold 联盟、开源科学、加速计算与联邦协作的成果,汇集全球 40 多家机构的智慧,确保这一工具既服务于全球科研人员,又满足企业级的可靠性与安全标准。
衷心感谢 OpenFold 联盟以及 SandboxAQ、Apheris 等合作伙伴在推动面向分子科学的开放加速 AI 方面所开展的协作。