首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >字节跳动全新开源结构模型Protenix-v1重磅发布

字节跳动全新开源结构模型Protenix-v1重磅发布

作者头像
DrugOne
发布2026-03-02 17:00:44
发布2026-03-02 17:00:44
2610
举报
文章被收录于专栏:DrugOneDrugOne

在生物计算的赛道上,AlphaFold3(AF3)无疑是一座里程碑。它的代码和权重虽然已开源,但其“非商用”的约束,依然让无数生物科技公司和产业界研发者望之兴叹。在很长一段时间里,完全开源(Fully Open-Source) 的模型在性能上始终无法与AF3正面对抗,这道“性能鸿沟”成为了开源社区的一块心病。

就在最近,字节跳动Seed团队发布的Protenix-v1彻底终结了这一局面。作为首个在严格对齐训练数据和推理预算下,性能比肩甚至超越AF3的全开源模型,Protenix-v1 不仅打破了高性能模型的“许可壁垒”,更让药物研发等工业场景拥有了真正可用的SOTA级基础设施。

正面硬刚:严格对齐下超越Alphafold 3

为了公平对比,Protenix-v1严格将训练数据截止时间控制在2021年9月30日(与AF3一致),并在相同的模型规模和推理预算下进行了公平对决。

结果显示,Protenix-v1打破了长期以来开源模型与AF3之间的性能鸿沟。

在修正后的FoldBench基准测试中(团队修复了原始FoldBench中因各模型评估子集不一致导致的偏差),Protenix-v1展现了惊人的效果:

蛋白质-蛋白质相互作用(Protein-Protein):Protenix-v1的DockQ成功率显著高于AF3。

抗体-抗原复合物(Antibody-Antigen):在这一最具挑战性的药物发现场景中,Protenix-v1表现尤为出色,大幅领先AF3及其他开源竞品(如Boltz-1, Chai-1)。

多模态支持:除了蛋白质,Protenix-v1在涉及RNA、DNA、小分子的复合物预测中也保持了第一梯队的SOTA水准,并额外集成了AF3未完全开源的蛋白质模板整合和RNA MSA支持功能。

Inference-time Scaling:生物计算的“系统2”时刻

技术报告指出,Protenix-v1展现出了强劲的推理时扩展行为(Inference-time Scaling Behavior)。特别是在抗体-抗原复合物等困难目标上,随着采样样本数量(Sampling Budget)的增加,预测质量呈现出对数线性(Log-linear)的增长。

数据说话:在PXM-22to25-Antibody测试集上,通过将采样种子数从1个增加到80个,DockQ成功率从36%一路飙升至近48%。

置信度筛选:配合模型自带的Confidence Head,用户可以精准地从生成的数百个候选结构中挑选出最佳构象。

这意味着,Protenix-v1为用户提供了一个可控的“旋钮”:只要增加计算算力,就能换取更高的预测精度。 这种特性在之前的开源模型中是缺位的。

面向实战:双版本策略与新基准

为了兼顾“学术公平”与“工业应用”,Protenix采取了双版本发布策略:

Protenix-v1:严格对齐AF3数据(2021年截止),用于算法研究和公平对比。

Protenix-v1-20250630:面向真实世界的药物研发。该版本使用了截至2025年6月30日的最新数据进行训练。

在最新的PXM-2025H2(2025年下半年发布的PDB数据)测试中,2025版模型在抗体-抗原任务上进一步碾压了所有基线模型,展现了数据规模扩展带来的巨大红利。

此外,针对目前评测基准数据泄露、统计效力不足的痛点,团队还发布了PXMeter工具及PXM-2024/2025等按年份分层的全新测试集,为行业建立了一套更透明、更严谨的评估标准。

不仅仅是预测:Protenix家族的生态野心

结合团队同期发布的其他工作,我们可以清晰地看到其宏大的技术布局:

极致效率:Protenix-Mini & Mini+为了解决AF3架构推理慢、长序列显存爆炸的痛点,团队推出了轻量化版本:

  • Protenix-Mini:通过引入2步ODE采样器(替代传统的200步扩散),在精度仅损失1-5%的情况下,推理速度提升数倍。
  • Protenix-Mini+:引入线性注意力机制(Linear Attention)和分块更新策略,打破了Transformer的O(N^3)复杂度魔咒,进一步大幅提升了推理速度。

从预测到设计:团队基于Protenix架构推出了PXDesign,这是一个集成了扩散生成(Diffusion)和幻觉优化(Hallucination)的蛋白质从头设计平台。

实测数据:在IL-7RA、PD-L1等6个靶点的湿实验中,PXDesign实现了17%-82%的纳摩尔级KD成功率,这一数据在多个靶点上比DeepMind发布的AlphaProteo高出2-6倍。

结语

从Protenix-v1的全面SOTA,到Mini系列的极致效率,再到PXDesign的实验验证,Protenix团队不仅打破了已有模型的技术垄断,更通过全栈开源(代码、权重、数据处理流程),为全球生物计算社区提供了一套目前最先进、最完整的基础设施。

在AI for Science的浪潮下,Protenix系列的出现证明了:开放与协作,才是推动科学边界扩展的最优解。

参考资料

🔗 开源代码:https://github.com/bytedance/Protenix

🔗 评估工具:https://github.com/bytedance/PXMeter

🔗 在线服务:https://protenix-server.com

🔗 Report:

https://github.com/bytedance/Protenix/blob/main/docs/PTX_V1_Technical_Report_202602042356.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档