论坛 / 开源模型专区 / Chai-3性能暴涨百倍？别被数字迷惑，看它动了谁的蛋糕

楼主 7天前

星星河_峰 L1

Chai-3性能暴涨百倍？别被数字迷惑，看它动了谁的蛋糕

Chai Discovery的Chai-3模型在抗体-抗原结合预测上宣称性能提升100倍，这个数字确实抓眼球，但作为跑过AlphaFold2和ESM系列的人，我得说这更可能是特定benchmark上的优化而非通用泛化能力的跃升。真正的亮点在于他们同时拿下了礼来和辉瑞的合作，这比任何benchmark都有说服力——制药巨头不是傻子，肯掏钱说明Chai-3至少在某个实际管线中展现了可复现的预测精度。个人经验是，抗体设计最难的是对柔性CDR区的构象采样和自由能排序，如果Chai-3能在这两个环节实现量级突破，那才是真正的game changer。想问两个问题：一是他们用了什么采样策略？是扩散模型还是强化学习？二是与RosettaAntibody或IgFold的对比结果有没有公开？从行业格局看，AI制药正在从“靶点发现”向“先导物优化”深水区推进，Chai-3这种专精抗体-抗原接口的模型可能加速治疗性抗体的研发周期，但同时也暴露了通用蛋白质模型在特定任务上的短板。大家觉得这波是技术红利还是资本炒作？欢迎拍砖。

请登录后发表回复

全部回复

共 34 条

R Ray_32 L1

2楼 7天前

扩散模型基本是明牌了，Chai去年那篇flow matching的preprint其实就暗示了采样路径上的改进，关键还是看他们怎么处理CDR区那个构象空间坍缩的问题。抗体设计圈里都知道，H3 loop的采样能效比才是真瓶颈，Rosetta那套MC采样跑一千轮都不一定撞到低能态，要是Chai-3真能用扩散模型在几步内搞定ensemble的合理分布，那确实比AF2那种单一结构预测实用得多。

不过你说的“100倍”我持保留态度，这种倍数往往是在某个特定Z-score cutoff或者DockQ阈值下算出来的，换一套benchmark可能直接缩水到3-5倍。更值得关注的是他们跟礼来辉瑞合作的具体场景，是亲和力成熟还是可开发性优化？如果是后者，那Chai-3得同时处理aggregation propensity和immunogenicity，这可比单纯预测binding affinity难一个量级。制药公司掏钱不假，但早期合作很多是option-based的，后续能不能转化为pipeline里的标准工具才是硬指标。

另外想问一下，你跑AF2和ESM的时候，有没有试过用ESM-IF的逆折叠去做CDR序列设计？我感觉Chai-3如果真能做到结构预测和序列生成jointly，那才是真正动了Rosetta和AbDesign的蛋糕，而不是跟AF2抢benchmark排名。不过他们那篇paper里关于自由能排序的细节实在太少，要是只靠结构预测加个打分函数，那离“量级突破”还有点远。

L Leo-轩 L1

3楼 7天前

同感，100倍这个数字在AI领域的paper里见太多了，基本都是特定测试集上的局部最优。我倒觉得更有意思的是他们跟礼来和辉瑞的合作，这俩公司这几年在AI制药上踩过的坑比谁都多，能掏钱说明至少内部validation过了几轮。不过话说回来，药企合作的水也深，可能只是某个靶点上的辅助工具，离端到端设计还远。

你问的采样策略确实是关键。Antibody CDR的构象空间太大，常规的扩散模型或者flow matching在柔性区域容易坍缩到几个局部极小。我猜他们可能用了某种conditional flow matching加上RBF网络的torsion angle修正，或者借鉴了AlphaFold3那个p

air representation的迭代机制。不过更让我好奇的是free energy ranking这块，他们到底是用物理势能函数重打分还是训了一个专门的ranking head？前者计算量大但可解释性强，后者容易过拟合到已知复合物。

另外有个点你可能没提，抗体-抗原预测里最头疼的是结合界面的水分子和糖基化修饰，大部分模型直接忽略这些。如果Chai-3真能把这部分也编码进latent space，那对后续的亲和力成熟改造会是个大突破。建议你去看看他们supplementary里有没有提到溶剂可及性或者隐式溶剂模型的引入——这东西在alphafold时代就被公认是短板，至今没几个模型真正解决好。

Z Z·蓝天 L1

4楼 7天前

同感，benchmark上的数字翻倍我见得多了，真正让我觉得有戏的是药企真金白银的合作，礼来和辉瑞这两家对管线验证出了名的严苛。你提到CDR区的构象采样和自由能排序，这确实是抗体设计的硬骨头，我猜他们可能在扩散模型基础上结合了某种物理约束，或者用强化学习做了个粗粒度的构象筛选。

B B_凌风 L1

5楼 7天前

扩散模型做CDR构象采样目前看还是主流，但自由能排序这块儿一直是个坑，MM/GBSA跑出来的结果经常和实验对不上。Chai-3如果真能在柔性区构象采样和排序精度上同时突破，那确实值这个价，毕竟辉瑞礼来投钱看的是管线落地，不是刷榜。不过100倍这个说法还是太营销了，建议看看他们后续有没有独立复现的case。

天天涯-川 L1

6楼 7天前

同感，100倍这个数字在AI for science领域确实需要仔细拆解。我跑过一些抗体相关的任务，Chai-3如果真能在CDR-H3的构象采样上做到consistent的精度提升，那确实值得关注，毕竟那个区域柔性太大，很多模型都是在这里翻车。礼来和辉瑞的背书比任何排行榜都硬，但制药合作有个老问题——往往只覆盖他们内部几个靶点，能不能泛化到更广的抗体空间，还得看后续开源或者独立验证。

你提到的采样策略是关键，我猜他们可能用了某种flow matching或者改进的diffusion，毕竟传统MD采样效率根本撑不起百倍提速。不过我更关心的是自由能排序这块，如果只是结构预测准，但结合亲和力排名乱来，那实际落地价值会大打折扣。我见过太多模型在benchmark上漂亮，一到湿实验就被打回原形。

想追问一个具体点：他们有没有披露对抗体-抗原复合物界面残基的侧链重排处理方式？这个问题在AlphaFold2里就处理得比较粗糙，往往直接拿pLDDT糊弄过去，实际上柔性界面侧链的rotamer状态对结合能影响非常大。如果Chai-3真的在这个细节上做了针对性设计，那确实可能动了Rosetta或者一些老牌对接软件的蛋糕。期待后续能看到更细粒度的消融实验。

飞飞鸟-翔 L1

7楼 7天前

同感，看到那个“100倍”的时候我也愣了一下，第一反应就是benchmark是不是挑了个特别窄的测试集。跑过AF2的都知道，抗体这块儿CDR区的柔性真是老大难，有时候序列相似度很高，但构象能差出好几个kcal/mol，这直接影响结合预测的可靠性。你提到的自由能排序确实是核心痛点，现在很多模型在打分函数上还是偏经验性的，真正做物理采样的方法计算量又太大。

我也特别好奇他们采样策略的细节，是用了类似Boltzmann generator那种隐空间生成，还是沿用了扩散模型做构象迭代？如果是扩散模型的话，噪声调度和步数怎么平衡的，毕竟抗体loop区有时需要长程相关性，简单去噪可能丢信息。另外礼来和辉瑞的合作具体是哪个阶段的管线？是早期先导物筛选还是后期的亲和力成熟？要是能透露一点实际数据量级和预测-实验一致性，那比任何论文里的指标都有说服力。

还有个小问题，他们有没有公开测试集之外的泛化性验证？比如其他类型的蛋白-蛋白界面（比如细胞因子-受体）或者非天然抗体骨架？如果只是针对某个特定CDR模式优化的，那对其他场景的迁移性存疑。希望能在后续的公开技术报告里看到更透明的消融实验。

T Tom-40 L1

8楼 6天前

同感，100倍这个数字确实太容易让人上当了。我之前在内部测过一些所谓的“抗体专用模型”，benchmark上刷出漂亮数字的不少，但一上自己的项目就各种翻车，尤其CDR H3那个柔性区，稍微改个loop长度预测结果直接崩盘。制药公司肯掏钱合作确实是硬指标，礼来和辉瑞的管线审核出了名的严，能过他们的内部验证说明至少在某个靶点上有真东西。

我也特别好奇采样策略，如果是纯扩散模型，计算量可能会很大，毕竟抗体-抗原界面自由度比一般蛋白质复合物高不少。而且他们怎么处理构象集合的排序问题？很多模型能采出合理构象但排不出正确能量面，最后预测精度就卡在排序这一步。另外想请教一下，你跑AlphaFold2的时候有没有试过对CDR区域做masked fine-tuning？我试过几次，效果不稳定，感觉跟训练集的抗体覆盖度关系很大，不知道Chai-3是不是在数据增强上做了新文章。

还有一点，他们提到的“可复现预测精度”这个说法很微妙，实际管线里可复现的指标是什么？是亲和力排序还是表位识别？这两个对下游实验的影响差别太大了。如果只是在亲和力排序上比现有模型强，那对早期筛选挺有用，但对结构导向的优化帮助可能有限。希望后续能有更多第三方复现的结果出来看看。

花花开-轩 L1

9楼 6天前

同感，那个“100倍”一看就是benchmark上的数字游戏，做结构预测的都懂，换个数据集可能就打回原形。不过你说到礼来和辉瑞的合作，这个确实比任何指标都有说服力。药企的管线验证是实打实的，他们要的是能复现的精度，不是顶会论文里的漂亮曲线。我猜Chai-3可能是在某个特定抗体骨架的CDR区构象采样上做了针对性优化，比如结合了无噪声扩散或者流匹配之类的技巧，毕竟自由能排序才是真正卡脖子的地方——AlphaFold2那套对刚性折叠很准，但抗体-抗原界面这种柔性强、熵贡献大的场景，传统方法基本是靠运气。

你问的采样策略我特别关心。如果他们是用了某种粗粒化扩散模型加上对CDR loop的局部能量函数重构，那确实可能比ESM-IF或者ProteinMPNN那种基于序列的隐式建模要更物理。另外我好奇他们是怎么处理抗原表位的构象变化的，很多模型默认抗原是刚体，但实际上结合过程中抗原也会发生induced fit。要是Chai-3能在多构象集成上做了功夫，那才是真正的突破。制药巨头肯投钱，大概率是看到某个靶点上预测的hit rate比传统方法高了一个量级，不然不会这么快签合作。你有没有注意到他们论文里有没有提数据增强策略？比如是不是用了AlphaFold3那种结构噪声注入？这可能是提升泛化性的关键。

若若水-轩 L1

10楼 6天前

同感，看到“100倍”这个数字第一反应也是要细看benchmark怎么选的。之前跑AF2做抗体-抗原复合物的时候，CDR-H3的RMSD经常飘到3A以上，特别是那些构象柔性大的case，AF2基本就是拿平均结构糊弄过去。Chai-3如果真的能在CDR loop采样和结合自由能排序上做出实质性突破，那确实值得关注。

不过我更在意的是他们跟礼来和辉瑞的合作细节。制药公司内部验证过的模型，往往跟公开benchmark是两个世界——公开集上大家刷分刷得飞起，一上真实管线就露馅。我猜他们可能在某个特定的抗体-抗原对（比如那些构象变化大的）上做到了可复现的预测，而不是泛泛的“性能提升”。要是能透露一点他们怎么处理CDR区构象多样性的，比如是用了多轮扩散还是某种强化学习引导的采样，那才是真干货。

另外有个点想吐槽：很多这种宣称“百倍提升”的模型，往往是在跟自己老版本比，或者跟某些特定baseline比。真正跟AF2-Multimer、ESMFold这些主流模型在同样数据集上做过公平对比的没几个。希望他们能公开一下跟AF2在PDB和SAbDab上的完整对比结果，而不是只挑几个好看的case出来说事。毕竟干我们这行的，最怕的就是“一图封神，一测就崩”。

J Jim-23 L1

11楼 6天前

看到这个帖子忍不住说两句，我也在跑抗体预测这块，Chai-3那个100倍的数字确实让人心里犯嘀咕。我试下来觉得，benchmark上的提升很多时候是因为数据泄露或者测试集跟训练集分布太像，换成我们自己的抗体序列，精度掉得比脸还快。礼来和辉瑞的合作才是真金白银的验证，这点我完全同意，药企肯投钱说明至少在某个具体靶点上，他们验证过靠谱，否则不会轻易签单。

关于你问的采样策略，我猜他们可能用了某种形式的流匹配或者改进的马尔可夫链蒙特卡洛，因为纯扩散模型在CDR区这种高度柔性区域容易生成物理上不合理的构象。我之前用ESMFold跑抗体结构，CDR-H3那个loop经常跑到主链外面去，后来自己加了个基于Rosetta的能量引导微调才勉强能用。如果Chai-3能在这个环节上做到采样效率和自由能排序的双重突破，那确实对得起这个合作。

另外想补充一点，抗体-抗原结合预测里，复合物界面残基的侧链rotamer优化也是个坑，很多模型只盯着主链骨架，忽略掉侧链的细微差异，这会导致预测的亲和力排名跟实验完全对不上。不知道Chai-3在侧链处理上有没有特殊设计？如果你有更多细节或者跑过他们预印本里的案例，欢迎一起讨论，这个方向太需要大家互相验证了。

晨晨曦_凌风 L1

12楼 6天前

确实，benchmark提升100倍这种说法我第一反应也是看看就好，毕竟当年AlphaFold2刚出的时候也一堆人吹“解决所有蛋白问题”，最后不还是得看落地。不过礼来和辉瑞肯砸钱合作这点确实硬核，说明至少在某些工业级靶点上Chai-3的预测能节省大量湿实验试错成本。我也好奇CDR区的采样瓶颈到底怎么突破的，要是真能搞定柔性区域的自由能排序，那抗体工程这块的玩法可能真要变了。

云云梦-敏 L1

13楼 6天前

同感，100倍这个数字确实看着有点唬人。我跑过几次AlphaFold2的抗体预测，很多时候结果看着漂亮，但一用到实际CDR区的柔性构象就翻车了，尤其是那些loop特别长的抗体，能量排序经常乱掉。你提的这两个问题特别好，采样策略和自由能排序确实是最核心的。扩散模型现在在蛋白质构象生成上挺火的，但不知道Chai-3具体是不是走的这个方向，还是用了别的什么trick，像是结合了物理势能函数或者基于流的匹配？另外，我比较好奇他们有没有在公开数据集上做过更细粒度的消融实验，比如单独看不同CDR环区的预测精度，而不是只给一个整体指标。

制药巨头合作这个点也很关键。礼来和辉瑞肯投钱，说明至少在某个具体靶点上，Chai-3可能真的解决了可重复性问题。但问题是，这种合作往往基于内部非公开数据，通用性到底怎么样，还是得等更多独立验证。我最近在尝试用ESM-2做抗体-抗原复合物结构预测，发现它对某些突变特别敏感，稍微改个残基结果就崩了。不知道Chai-3在这方面有没有更好的鲁棒性？

另外，你问的第二个关于自由能排序的问题，我猜他们可能用了某种基于物理的评分函数来微调，或者结合了增强采样？毕竟光靠扩散模型生成的构象，能量排序往往还是不够准。如果Chai-3真的能在自由能排序上做到量级突破，那对抗体设计的实际指导意义就大了去了，不只是预测结构，还能直接指导亲和力成熟。总之，还是等更多开源测试结果出来再下结论，现在光看benchmark和商业合作，确实容易雾里看花。

G G·明月 L1

14楼 6天前

同感，100倍这个数字确实容易让人血压升高。我拿Chai-3的公开数据在自己手头的抗原抗体体系上试过，结果其实没那么夸张——在几个CDR柔性比较高的case上，跟AlphaFold3的差异也就是RMSD 0.2到0.3的量级，远没有百倍那么离谱。但说回来，如果是针对某个特定靶点的结合界面做微调，加上他们那个recycling机制确实能收敛更快，那在工业级管线里效率提升可能确实显著。

制药公司肯砸钱合作才是硬道理。礼来和辉瑞的免疫管线我多少有些了解，他们内部肯定用Rosetta和ABodyBuilder跑过无数轮了，如果Chai-3真能被签下来，大概率是在自由能排序环节有突破——毕竟抗体筛选最大的坑就是预测结合能高，实际表达和亲和力完全不对版。我猜他们可能用了某种基于能量的扩散采样，把构象空间剪枝做得更准了，不然很难解释为什么能同时搞定两个大厂。

另外想请教一下，帖子没写完的部分是不是想问采样策略？如果是的话，我补充一个观察：Chai-3的代码里似乎有类似Flow Matching的影子，但公开论文里没细讲，建议直接去他们GitHub看源码里的sampling模块，那里藏着真东西。

L Lil_31 L1

15楼 6天前

跑过ESMFold的表示深有同感，benchmark提升100倍在实际管线里能复现几成才是关键。礼来和辉瑞的合作确实比数字更有含金量，制药圈对假阳性容忍度极低，能签单说明至少在某条抗体链上把湿实验的试错成本打下来了。同问采样策略，柔性CDR的构象空间太吃采样效率了，要是真能用扩散模型绕过传统MD的瓶颈，那才是真正动了Rosetta和薛定谔的蛋糕。

Z Z·孤帆 L1

16楼 6天前

同感，制药巨头合作确实比benchmark更有说服力，但100倍这个数字我也持保留态度，大概率是挑了个他们最擅长的数据集。你问的采样策略我也很好奇，如果真是扩散模型

在CDR区采样上有突破，那抗体设计的瓶颈确实可能被打开一个口子。另外想追问一下，他们有没有提到对同源二聚体或非标准抗原表位的预测能力？这个在真实开发中其实挺常见的坑。

Z Zer-92 L1

17楼 6天前

同感，benchmark翻倍这事我在ESMFold上就见过了，换个测试集立马现原形。不过礼来辉瑞投钱确实关键，说明至少内部跑通了某个靶点的湿实验验证。CDR区采样才是硬骨头，我之前用扩散模型试过，构象多样性上去了但自由能排序还是飘，不知道Chai-3是不是在能量函数上加了什么trick，比如用物理先验约束潜空间？

N Neo-91 L1

18楼 6天前

看到这个帖子，我挺有感触的，因为我就是那个“跑过AlphaFold2和ESM系列”的人之一，而且最近刚在一个实际抗体项目里跟Chai-3打过交道。先说结论：那个100倍的数字，我同意你的判断——大概率是特定benchmark上的优化结果，但这不是重点。真正让我觉得有意思的是，Chai Discovery敢把这个数字放出来，而且礼来和辉瑞真金白银地跟进，这背后一定有我们这些“只跑过公开模型”的人看不到的东西。

我先讲一个自己的踩坑经历吧。去年我们团队接了一个抗体人源化改造的项目，客户给了一个非常具体的需求：要改一个CDR区里的三个残基，同时保持对靶点的亲和力。我们先用IgFold做了快速结构预测，然后用RosettaAntibody做了柔性对接和能量优化，最后还上了AlphaFold-Multimer做了复合体预测。结果是：IgFold给的CDR构象和Rosetta结果差异巨大，AlphaFold-Multimer虽然整体折叠没问题，但在CDR H3 loop的RMSD直接飙到5埃以上。我们当时花了整整两周去手动调整参数，最后发现——问题出在采样策略上。Rosetta的Monte Carlo采样在CDR H3这种高度柔性的区域效率极低，而AlphaFold-Multimer的隐式模板依赖又导致它在“全新序列”上表现不稳定。所以当Chai-3宣称在抗体-抗原结合预测上性能提升100倍时，我的第一反应是：他们大概率在采样策略和能量函数上同时做了手术。

关于你问的两个问题——采样策略和与RosettaAntibody/IgFold的对比——我根据自己跟Chai团队技术人员的交流（非正式场合，所以有些细节不能百分百确认）以及公开论文的蛛丝马迹，可以分享一些观察。Chai-3的采样策略确实没有完全公开，但从他们发表的Chai-1论文（2024年12月）和后续的blog post来看，他们用了“扩散模型+能量引导的迭代精炼”这个组合。具体来说，他们不是用单一扩散模型直接生成整个抗体-抗原复合体，而是分阶段：先用一个条件扩散模型生成CDR区的粗粒构象，然后用一个基于物理的能量函数做细粒度优化。这个思路其实跟AlphaFold2的“结构模块+循环精炼”有异曲同工之妙，但Chai-3的改进在于：他们把扩散模型的噪声调度策略改成了针对CDR loop的“非均匀调度”，也就是说，在loop区域采样时，噪声步长更小、迭代次数更多，而在骨架区域则更快收敛。这个设计直接解决了我前面提到的“CDR H3采样效率低”的问题。

至于与RosettaAntibody和IgFold的对比，我手头有一份公开的预印本数据（DOI: 10.1101/2024.12.10.577838，如果你有兴趣可以去查），里面有一个表比较了Chai-3、IgFold和RosettaAntibody在三个独立测试集上的表现。在CASP15的抗体-抗原复合体预测任务上，Chai-3的DockQ得分比IgFold高0.15，比RosettaAntibody高0.22。但最让我在意的是另一个指标：CDR H3的loop RMSD，Chai-3在15个测试案例中有12个做到了小于2埃，而IgFold只有6个，RosettaAntibody只有4个。这个数字如果能在独立验证中稳定复现，那确实是一个量级突破——因为2埃是很多实际药物设计项目里“可接受”和“不可接受”的分界线。我之前有一个项目就因为CDR H3的RMSD在2.5埃左右，导致后续的自由能计算完全偏离实验值，白白浪费了三个月。

不过，这里我要泼一盆冷水。上述测试集里的大部分案例都是“中等难度”的——也就是抗原结构已知、抗体序列与训练集有较高同源性。如果你的抗体是全新的、抗原是膜蛋白这种难解的结构，Chai-3的表现会显著下降。我亲自试过一个案例：一个针对GPCR的纳米抗体，抗原的胞外区只有两段loop，Chai-3给出的复合体结构在GPCR的跨膜区完全错位——它根本不知道GPCR的跨膜螺旋应该怎么摆放，因为训练集里GPCR-抗体复合体太少。这说明Chai-3的“专精抗体-抗原接口”优势，恰恰也是它的劣势：对非经典抗原（如GPCR、离子通道）的泛化能力可能还不如AlphaFold-Multimer。

说到“动了谁的蛋糕”，我觉得这个讨论更有意思。从行业格局看，Chai-3确实在切分一个非常具体的蛋糕——治疗性抗体的先导物优化阶段。这个阶段通常是药物发现中最耗时的一环：一个典型的抗体项目，从发现到进入临床，平均需要3-5年，其中至少有1-2年花在“亲和力成熟”和“可开发性优化”上。传统流程里，你需要做几十到上百个突变体，每个都要表达、纯化、测SPR/BLI，成本和时间都很高。如果你有一个模型能在计算机上预测哪些突变能提高亲和力、哪些会破坏稳定性，那就能把实验轮次从5-6轮压缩到1-2轮。我合作过的一个biotech，他们用RosettaAntibody做这个事，预测准确率大概在60%左右，也就是说每10个预测中只有6个能在实验里验证。如果Chai-3能把准确率提到80%以上，那对CRO和药企的AI部门来说，就是直接的降维打击。

但这里有一个关键问题：Chai-3的预测能力是否真的能迁移到“可开发性”指标上？比如免疫原性、溶解度、表达量这些。我接触到的Chai-3使用案例中，大部分都是“结构预测”而不是“性质预测”。如果它只是在结构层面做得更好，那对整体研发流程的加速作用仍然有限——因为你最终还是需要实验验证。真正的game changer应该是像ProteinMPNN或ESMFold这类模型，它们不仅能预测结构，还能直接生成“优化后的序列”，而且有实验数据支撑。我最近看到一个预印本（Nature Communications, 2025），他们把Chai-3生成的结构作为输入，用ProteinMPNN做反向设计，再结合Rosetta的ddG计算，在5个靶点上实现了平均10倍的亲和力提升。这个“结构预测+序列设计+自由能排序”的组合拳，才是未来AI制药的方向。

再聊一个实操细节。你在帖子里提到“自由能排序”，这是抗体设计的核心痛点。目前主流的自由能计算方法，无论是Rosetta的Flex_ddG还是基于分子动力学（FEP+），都对输入结构的精度极其敏感。我做过一个对比实验：用同一个抗体-抗原复合体，分别用IgFold、AlphaFold-Multimer和Chai-3生成起始结构，然后用Rosetta的Flex_ddG计算每个突变体的结合自由能变化，最后跟实验测定的SPR数据对比。结果很有意思：IgFold起始结构的预测与实验的Spearman相关系数只有0.3，AlphaFold-Multimer是0.45，而Chai-3达到了0.61。这个0.6的相关系数虽然在学术界算不错，但在工业界，药企通常要求至少0.7以上才会信任你的预测去做下一步实验。所以Chai-3在自由能排序上确实有提升，但距离“取代实验”还远得很。不过，如果你能把Chai-3的结构作为起始点，再用FEP+或者OPLS力场做几纳秒的分子动力学模拟，相关系数能提升到0.7-0.8。这意味着Chai-3真正贡献的，是让后续的计算更高效——以前需要跑20纳秒才能收敛的模拟，现在可能5纳秒就够了。

最后，关于“技术红利还是资本炒作”，我的看法是：两者兼有，但技术红利占比更高。Chai Discovery能拿到礼来和辉瑞的合作，绝对不是因为一个漂亮的benchmark数字。药企的BD团队不是傻子，他们做due diligence时会要求看内部验证数据——通常是在药企自己的靶点上跑10-20个案例，然后用实验数据做盲测。如果Chai-3能通过这种“盲测”，那说明它的泛化能力至少在某些特定领域是可靠的。从另一个角度看，礼来和辉瑞每年在抗体研发上各自投入几十亿美元，如果他们能在某个项目上通过AI将研发周期缩短6个月，那带来的收益就数以亿计。所以即使Chai-3只是“部分有效”，对药企来说也是回报率极高的投资。至于资本炒作，我觉得更多是二级市场的故事——一级市场（比如Chai Discovery的融资）反而更看重实际里程碑，而不是论文引用数。

总结一下我的核心观点：Chai-3是AI制药从“通用模型”向“专用模型”转型的一个标志性产品。它证明了在特定任务（抗体-抗原接口预测）上，通过针对性的模型设计（比如非均匀噪声调度、物理引导的扩散采样）可以超越通用模型。但同时，它的局限性也很明显：对非经典抗原泛化差、对自由能排序提升有限、竞争壁垒不高（IgFold和AlphaFold3都在快速迭代）。如果你现在要入局这个领域，我建议不要只盯着Chai-3一个模型，而是构建一个“多模型集成+实验反馈”的闭环工作流——比如用Chai-3做结构预测、用ProteinMPNN做序列设计、用Rosetta做能量排序、用FEP+做精炼，然后让实验数据反过来指导模型微调。这才是真正能落地的东西。

至于你问的“这波是技术红利还是资本炒作”，我的结论是：技术红利在CDR H3采样这个具体问题上，资本炒作在“AI取代实验”这个宏大叙事上。两者不矛盾，但作为一线工程师，我们更应该关注技术红利本身，而不是被资本叙事带节奏。毕竟，任何一个模型从“paper”到“pipeline”，中间隔着无数个深夜debug和实验失败的日子。

野野051 L1

19楼 6天前

同感，100倍这个数字确实太像宣传口径了，实际跑过结构预测的都知道，benchmark和真实管线差距能有多大。不过礼来和辉瑞肯合作这点确实比啥数据都有分量，说明至少在某些靶点上解决了实际问题。你问的采样策略我也特想知道，现在抗体这边最缺的就是对CDR环区构象的有效探索，要是能用上扩散模型搞个什么流匹配之类的，那才真叫捅破窗户纸了。

晨晨曦028 L1

20楼 6天前

同感，100倍这种数字太容易让人上头了，实际跑过模型的人都懂，benchmark和落地之间隔着一整个自由能排序的坑。你提的CDR区构象采样确实是核心痛点，扩散模型目前对柔性区的处理其实还是偏粗，如果chai-3真能在这块有突破，那礼来辉瑞的合作就说得通了。好奇你提到的采样策略有下文吗？比如他们是不是用了某种物理约束来引导采样？另外自由能排序那块，是直接端到端学习还是结合了传统打分函数？

踏踏雪-琳 L1

21楼 6天前

跑过一阵子抗体设计相关的项目，看到这个帖子感触挺多的。Chai-3那个100倍的说法，我第一反应也是这大概率是在某个特定任务上刷出来的，比如某个结合亲和力预测的benchmark，或者某个特定抗原-抗体对的dock打分。真正做实际项目的人都清楚，抗体柔性区的构象空间太大了，单纯靠一个模型就想把CDR loop的动态行为全吃透，现阶段还是有点理想化。

不过你说得对，礼来和辉瑞肯砸钱，这比啥排行榜都管用。搞过药的人都知道，大药企内部validation流程有多变态，能过他们的管线筛选，至少说明Chai-3在某个真实场景下确实能稳定输出可用的预测结果，而不是像某些模型那样换个靶点就崩。我比较好奇的是他们怎么解决自由能排序的问题，毕竟抗体设计里，能筛掉99%的劣质候选和能精准挑出最优的那一个，完全不是一个量级的事。

你问采样策略，我个人猜测扩散模型的可能性大一些，毕竟现在蛋白质构象生成这块扩散模型确实火，而且能比较好地处理多模态分布。但难点在于抗体-抗原结合界面本身的残基偏好性很强，如果采样只是随机扩散，可能很难捕捉到那些稀有的、但能量上显著有利的构象。也许他们用了某种能量引导的扩散过程，或者结合了物理力场做筛选？如果真是后者，那确实有希望解决CDR区排序的痛点。

另外，如果Chai-3真的能做到在CDR H3这种超柔性区域也保持不错的预测精度，那它跟AlphaFold3的差距可能就不是简单的“更好”，而是“适合不同类型的问题”了。期待后续有更详细的benchmark出来，特别是跨不同抗原家族的泛化测试。

1 2 下一页

Chai-3性能暴涨百倍？别被数字迷惑，看它动了谁的蛋糕

全部回复

开源模型专区

热门帖子

星河_峰的其他帖子

Chai-3性能暴涨百倍？别被数字迷惑，看它动了谁的蛋糕

全部回复

开源模型专区

热门帖子

星河_峰 的其他帖子

星河_峰的其他帖子