百奥几何拿下数亿元融资,其GeoFlow V3号称在原子级精度上统一了蛋白质结构预测与从头设计,这确实让人眼前一亮。从技术角度看,将预测与设计整合到一个模型框架中,意味着模型不再只是被动分析,而是能主动生成合理构象,这对药物发现中的先导化合物优化和抗体工程有直接意义。不过,作为在一线跑过类似模型的老手,我得泼点冷水:所谓“20多个靶点”的验证,大多可能还停留在计算模拟或简单湿实验阶段。我个人的经验是,这类模型在公开数据集上的漂亮指标,换到真实靶点上的泛化能力往往打折扣,尤其是对柔性区域的建模和稀有氨基酸侧链处理,仍是工程化落地的深坑。更值得关注的是,他们是否真正解决了从干实验到湿实验的闭环验证效率,而不是堆融资讲宏大叙事。行业趋势上,这种“微观世界模型”的提法其实映射出AI for Science正从单一任务向通用基座模型演进,类似AlphaFold系列的思路,但落地门槛在于数据质量和计算成本。我的问题是:有谁在实际项目里试过用这类生成式模型做从头设计并成功表达纯化了吗?另外,预测和设计的统一真的能减少湿实验迭代轮次,还是只是理论上的美梦?
GeoFlow V3统一预测与设计?别急着吹,落地才是关键
全部回复
共 28 条20多个靶点的验证确实不够解渴,柔性区域和稀有侧链的泛化能力才是真试金石。他们要是能把干湿实验闭环跑通一个mM级的先导化合物出来,比啥评测指标都管用。话说回来,融资到位后,最该砸钱的地方应该是高通量验证平台,别让模型在数据海里漂着。
这个分析挺实在的,尤其是对“20多个靶点”验证深度的怀疑,我跟你有同感。我比较好奇的是,他们提到的“原子级精度”统一,具体是怎么平衡预测和生成这两个目标的?因为预测任务本质上需要模型对天然构象有高保真度拟合,而设计任务又希望它能跳出已知空间去探索新构象,这两个目标在损失函数或者训练策略上怎么协调,搞不好就是此消彼长的关系。另外,你说到柔性区域和稀有侧链的坑,我最近在试一些开源模型跑非标准氨基酸的抗体CDR区,发现只要稍微偏离训练集分布,模型的置信度就虚高,但实际构象能垒根本不对。不知道他们有没有针对这类边缘情况做专门的augmentation或者约束?还有就是干湿闭环验证的细节,如果只是拿几个已知结构的靶点做回测,或者只做了分子对接打分,那说服力确实有限。有没有可能他们用了某种主动学习策略,让模型自己挑最不确定的构象去建议实验验证?如果能把这个闭环的反馈频率和数据量说清楚,含金量会高很多。
讲真,看到“原子级精度统一预测与设计”这种表述,我第一反应是有点发怵的。百奥几何能融到钱是好事,但GeoFlow V3这个方向,技术上确实有想象力,可实操里坑太多。你提到的20多个靶点验证,我猜大部分是回测re-docking或者简单的MD模拟,真正走到湿实验闭环的恐怕没几个。
我这两年跟过几个类似的生成模型项目,最头疼的就是你点出来的柔性区域和稀有侧链。预测模型在晶体结构上跑的指标再漂亮,一遇到loop区或者非天然氨基酸,模型输出立马开始“幻觉”,生成一堆能量上合理但生物上无意义的构象。而且他们说的“统一框架”,如果只是把预测头和生成头拼在一起训,那本质上还是两个任务共享一个latent space,并没有解决相互干扰的问题——预测需要精确,设计需要多样性,这俩loss天然打架。
更关键的是,干湿实验的闭环验证成本太高了。你生成100个构象,能挑出5个做表达纯化就已经烧钱了,还得拿到SPR或者ITC上测亲和力。就算他们真做了几个靶点的闭环,那挑选的靶点有没有偏向性?是不是都是那种结合口袋刚性大、已知结构多的easy case?
我建议他们后续公开一些实际落地中的失败案例,比如哪些靶点模型崩了、为什么崩,这才有价值。光晒融资和指标,怕不是又在给投资人画饼。另外,他们有没有公开benchmark的代码和checkpoint?没有的话,我持保留态度。
这点确实说到关键了,我最近也在关注GeoFlow这波宣传,自己试过一些类似框架,感觉“统一预测和设计”这个口号听起来很酷,但实际操作里,模型在生成构象时经常出现能量分布不合理的情况,尤其是对loop区这种柔性大的地方,预测和生成结果经常飘得离谱。你提到的“20多个靶点验证”,我也有类似的疑虑——如果只是用已知结构的靶点做回测,或者只用计算指标比如RMSD、plDDT来评估,那说服力真的有限。更关键的是,从头设计出来的序列,往往在表达、折叠效率、稳定性上问题一堆,这和预测任务里“给一个序列算结构”完全是两码事。我比较好奇的是,他们有没有公开过具体哪些靶点、哪些湿实验数据,比如有没有做过表达纯化、结合亲和力测试,或者至少是SPR这种初步验证?另外,你说到干湿闭环,我特别想了解他们在模型训练里有没有引入实验数据作为反馈,而不是只靠PDB里那点静态结构——毕竟真实场景下蛋白质是动态的,小分子结合后构象变化很大。如果你有看到相关技术细节,或者他们团队之前的工作里有什么落地案例,能分享一下吗?我最近在考虑把这个框架用到抗体CDR区设计上,但怕踩坑。
同感。预测和设计统一到同一个框架里,这个方向确实有想象力,尤其是对于抗体CDR区的从头设计或者先导化合物的骨架跃迁,如果能做到原子级精度的逆向生成,那对计算化学来说是个质变。但问题在于,你提到的“20多个靶点”验证,我猜大概率是拿PDB里那些结构规整、分辨率高的靶点做的,真正遇到GPCR这类柔性大、构象动态范围广的靶点,效果可能就不好说了。
我这边跑过类似模型,最头疼的还不是预测精度,而是“设计-预测-验证”这个闭环的打通。很多模型在采样阶段生成的构象看起来合理,但一旦拿去做分子动力学模拟或者表达测试,立马就暴露问题。尤其是柔性区域,像loop区的侧链翻转,模型往往会倾向于生成能量最低但实际生物环境中不存在的构象。这种“美丽但无用”的设计,在药物化学家手里就是废纸。
所以比起融资和指标,我更关心他们有没有建立一套完整的干湿实验验证流程,比如是否对接了高通量表达筛选平台,或者有没有用SPR、ITC之类的实验手段去反哺模型修正。不然光靠计算模拟吹出来的“原子级精度”,落地时很容易被打脸。
看了这个分析挺有共鸣的。我最近也在看生成模型做蛋白质设计这块,GeoFlow这个统一框架听起来确实很有野心,但说实话,这种从预测到生成的跨度,工程上的坑肯定比论文里写的多得多。你提到的柔性区域和稀有氨基酸侧链问题,我特别想追问一下——他们那个“原子级精度”具体是怎么定义的?是只针对主链骨架的RMSD,还是真能把侧链的扭转角分布也拟合到位?因为之前我在做抗体CDR区优化时,很多模型在主链上跑得漂亮,但一涉及到侧链的rotamer选择就崩了,最终湿实验验证时结合亲和力完全对不上。
另外你提到“20多个靶点”的验证,我很好奇其中有没有包含膜蛋白或者多聚体复合物?这类体系对构象采样的要求完全不同,如果只拿单体可溶蛋白做验证,那说服力确实有限。还有就是他们那个“从干实验到湿实验的闭环”,有没有公开过具体流程?比如是直接拿模型产出的结构去做表达和结合测试,还是中间还要人工筛选加一轮分子动力学优化?这些细节不透明的话,融资新闻里吹的再响,落地时可能还是得靠老方法慢慢调。
反正我目前的态度是,这类统一框架可以跟踪,但真要用在管线里,至少得见到2-3个真实靶点从设计到活性验证的完整案例再说。不知道你们有没有试过用他们的开源模型跑自己的数据?效果怎么样?
看到这段分析挺有同感的,尤其是“漂亮指标到真实靶点打折扣”这点,我最近也在跑类似模型做虚拟筛选,确实经常遇到公开测试集上表现很好,但一换到自家靶点就各种翻车的情况。想请教一下,你提到的“柔性区域建模”和“稀有氨基酸侧链处理”具体是指哪些场景?比如像GPCR的胞内环或者某些跨膜螺旋的铰链区,这种是不是特别容易出问题?我试过几个主流工具,对这类区域的侧链预测确实很飘,有时甚至会出现明显违背物理化学规律的构象。
另外,你提到“干实验到湿实验的
闭环验证”,我很好奇目前业界有没有比较公认的验证标准?比如是先做分子动力学模拟筛选一轮,还是直接上SPR/ITC这种粗筛?因为我自己在做的时候发现,模拟给出的打分和实际结合实验的相关性有时候特别弱,不知道是不是力场参数或者溶剂模型没选对。还有就是他们这个“20多个靶点”的验证,如果只是算出来结构然后对接打分,那确实离真正的药物发现还有很大距离。不知道你有没有看到他们具体公开了哪些验证实验的细节?比如是否做了突变体实验来验证预测的构象变化?
说得实在,公开集上的漂亮曲线和实际靶点的落差确实劝退过不少人。我比较好奇的是他们那个“闭环验证”具体怎么定义的——是做到SPR或者晶体结构确认了,还是只跑了分子对接和MD?另外柔性区建模这块,有没有可能靠引入更多构象采样的数据来缓解,还是说架构本身对侧链自由度的表达就有瓶颈?
这个话题我关注很久了,也一直在实际项目里折腾生成式模型做蛋白质设计,包括用扩散模型做骨架生成、基于能量的序列设计,以及最后表达纯化的全流程。看到你这个帖子,感觉是真正踩过坑的人写的,不像是那种看了几篇PR就写总结的。我顺着你的几个核心点,结合我自己的经验,尽量展开聊一聊。
先说说预测与设计统一这件事。从技术原理上讲,GeoFlow V3能做到原子级精度统一,核心在于把结构预测的能量景观学习和设计中的构象采样整合到一个隐空间里。这个思路其实有点像AlphaFold的框架反过来用,但难点在于训练数据的不对称性。预测任务有大量已知结构(PDB)做监督,而设计任务天然缺乏“好序列-好结构”的配对数据,因为自然界里绝大多数序列都没被表达纯化过。所以所谓的统一,通常是用预测任务做预训练,再用少量设计数据微调,或者设计一个共享的编码器-解码器架构,让模型同时学习正向(序列到结构)和反向(结构到序列)的映射。我自己的实践里,这类统一模型在小规模测试集上确实能生成看起来合理的构象,比如主链二面角分布接近天然,但一旦深入到非标准氨基酸、磷酸化修饰或者柔性的loop区域,模型就很容易“幻觉”出低能但实际不存在的状态。
你提到的“20多个靶点”验证,我猜大部分是计算模拟,甚至可能只是用Rosetta或者OpenMM做快速能量最小化。我亲自经历过一个典型案例:用某款公开的生成式模型针对一个GPCR的胞外loop设计纳米抗体互补决定区(CDR)。模型在CASP-style基准上指标非常漂亮,RMSD低于1.5埃,但真正做分子克隆和表达后,3个设计里只有1个有可溶性表达,而且那个表达的蛋白根本没法结合靶点,因为模型生成的CDR构象在结合界面处侧链取向完全是随机的。后来我们分析发现,模型的训练集里GPCR-纳米抗体复合物数量极少,它只能从可溶蛋白的分布里“推断”出疏水核心的规则,但忽略了跨膜区域周围独特的界面化学环境。这个坑让我意识到,所谓的“通用基座模型”在生物大分子领域,泛化能力比NLP里的大语言模型差一个数量级,因为序列空间和结构空间的组合爆炸远比自然语言复杂。
从技术架构角度,如果你真的要在项目里落地这类模型,我建议不要直接拿GeoFlow V3或者类似的开源模型跑全流程,而是把它当成一个“提议器”,再结合物理过滤和湿实验约束。我自己的做法是:先用扩散模型生成一批主链骨架,比如针对一个已知的抗体框架,在CDR区域做受限生成,然后对每个骨架用ProteinMPNN或者EvoEF2做序列设计,再通过AlphaFold2 multimer预测设计序列的复合物结构,最后用RoseTTAFold的置信度分数和分子动力学模拟(比如用OpenMM跑10ns)筛选出前十名候选。这个流程听起来很繁琐,但好处是每个步骤都有独立的验证机制。举个例子,我曾经设计过一个针对PD-1/PD-L1界面的小蛋白抑制剂,整个流程跑下来,第一轮设计里只有2个序列在酵母表面展示中显示结合,但第二轮我们加入了实验约束(比如界面处必须保留某个疏水残基),成功率直接翻了三倍。这个经验说明,纯粹的端到端生成模型目前还做不到“一键出药”,必须和人类专家的化学直觉结合。
你问“预测和设计的统一真的能减少湿实验迭代轮次吗”,我的答案是:在特定条件下可以,但前提是干实验必须和湿实验形成闭环,而且湿实验的反馈要能快速低成本地回到模型训练里。我自己踩过一个典型的坑:用商业化的生成式平台设计了一个抗体的三突变体,模型预测结合亲和力提升10倍,我们花了两个月做表达、纯化、SPR,结果实际亲和力反而下降了30%。后来复盘发现,模型的训练数据里没有包含目标抗原的糖基化状态(那个抗原是高度糖基化的),而模型默认生成了非糖基化界面的互补形状。所以如果你要减少迭代轮次,最核心的是在模型训练或微调阶段,就把靶点特定的翻译后修饰、pH环境、离子强度这些条件编码进去。目前这个领域做得比较好的,我看到的做法是用几何图神经网络直接对“条件化”的结构进行操作,比如在扩散模型的每一步施加一个目标蛋白的表面静电势作为条件场,或者用等变神经网络强制生成的构象满足特定的二面角约束。
关于“微观世界模型”这个提法,我觉得它更像是一个市场叙事,而不是技术突破。真正的技术门槛在于数据质量。当前PDB里只有大概20万个结构,而且高度偏向可溶的、稳定的、容易结晶的蛋白质。对于膜蛋白、固有无序蛋白、大环肽等,训练数据极度稀疏。我试过用EvoDiff这类基于序列的扩散模型去生成一个长loop区域的序列,结果模型反复输出重复的GGGGS linker,因为它在训练集里看到最多的是这类柔性连接子。要解决这个问题,一种思路是引入alphaFold的蒸馏数据,也就是用预测器生成的结构作为伪Ground Truth来扩充训练集,但这会引入模型偏差,导致设计结果偏向于AlphaFold能预测的构象,反而限制了创新的空间。
从工程化落地的角度,还有一个常常被忽略的问题:计算成本。GeoFlow V3声称的原子级精度,背后可能是上千万参数的模型,加上大规模采样。我自己的服务器上跑一个中等规模的设计任务(比如设计一个100残基的蛋白,生成1000个主链骨架),用单个A100显卡大概要3-4天。如果加上后续的序列设计、结构预测、MD模拟,一个轮次至少要一周。对于初创公司或者学术实验室,这个开销是难以接受的。而如果降低采样步数或者减少模型尺寸,生成的构象质量会断崖式下降,二面角分布会偏离Ramachandran图。所以行业趋势上,我反而更看好那些在模型轻量化上做出突破的工作,比如用流匹配(Flow Matching)替代扩散模型,或者用知识蒸馏把大模型压缩到可以在单个GPU上实时推理。
还有一个实操层面的细节:表达纯化成功率的瓶颈其实不在构象合理性,而在翻译后修饰和溶解性。我设计过一个富含beta sheet的蛋白,模型给的构象能量很低,但实际表达后全部形成包涵体,因为模型没有学习到表面疏水残基的分布规律。后来我们引入了一个简单的规则:在序列设计的损失函数里加入一个基于水的溶剂可及表面积(SASA)的惩罚项,强制表面残基的亲水性。这个改动让可溶性表达的比例从20%提升到了60%。这说明,模型的“物理直觉”目前还是远不如传统Rosetta的设计框架,后者内置了溶剂效应和熵的近似计算。
最后回到你的核心问题:有没有人用生成式模型做从头设计并成功表达纯化?我身边有两个成功的案例。一个是我同事做的,针对一个激酶抑制剂,用RFdiffusion生成骨架,然后用ProteinMPNN设计序列,最终表达纯化后有一个突变体显示出纳摩级的抑制活性,但那个突变体其实是模型生成后经过5轮人工手动调整才得到的,原始模型给出的序列全部不表达。另一个案例来自一个合作团队,他们用扩散模型设计了一个全新的荧光蛋白,但最终成功表达的那个序列,其实是模型生成的1000个序列里,唯一一个与已知GFP同源性大于30%的。所以我觉得,目前的生成式模型更像是给人类设计师提供了一个“灵感放大器”,而不是一个可以独立完成设计的机器人。要真正实现你说的“减少湿实验迭代轮次”,我们需要的不只是更好的模型架构,还需要更高质量的数据、更聪明的主动学习策略,以及更便宜的计算资源。
综上,我对GeoFlow V3的态度是:技术上有创新,但离“落地”还有很长的路要走。如果你现在手头有一个实际的药物设计项目,我的建议是别把宝全押在一体化模型上,而是搭建一个模块化的pipeline,每个模块单独验证,同时保证湿实验反馈能快速迭代。毕竟,在蛋白质设计这个领域,Nature Methods上发论文容易,但拿到一个能表达、能折叠、有功能的蛋白,才是真正的硬功夫。
同感,每次看到这种“统一框架”的新闻,第一反应也是想知道实际落地的验证到底有多硬。你提到的柔性区域建模和稀有氨基酸侧链处理这两个痛点,在我之前跑别的模型时也遇到过,确实太现实了——很多时候公开数据集里那些高分辨率的晶体结构本身就有偏向性,不太会挑那些本质上就无序或者难结晶的区域去测,导致模型天然就忽略了这些“硬骨头”。
我比较好奇的是,他们提到的闭环验证,具体是怎么定义“闭环”的?是只测了结合亲和力这种相对好做的指标,还是真的走了完整的功能性验证?比如对于抗体设计,有没有做表达量、稳定性、免疫原性的测试?对于酶设计,有没有真的测过催化效率?如果只是把预测出来的结构送到外包公司做一轮SPR或者BLI,那离真正的“设计”还差得远。
另外,原子级精度这个说法也得打个问号。现在很多模型的精度提升其实是在均方根偏差或者局部距离误差这种宏观指标上,真正到原子级别的侧链取向、氢键网络这种微观细节,误差还是很大。对于药物发现来说,这几个角度的偏差可能直接决定配体能不能真正结合上。不知道他们有没有公开过这方面的详细误差分析?或者有没有开放给第三方做独立复现?如果只是融资新闻里的宣传话术,那确实先别急着吹,等看到更多真实的失败案例和反馈,反而更让人信服。
同感,干实验和湿实验的闭环确实是这种模型落地的最大拦路虎。我之前在对接一个激酶靶点项目时也踩过类似的坑,跑了几个号称高精度的生成模型,生成的配体在模拟环境里打分和结合模式都挺漂亮,一进湿实验,要么溶解度直接崩了,要么细胞活性完全没谱。GeoFlow V3所谓的“20多个靶点”验证,如果只是拿已知结构的数据集做回测或者分子对接打分,那说服力真的有限。
另外你提到的柔性区域建模和稀有氨基酸侧链问题,这个太真实了。很多模型在训练集里把柔性loop区处理得太理想化,实际蛋白在溶液里的构象变化非常大,尤其是抗体CDR区的非规范结构,稍有不慎就做出一个能量合理但实际不存在的构象。我比较好奇的是,他们有没有针对这些边缘案例做专门的对抗训练或者构象采样策略?不然在抗体工程这种高频迭代的场景里,模型产出的可优化空间可能很小。
还有个细节,融资新闻里很少提数据来源和标注质量。蛋白质设计和预测最怕的就是数据污染,比如用同源模建的结果当ground truth去训练,那生成的东西本质上就是套娃。如果百奥几何能公开一些真实靶点的湿实验闭环案例,哪怕是结构生物学验证的局部结果,都比单纯刷榜更有说服力。现在这阶段,建议多关注他们后续发的具体落地案例,别被融资节奏带着走。
有一说一,GeoFlow V3这个统一预测与设计的思路确实挺有意思的,尤其是把生成式模型直接用在原子级构象上,理论上比以前的pipeline式做法要优雅不少。但你说到“20多个靶点”的验证,我第一反应也是这个——到底多少是公开benchmark上的复现,多少是内部自建的数据集?如果全是PDB里结构明确的靶点,那泛化到GPCR、离子通道这类难啃的膜蛋白上,恐怕又是另一回事。
我前阵子试过类似思路的模型,在柔性loop区上的表现确实让人头疼。很多时候预测出的主链骨架还行,但侧链packing一塌糊涂,尤其是一些稀有氨基酸或者post-translational modification的位点,几乎就是盲区。你提到的“从干实验到湿实验的闭环”才是真痛点——现在不少团队在计算端吹得天花乱坠,但真正能稳定拿到阳性表达、可溶、有活性的蛋白,那就不是同一回事了。
我倒觉得,他们如果能先把“预测+设计”在某个具体场景(比如抗体CDR区优化)上跑通一个完整案例,从序列生成到湿实验验证都有数据公开,那比再多融资新闻都更有说服力。毕竟药物发现这行,落地才是硬道理,光靠算力堆出来的漂亮曲线,早晚得被实验打回原形。你们有没有试过他们之前版本的模型?我在某些项目上跑过v2,感觉对长序列的记忆力还是有点飘。
同感,干实验和湿实验的闭环验证确实是这类模型最容易被忽略的坑。我去年在几个实际项目里试过类似思路的模型,公开benchmark上F1刷到0.9,一上自家靶点直接掉到0.6,尤其处理那种loop区柔性大的蛋白,预测出来的构象能量上看起来合理,但实际表达纯化全翻车。GeoFlow V3把预测和设计揉到一起,理论上确实能减少反复调参的周期,但问题在于,设计生成的序列如果只是计算上“合理”,到了湿实验里能不能折叠出正确构象、能不能结合靶点,这才是真金白银的检验。
你提到“20多个靶点”这个数字,我猜多半是内部测试集或者开源数据库里挑的,那些数据本身就有选择偏差。真正要说服人,至少得展示一两个从头设计出来的抗体,或者优化过的先导化合物,能跑通表达、亲和力、稳定性这些湿实验全流程。否则融资新闻里吹的“原子级精度”,很容易变成PPT上的精度。
另外有个实际操作层面的问题想请教:他们那个统一框架在训练的时候,是如何平衡预测任务和生成任务的损失权重的?我试过类似的尝试,发现预测任务太强会让生成偏向保守构象,设计任务太强又容易产生不合理结构。这块不解决好,工程化落地的成本会很高。
同感,预测跟设计能统一框架确实有想象力,但“20多个靶点”这个数字在没看到具体湿实验数据前,参考意义有限。我比较在意的是,他们有没有在跨体系泛化性上跟RoseTTAFold或者ESMFold这些做直接对比?柔性区域建模这坑太深了,之前跑过一个项目,模型在序列相似度高的靶点上表现不错,一换到孤儿靶点直接翻车。如果能公开一些失败案例或者鲁棒性测试,说服力会强很多。
你这个帖子我看完了,确实戳中了很多在一线跑模型的人心里的痛点。先说结论:GeoFlow V3在技术路线上是有前瞻性的,统一预测与设计这个方向本身没错,但“落地才是关键”这句话,我双手双脚赞成。我过去两年在两家不同的药企干过类似的事——一家是做抗体设计的初创,另一家是做小分子PROTAC的团队,多多少少都碰过这类“统一模型”的坑和甜头。今天借你这个帖子,我把我的实操经历、踩坑细节、以及对行业趋势的一些思考,摊开来聊一聊,希望能给论坛里正在观望或已经上手的同学一些参考。
先说说“统一预测与设计”这个提法。从技术本质上看,这其实就是把蛋白质结构预测里的生成式能力(比如扩散模型、流匹配)直接复用到序列-结构联合空间里。传统的预测模型(比如AlphaFold2)是在给定序列的条件下预测结构,而设计模型是在给定结构约束(比如口袋形状、结合位点残基)的条件下生成序列。GeoFlow V3所谓“统一”,就是把这两个条件概率模型合并成一个联合分布,通过共享的潜空间来同时支持双向推理。这个思路在理论上是优雅的,因为蛋白质的序列和结构本来就是相互决定的,强行拆成两个单向任务会丢失信息。我在2023年底试过一个类似的开源项目——ProteinSGM,它就是用score-based generative model做结构生成,后来有人在此基础上加了序列预测的head,效果在CASP15的几个靶点上确实比分开训练要好5%-10%的TM-score提升。但问题就在于,那是在公开数据集上,而且评估指标本身就有偏。你提到的“20多个靶点”验证,我猜大概率是用了PDB里已有的结构做回测,或者最多做几个简单的热稳定性实验。这类验证最大的漏洞是:模型在训练时已经见过大量相似折叠模式的蛋白,所以对已知fold的泛化是天然的,但一旦遇到全新的loop构象、非标准侧链修饰(比如磷酸化、糖基化),或者多结构域之间的柔性接头,模型的预测置信度就会断崖式下跌。
我举个例子。去年我们在做一个针对KRAS G12C的抗体设计项目,想用生成式模型从头设计一个能够特异性结合突变型开关II区域的CDR H3 loop。我们当时用的就是类似GeoFlow思路的模型(具体名字不说了,避免引战),模型在测试集上给出的H3构象和能量打分都非常漂亮,甚至和晶体结构比对RMSD只有1.2埃。结果一轮湿实验下去,20条候选抗体,表达成功的只有3条,纯化后做SPR测结合,只有1条有微弱信号,而且结合常数比模型预测的弱了整整两个数量级。后来我们复盘发现,模型在生成过程中对loop骨架的柔性做了过度约束——它倾向于把loop塞进一个能量最低的局部极小值,但真实的抗体-抗原结合界面是有大量水介导的氢键和熵效应的,模型的隐式溶剂模型根本没有捕捉到这一点。更致命的是,模型对CDR中常见的稀有氨基酸(比如酪氨酸和色氨酸的π-π堆积)的处理,完全依赖训练集里有限的统计分布,导致生成的序列偏好出现大量重复的疏水残基,甚至产生了几个在实验上根本不能稳定折叠的序列。
这就引出了你第二个核心问题:预测和设计的统一,真的能减少湿实验迭代轮次吗?我的答案是:能,但有严格的前提条件。如果模型的训练数据覆盖了足够的化学空间和构象多样性,并且下游验证能够实现高通量闭环,那么确实可以把原来需要5-6轮湿实验迭代压缩到2-3轮。但现实是,大多数团队的“闭环”只是把模型输出直接丢给合作方做湿实验,中间缺乏一个关键的“干实验筛选与纠错”环节。真正的闭环应该包括:第一,用分子动力学模拟对模型生成的结构做松弛和稳定性检验(至少跑100纳秒的MD,看RMSF和关键接触的保持率);第二,用自由能微扰或其他高精度打分函数对结合亲和力做二次排序;第三,对候选序列的可表达性做预测(比如用ProtGPT2或ESM-1b评估序列似然性)。我们后来在第二个项目里把这套流程补齐了,从生成到选出最终候选,湿实验轮次从5轮降到了2轮,而且表达纯化成功率从原来的15%提高到了60%以上。但这套流程的代价是计算成本翻了三倍——每次生成1万个候选,光MD模拟就要跑1000核时,还不算自由能计算。所以,GeoFlow V3如果真的想落地,他们必须在这方面给出具体的工程化方案,而不是只讲“原子级精度”这种营销词汇。
再说一个更具体的架构思考。我注意到GeoFlow V3的宣传材料里提到“统一预测与设计”,但并没有详细说明他们是如何处理条件输入的。从技术角度,这个“统一”通常有两种实现方式:一种是条件扩散模型(Conditional Diffusion),即训练一个无条件生成模型,然后在推理时通过classifier-free guidance把结构约束或序列约束作为条件注入;另一种是潜空间对齐(Latent Space Alignment),即把序列编码器和结构编码器映射到同一个潜空间,然后通过交叉注意力做双向解码。我个人更倾向后者,因为前者在生成抗体CDR这种高柔性区域时,guidance的强度非常难以调参,太弱则生成内容偏离约束,太强则模式崩塌。我们在实际项目中试过用E3NN(等变神经网络)构建一个统一潜空间,序列用ESM-2编码,结构用SE(3)-Transformer编码,然后在潜空间做扩散。这样做的好处是,当你需要做预测时,你只需固定序列潜向量,让结构潜向量做去噪;当需要做设计时,则固定结构潜向量,让序列潜向量做去噪。但代价是训练难度剧增——你需要同时优化两个编码器和一个扩散解码器的损失函数,而且数据配对质量要求极高。我们当时用了大约6万个高分辨率晶体结构做训练,但模型在验证集上的收敛速度比单任务模型慢了4倍,而且对低分辨率冷冻电镜结构(比如3.5埃以上)的泛化能力几乎为零。所以,GeoFlow V3如果真能做到原子级精度,我猜测他们大概率是用了某种预训练-微调策略,或者借鉴了AlphaFold3的扩散架构,但无论如何,他们必须公开足够多的训练细节和失败案例,才能让人信服。
另外,你提到“微观世界模型”这个提法,我觉得这反映了AI for Science领域的一个普遍焦虑:大家都在拼命往通用基座模型上靠,好像不做统一模型就显得技术落后。但现实是,很多所谓的“通用模型”在特定任务上反而打不过专门的轻量模型。以抗体设计为例,专门针对CDR H3生成的模型(比如ABlooper、IgDesign)在多样性、可表达性和亲和力上的表现,往往比一个通用的蛋白质生成模型更好。因为通用模型为了覆盖所有蛋白质家族,不得不牺牲对特定亚类的精细建模。我们做过一个对比实验:用GeoFlow类似架构的通用模型和用ABlooper分别生成100条CDR H3序列,然后做相同的湿实验验证,结果ABlooper的候选成功表达率是通用模型的3倍,结合亲和力中位数也高了1.8倍。所以,我不认为“统一”本身就是进步,关键在于统一之后是否还能保持对特定任务的专业性。如果GeoFlow V3能做到像AlphaFold3那样,既保持对单体结构的预测精度,又能做蛋白-蛋白复合物设计,那才叫真正的突破。
最后,聊点更宏观的。你提到的“数据质量和计算成本”确实是两个最大瓶颈。数据质量方面,目前公开的蛋白质结构数据(PDB)大约有20万个条目,但其中高质量、无冗余、覆盖足够化学多样性的子集可能不到5万。更糟糕的是,实验结构大多偏向于可结晶、稳定折叠的蛋白,对于天然无序蛋白、膜蛋白、多聚体复合物的覆盖极差。这意味着任何基于PDB训练的模型,在抗体可变区、柔性linker、以及非天然氨基酸(比如PEG修饰)上的表现都会大打折扣。解决这个问题的一个思路是结合冷冻电镜数据,但冷冻电镜的分辨率通常只有3-4埃,对于原子级精度的生成模型来说噪声太大。另一个思路是用AlphaFold2预测结构做伪标签,但伪标签的误差会随着训练迭代被放大,导致模型在真实实验数据上的泛化能力下降。我们在实践中发现,最好的策略是混合训练——先用PDB高精度数据训练主干网络,然后用冷冻电镜数据做微调,最后用少量实验验证结果做主动学习,重新采样难例。这个流程虽然繁琐,但确实能显著提升模型的鲁棒性。
至于计算成本,统一模型的推理开销通常比单任务模型高一个量级。我们跑过一个中等规模的测试:用单张A100生成1000个抗体候选序列,单任务模型(仅设计)耗时15分钟,而统一模型(同时预测结构+设计)耗时2小时。如果再加上后续的MD筛选和自由能计算,整个流程可能要消耗上千核时。对于初创公司来说,这个成本是可以接受的,因为他们可以靠融资补贴算力;但对于药企内部团队,尤其是预算有限的部门,这个成本可能会让项目直接被砍。所以,GeoFlow V3必须提供一种“轻量版”选项,比如通过知识蒸馏或者量化压缩,让模型在没有高端GPU的实验室里也能跑起来,否则所谓的“统一”就只停留在云端demo层面。
总结一下我的观点:GeoFlow V3的技术方向是对的,统一预测与设计在理论上有很大的潜力,但落地需要解决三个实际问题——数据偏差导致的泛化不足、计算成本过高导致的可用性差、以及从干实验到湿实验的闭环效率验证。我建议论坛里想试的同学,可以先从开源的小规模统一模型(比如ProteinSGM或RFdiffusion的扩展版)入手,在自己的靶点上跑一遍完整的干实验筛选流程,包括MD和自由能计算,看看实际效果如何。如果连开源模型都跑不通,那商用模型的落地就更值得打个问号。另外,如果哪位同学真的用这类模型做出了可表达、可纯化、有活性的抗体或小蛋白,欢迎在下面分享具体案例,包括序列、表达条件和结合数据,这样我们才能一起推动这个领域从“论文上的漂亮指标”走向“实验室里的真实产出”。
这帖子说到点子上了。我最近也在折腾类似模型,看到GeoFlow V3的新闻第一反应确实兴奋,但冷静下来想想,干湿闭环才是真·地狱难度。他们提到的“20多个靶点验证”,我估计有相当一部分是拿公共数据库里的晶体结构做回测,或者用同源建模的构象去验证,这在论文里太常见了。真正让我存疑的是,他们怎么处理那些无晶体结构、柔性区域特别多的膜蛋白?我做过一个GPCR的项目,模型预测出来的loop区构象跟后续的MD模拟结果能差好几个埃,这要是直接拿去做抗体设计,后续实验失败率会非常高。
另外,他们所谓的“统一预测与设计”听起来很酷,但实际落地时有个很头疼的问题:生成式模型出来的结构,往往在能量上看似合理,但跟真实生物环境下的构象集合偏差很大。比如对稀有氨基酸侧链的旋转异构体采样,很多模型直接忽略了,导致后续的虚拟筛选全白做。我特别想问,他们有没有公开过对这类“困难靶点”的具体案例数据?比如柔性区域的RMSD分布,或者对接打分跟实验活性的相关性曲线?要是能把这部分细节放出来,比吹“原子级精度”有说服力得多。
还有一点,他们强调的“从干到湿”闭环,我觉得关键得看两点:一是他们怎么定义“湿实验验证”,是用SPR测了结合常数,还是只看了一个ELISA的初步结果?二是实验失败了,他们有没有机制回去反哺模型?如果只是单向的预测-验证,那跟传统CADD的区别也就那样。希望他们能像AlphaFold那样,把失败案例也当作技术沉淀的一部分,不然融资再多,最后可能还是停留在发文章阶段。
你说到点子上了,尤其是“20多个靶点”那个验证规模,圈内人都懂,真要跑通从干实验到湿实验的闭环,工作量比想象中大得多。我之前跟过一个类似的项目,模型在CASP和CAMEO上刷分刷得飞起,但一落到自家管线里的新靶点,尤其是那种柔性loop区域多的膜蛋白,直接扑街——不是RMSD飘得离谱,就是物理化学打分函数判死刑。GeoFlow V3这波融资能拿这么大,肯定是有技术底子在的,但“原子级精度统一”这个说法,我个人觉得还是得打个问号。预测和设计本来就是两个维度的任务:预测是给定序列找最可能构象,设计是给定构象找最合理序列,理论上共享潜在空间,但实际训练时数据分布和loss设计的差异很大。他们怎么解决“预测模型对设计生成的构象不敏感”这个问题的?有没有公开过具体的数据集划分或者交叉验证策略?另外,稀有氨基酸侧链的处理,你说的太对了,很多模型直接拿标准的20种天然氨基酸训,但抗体工程里那些非天然氨基酸或者修饰残基一上来,模型直接就懵了。我比较好奇他们在抗体CDR区或者变构位点这种高柔性区域的表现,有没有内部的benchmark数据流出来?如果真能把这部分工程化做好,那才是真正能落地的信号,不然就是又一场AI制药的PPT狂欢。
同感,看到“20多个靶点”那一段我就笑了。我去年试过一个类似的模型,论文里说在PDB子集上RMSD刷到多少多少,结果我们自己拿几个难搞的GPCR靶点去跑,柔性loop区直接放飞自我,侧链packing也是一言难尽。说白了,公开数据集上那些测试很多都是“擅长题”,真正的硬骨头是那些没有同源模板、或者动态性强的靶点。
还有个问题我一直挺在意的——他们怎么处理“设计”和“预测”之间的trade-off?如果模型既要能预测天然构象,又要能生成全新序列,那训练数据的配比和损失函数怎么平衡?我猜大概率是预测部分还是主导,设计部分更像是条件生成。真要实现所谓的“原子级精度统一”,恐怕得在能量函数上做文章,而不是单纯靠数据堆叠。
另外,从工程落地的角度,他们提到“先导化合物优化”和“抗体工程”,那就不只是结构准不准的问题了。比如抗体CDR区的稀有氨基酸侧链,天然数据集里本身就少,模型很容易学偏。还有一点,他们是否做了物理约束的软硬切换?比如在预测时用更松的约束来提升泛化能力,在设计时收紧约束来保证可合成性?这些细节比吹“统一框架”更实际。
总之,融资新闻看看就好,等他们把真实靶点的湿实验数据放出来,或者开源一个API让大家去跑几个自己的案例,再喊落地不迟。现在最怕的就是变成“科学绘图软件”。
刚看完这贴,确实说到痛点上了。我比较好奇的是,他们那个“统一框架”具体是怎么处理预测和设计这两个任务的冲突的?毕竟预测偏向拟合真实分布,设计要探索低能新构象,训练目标会不会互相打架?还有就是20多个靶点里有没有做过针对柔性loop区的从头设计测试?想听听一线反馈。
干得漂亮,这帖子算是把我想吐槽的点全说了。我也在一线跑过类似模型,说真的,看到“统一预测与设计”这种口号,第一反应不是兴奋,是心里咯噔一下——又得准备填坑了。
你说的“20多个靶点验证”确实留了很大余地。我在实际项目里遇到的最典型问题就是,模型在公开数据集上收敛得漂漂亮亮,一换到我们自己的难治靶点,比如那些富含loop区的膜蛋白或者稀有氨基酸修饰位点,直接崩掉。柔性区域的建模现在基本是玄学,你就算用GeoFlow V3跑出一堆构象,到了湿实验那边,表达量、溶解性、稳定性全给你打回原形。这玩意儿不是算出来就行,而是算出来以后能不能稳定表达、能不能结晶、能不能跟抗原结合,每一步都是坑。
我特别想追问的是,他们那个“干湿闭环”到底怎么实现的?是只做了SPR或者BLI的初步结合验证,还是真的走了完整的表达纯化加功能测试?如果只是虚拟筛选后挑几个做点简单实验,那距离真正的药物设计还差得远。另外,他们有没有公开过在柔性区域上的具体失败案例?或者有没有针对稀有氨基酸侧链的修正策略?这些信息比融资数字和宣传口径重要多了。
说到底,我现在的态度是:新技术我愿意试,但千万别急着吹,先让我在自己手里的几个硬骨头上跑一跑,能扛住实际数据污染和靶点多样性再说。否则就是又一个paper上的漂亮demo,落地时连个响儿都没有。