

当先同样的 DNA,为何最终有的长成神经元,有的成为血细胞,有的是胰岛细胞?
数十年来,生物学家和会细胞会分化,但一个永远来很难准确瞻望的问题是:如果改造一个舛误基因,细胞气运将发生若何的改变?
咫尺,一个新式AI 模子启动尝试回复这个问题:动作可操作的筹算机模拟“细胞模子”,模拟调控扰动并生成可考证、解说细胞气运决定机制的假说。
近期,德国亥姆霍兹慕尼黑中心 Fabian J. Theis 教师和英国牛津大学 Tatjana Sauka-Spengler 教师团队互助,开采了一种端到端的深度学习模子 RegVelo(Regulatory Velocity),初度将神经收集与细胞动态变化过程交融在归并框架中。
具体而言,盘问东谈主员通过迷惑微分方程和神经收集建模细胞里面的调控口头,对细胞的动态抒发数据进行拟合,这么不错通过筹算机模拟改变基因调控关系(举例敲除某个转录因子、下调调控特定回路),来瞻望细胞的气运将若何改变。
值得柔和的是,盘问团队将 RegVelo 应用于多个复杂的多谱系分化系统,不论在小鼠胰腺内分泌发育、东谈主类造血分化,照旧斑马鱼神经嵴发育,该模子都进展出雄伟且相瞄准确的末端现象识别能力。

(来源:受访者)
不错这么来和会这项盘问:RegVelo 从不雅测细胞调换的轨迹,同期推断驱动调换的内在调控逻辑,并用这个逻辑瞻望干豫调控后的新轨迹。
该论文第一作家、亥姆霍兹慕尼黑中心博士生汪伟旭的盘问标的是从调控收集瞻望细胞的分化的构建过程,他对 DeepTech 解说谈:“这就像咱们考驾照科目三时,不同的考生(主见基因)和考官(转录因子)的组合会有不同的行车限度,我去和会考官去调控考生的机制,最后不错告诉你,如果换一个考官或干脆不要考官了,科目三能不成过(即你的行车轨迹是满分)。”
电脑模拟实践是 RegVelo 的应用标的之一。汪伟旭觉得,更令东谈主高亢的场景是类器官盘问。类器官领域最大的瓶颈并非能否长出细胞,而是分化着力不雄伟、细胞熟习度不够、某些舛误细胞类型难以诱导出现,这三个问题背后都指向归并个中枢问题:哪些转录因子在哪个时期窗口驱动了正确的分化,而这恰好安妥 RegVelo 往复复的问题。
具体来说,可在现存类器官单细胞数据上建模调控动态,然后在筹算机瞻望“如果在某个发育窗口激活或扼制某个转录因子情况下,最终的细胞构成会若何变化”,再把最有但愿的几个瞻望进行实践考证,把分化公约的优化从自便的实践试错压缩到筹算引导的定向考证。
更进一步,对于类器官疾病模子,不错用患者来源的诱导多能重编程干细胞(iPSC)教诲模子,在筹算机里模拟不同的基因干豫,瞻望哪些干豫能把颠倒的细胞气运更正回平素轨谈,这让 RegVelo 有后劲成为药物靶点筛选的前端筹算平台。
总体来说,这项技能为发育生物学、再生医学和疾病机制盘问提供了一种具有瞻望扰动和分析扰动后结局的器具,有望显耀减少功能筛选实践的盲目性,通过优先考证筹算瞻望名次靠前的候选因子,进而加快舛误调控因子的发现进度。

图丨干系论文(来源:Cell)
近日,干系论文以《RegVelo:基于基因调控信息的单细胞动态变化建模》(RegVelo: Gene-regulatory-informed dynamics of single cells)为题发表在 Cell[1]。亥姆霍兹慕尼黑中心博士生汪伟旭和武汉大学胡致远教师,牵记斯隆-凯特林癌症中心 Philipp Weilier 博士是共同第一作家,姆霍兹慕尼黑中心 Fabian J. Theis 教师和牛津大学 Tatjana Sauka-Spengler 教师担任共同通信作家。
细胞气运,究竟是谁决定的?
要和会用最基础的功能单位作念造谣细胞的真谛,咱们要先从造谣细胞的历史演进讲起。1943 年,埃尔温·薛定谔(Erwin Schrodinger)在都柏林高级盘问院时期的演讲,自后被纪念成一册书《人命是什么》。
好多东谈主不知谈的是,这本书的副标题是《活细胞的物理学方面》(The physical aspect of the living cell),这亦然最早想考活细胞底层的物理学旨趣:细胞动作最小功能单位是有序的,而彼时统计热力学正探讨若何从无序产生有序。
这与格雷戈尔·约翰·孟德尔(Gregor Johann Mendel)豌豆杂交实践揭示的遗传决定论存在破损,即存在“有序到有序”的过程。薛定谔提倡两个推测:一是遗传物资如果要雄伟并储存信息,必须口舌周期性晶体;二是人命依靠负熵而活,即咱们通过外界的食品和其他负熵体来保管自身的有序性。
此外他还推测,应该有新物理或新表面解说遗传顺次(即基因里的顺次)若何放大到通盘有机体。这套想法为当代分子生物学和生物信息学奠定了蹙迫的基础,他较早将信息认识引入生物学,并为细胞不雅提供了一种机械论视角。
非周期性晶体的想想启发了科学家,最终促成了 DNA 双螺旋的发现,“从有序到有序”的意志则为弗朗西斯·克里克(Francis Crick)提倡中心端正(central dogma)提供了蹙迫的想想基础。
但细胞表率的有序性若何教诲仍待回复:同样遗传物资若何决定不同细胞类型?DNA 序列改变若何产生新细胞类型?外部信号能否蜕变细胞现象?2024 年,斯坦福大学教师、驰名盘问机构陈-扎克伯格倡议(Chan Zuckerberg Initiative, CZI)的科学把握斯蒂芬·奎克(Stephen Quake)将此称为“细胞端正”,它被看作造谣细胞的信得过母题,而并非浅显的扰动瞻望。
1957 年,英国发育生物学家康拉德·沃丁顿(Conrad Waddington)提倡了驰名的景不雅隐喻模子 Waddington 景不雅:细胞发育的过程就像小球(细胞)从山顶滚入山谷,其中山顶分化势能最高,最终干涉山谷并分化成当不同的最后细胞类型。他觉得,景不雅之是以被塑造是复杂的遗传物资之间的调控收集塑造决定了细胞分化的标的。
该表面也启发了系统生物学家们从 21 世纪初启动盘问基因调控回路问题,玩50岁熟妇女邻居但受限于表面和硬件方面的敛迹,其时由于缺少解数千个基因的能源学方程模子的数值求解器,只可用经典能源学盘问干系过程。
跟着 2010 年代单细胞测序技能(scRNA-seq)熟习,初度为全基因组表率不雅测数据提供了接济。何况 GPU 和深度学习技能也启动发展,出现了羼杂模子(hybrid model):常微分方程提供能源学骨架,神经收集从数据中学习未知调控关系,GPU 求解器使高维筹算可行。
因此,从“细胞动作信息处理单位”的历史发展演进来看,Waddington 的景不雅提供了隐喻,系统生物学把它变成方程,而羼杂模子则将其进一步发展为不错从数据学习的筹算问题。
为什么之前的模子会“看反”
若何磨砺模子的确灵验,并在生物数据中具备一定泛化能力,这是 AI for Biology 的常见问题之一。RegVelo 想要科罚的中枢问题是:细胞的分化是若何被基因调控回路笃定下来的?
如果从咫尺的 AI 系统去看,不难发现其最擅长的是有明服气息流动的,即“从有序到有序”的过程。比如卵白质折叠问题,从一级氨基酸序列到三维空间结构,有着明确的带鸿沟的现象空间。
是以,对于 AI 系统来说要在生物数据中能走通,或然候问题能否被科罚,不单取决于数据鸿沟或模子架构,更根蒂的是问题自身是否被正确地抒发——能否找到一个有明服气息流动标的的有序框架来界说输入和输出。极端是当问题的输出并不是有序时,能否放在一个有序的框架下进行磨砺。

(来源:Cell)
在这项盘问中,RegVelo 在获取速率场后,盘问东谈主员不错瞻望细胞分化的终态在哪,从对分化终态的瞻望中来判断模子横暴。汪伟旭暗示:“在这项盘问中我最快活的设想,是迷惑咱们课题组教诲的一套描摹细胞气运的框架CellRank。”
该框架提供了在给定速率场下描摹细胞气运的分化概率,不错盘问在扰动后不同细胞气运的概率变化,以获取最终去往某个现象的可能性高下的改变,以致是揣度最终熟习的细胞现象细胞密度的变化。在获取一个有序的、可被实践去径直磨砺的统计量之后,可径直和 Perturb-seq 实践对都,来判断模子是否灵验。
“是以,AI for Biology 在将来很永劫期内的信得过鸿沟,可能不是算力,不是数据量,而是人命过程中有若干东西不错被正当地抒发为有序到有序的映射。”汪伟旭指出,这亦然他觉得咫尺 AI in life science 的盘问者该作念的事情,天然+无码+迅雷下载不是换一个模子架构,也不是 scale up 到更大的数据集,而是迷惑 AI 常识和对生物学实践的和会,判断出一个合适且可放在实践体系下证伪的问题,优先级高于前两者。
11 次敲除实践,AI 瞻望准确率接近翻倍
传统的 RNA 速率模子假定转录速率是恒定的或唯有一次“开关”,但该假定在造血系统等场景下不诞生。
在造血场景中,由于转录速率并非恒定不变,而是与细胞现象密切干系,因此凡俗会出现一种反常表象:当许多基因内容上处于极强的转录诱导现象时,模子却失实地判断它们处于扼制现象。这导致最终推断出的速率场与已有的生物学领略十足违抗。
RegVelo 之是以或者改善这一问题主要基于两点:一是尝试拟合更无邪的能源学轨迹 ;二是觉得每个基因的转录速率受上游的转录因子的影响,即建模每个基因的转录速率并非恒定,且暗示成由转录调控收集介导的上游调控因子的作用,也不错和会为刻下细胞现象来决定转录速率。
汪伟旭进一步补充谈:“可是,在一些造血系统的数据辘集,RegVelo 也不成十足科罚,这背后可能是说转录速率不光受调控收集自身的影响,还有一些其他未能不雅测的部分。”

图丨RegVelo 的中枢模子(来源:Cell)
盘问团队在斑马鱼上作念了 11 种转录因子敲除,RegVelo 的瞻望限度与内容实践数据的斯皮尔曼干系性达到 0.52,而其他设施都低于 0.25。
由于不同设施界说扰动输出的形势不同,盘问东谈主员提倡了“密度变化似然”,以将统统的设施用归并种统计量来对其 Perturb-seq 实践的限度。在该实践中,他们通过不雅察最后分化细胞类型中扰动前和扰动后细胞密度的变化,来判断是否存在破费或者富集。
具体而言,假如在模拟中有扰动前和扰动后的速率场,不错在筹算机中模拟一个细胞若何沿着这个速率场,最终抵达最后分化的细胞类型,同期近似模拟该过程屡次。
汪伟旭指出,这就像有多个细胞不停迁徙最终抵达最后的细胞类型,不错径直统计最终最后细胞类型中得胜抵达的细胞数目在扰动前后的变化,这么能和实践统计的限度在界说上具备了可比的条款。
谈及或者竣事接近翻倍准确率擢升的原因,他坦言,“这要收货于咱们的互助者胡致远教师和 Sauka-Spengler 教师在实践门径的深广孝顺。咱们作念的斑马鱼实践是信得过真谛上在斑马鱼体内发育过程的扰动,这使得实践自身和 RegVelo 的筹算模拟是对都的。”

图丨从左至右分离为:Fabian J. Theis、Tatjana Sauka-Spengler 和胡致远(来源:受访者)
在盘问实践中,RegVelo 有个挑升想的瞻望表象:它能识别发育过程中早期高抒发、但在最后现象依然下调的谱系驱动因子。这类因子凡俗只在较早的发育窗口中抒发,比及细胞抵达最后现象时,其 mRNA 信号可能依然减轻以致淹没。因此,依赖最后细胞类型高抒发关系的设施容易将它们漏掉,或把其误归为早期或中间现象的象征基因。举例,ets1、nr2f5、sox9b 和 twist1b 等颅面间充质干系转录因子在神经嵴板和脱层阶段高抒发,在最后现象中显耀下调。
干系性设施和部分扰动瞻望设施将这些因子指向 mNC hox34 等现象; RegVelo 则通过基因调控收集(GRN)敛迹下的前向模拟,将它们识别为颅面间充质谱系的早期驱动因子。

图丨RegVelo 的扰动瞻望历程(来源:Cell)
但另一个问题是,人命体有复杂的冗余机制来保管其系统雄伟。举例,盘问东谈主员在实践中不雅测到,有些转录因子在昔时报谈中与第二咽弓细胞的发育谈论,但他们实践上发现,敲除这些转录因子并不会影响第二咽弓的发育。
“这背后一种解说是,会存在其他功能类似的转录因子通过复杂的响应调度机制,来提高其居品丰采从而不竭保管功能。”汪伟旭暗示。
当外部信号来叩门:CellFlow
在单细胞筹算领域,Fabian Theis 课题组早期作念了一系列奠基责任:从单细胞数据设想的数据结构表率 AnnData,到 Python 单细胞分析主流的基础器具库之一 Scanpy,再到单细胞深度学习 scGen 等。
在造谣细胞标的,除了从物理细胞层面动身的 RegVelo,盘问团队还有另一项从生成模子动身的盘问 CellFlow[2],这亦然首个基于流匹配的生成框架作念抒发扰动问题的设施。
“CellFlow 主如果回复我所提到细胞学说(cellular dogma)的第三点:外部的一些信号刺激下,细胞现象能否竣事蜕变。”汪伟旭暗示。内容上,这正是当下造谣细胞问题主流的界说,即给定形态因子(举例 CRISPR、细胞因子或药物)后,细胞的抒发现象若何从 A 变成 B。

图丨一种用于探索细胞表型空间的器具 CellFlow(来源:bioRxiv)
造谣细胞领域中最早的扰动模子,不错追忆到 Theis 课题组 2019 年发表在 Nature Methods 的 盘问 scGen[3],这亦然最早对于扰动问题的界说。但它是基于 VAE 的浅显架构,且并未径直对外源的形态因子的信息动作输入径直建模。
跟着单细胞测序技能通量越来越高,围绕大鸿沟的扰动实践成为可能后,盘问团队但愿通过苍劲的生成模子,从扰动数据中学到扰动效应和形态因子的表征之间的统计关联。
应用流匹配模子的上风在于:源流,它具有可扩张性,或者进行十亿级别数据的老练;其次,在咫尺已知的好多场景中,它的生奏效果优于好多其他模子。将来,可基于该生成模子作念类似类器官的分化决策设想,或径直给定生成主见,基于该模子逆向地合成形态发生素,即用若何的 CRISPR 来引导细胞去生成主见现象。
距离信得过的造谣细胞,还有多远?
咫尺,RegVelo 仍存在一些局限性:源流,RegVelo 对全局潜在时期的处理仍可能无法障翳统统基因特异性的时期动态;其次,诚然模子可垄断来自多组学数据的先验 GRN,但刻下调控模子仍较简化,对 TF 活性、染色质可及性和更复杂非线性调控的径直建模仍然有限;此外,对 GRN 调控边雄伟性的重采样评估凡俗需要屡次近似老练模子,筹算老本较高。
将来如果进一步整合代谢象征 RNA、染色质可及性、TF 活性、RNA 迷惑卵白互作和卵白层面的信息,RegVelo 对细胞现象变化的模拟维度还可进一步扩张。另一个蹙迫的问题是,现阶段 RegVelo 尚未酿成整合空间转录组数据的能力,而空间组织恰正是类器官的中枢特征之一。
在本次盘问中仅谈判细胞里面调控机制,但并未回复当存在外部信号输入时,比如空间上的微环境或加药后若何修改里面的调控逻辑。在将来的盘问阶段中,盘问团队运筹帷幄不竭探索这些问题。
咫尺,该课题组与谷歌、英伟达等大型企业在 AI 科学家、造谣细胞等方面进行技俩互助。RegVelo 和 AI 科学家的交叉点在于:RegVelo 提供的是一个有物理敛迹的独有模子,它生成的瞻望是结构化的、可解说的假定;而 AI 科学家提供的是对这些假定进行推理和优先级排序的能力。
两者的迷惑,正巧对应了 AI for Science 最合理的单干口头:将模拟细胞功能的各式独有模子部署到智能体中,通过这些独有模子生成假定,同期通过智能体的推理能力,来判断这些假定是否和已知的知看穿损,从而生成着实的新假定进行考证。
这里波及到一个更根蒂的问题:学界和工业界在 AI for Science 中应该若何单干?在汪伟旭看来,学界需要作念的是在细胞的表率上,找到并界说一些特定的场景,对应了某种有序到有序、信息流动标的明确的问题;而工业界不错通过更强的算力和新模子框架,从工程上把这个问题科罚。
“不同的独有模子,就像在乐团中饰演不同的扮装,有东谈主弹钢琴、有东谈主吹小号、还有东谈主唱歌,进而各司其职去实施模拟细胞不同功能。智能体就像一个带领家来和洽不同的功能,来创造优好意思的旋律:通过产生合理的假定,引导后续的实践设想。”
另一个蹙迫的问题是,RegVelo 所代表的细胞模子与咫尺 Evo 以及 AlphaGenome 代表的基因组学模子永远脱节。因此,将来盘问团队但愿能关联两者,径直耦合从基因组到细胞气运调控。但愿届时 RegVelo 不错回复细胞学说的舛误问题:当引入一些基因组上的突变,极端是调控元件上的突变后,最后若何影响细胞的气运。
参考费力:
1.https://www.cell.com/cell/fulltext/S0092-8674(26)00457-5
2.https://doi.org/10.1101/2025.04.11.648220
3.https://doi.org/10.1038/s41592-019-0494-8
排版:胡巍巍
注:封面/首图由 AI 辅助生成