DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质”

据《自然》报道,谷歌DeepMind新开发的人工智能(AI)模型AlphaGenome可以帮助科学家解析基因组序列中的“暗物质”——非编码区,了解它们如何影响细胞内部运作并导致癌症等疾病的发生。目前,从事非商业工作的研究人员可以使用编程接口通过DeepMind的服务器访问该模型。这个AI模型在 6 月 25 日的预印本中进行了描述。

研究人员将大量基因组数据输入机器学习系统,训练它们预测非编码序列的作用。图片来源:JuSun/iStock via Getty

2001年,《自然》发表由美、英、日、德、法、中六国科学家共同完成的人类基因组序列草图。然而直到现在,约31亿个碱基对中的许多仍然是待解之谜。

在长长的人类基因组序列中,98%是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到头疼。

弄清楚DNA序列的作用很难,因为没有现成的答案,就像AlphaFold预测蛋白质3D结构一样。从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转录为RNA分子,到吸引影响基因表达发生地点、时间和程度的转录因子,单个DNA片段具有许多相互关联的作用。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,从而限制或简化转录机器的访问。

几十年来,科学家开发了数十种AI模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被剪切并拼接到不同蛋白质中的。而AlphaGenome正是一个“一体化”解释DNA序列的工具。

AlphaGenome可以处理多达100万个DNA碱基,这可能包括一个基因和无数个调节元件,并能针对多种生物特性进行数千次预测。而且,AlphaGenome在预测过程中对单个DNA碱基的变化十分敏感,这意味着科学家可以预测突变的影响。

DeepMind研究人员利用AlphaGenome分析了先前研究中发现的一种白血病患者的不同突变。该模型准确预测了非编码区突变间接激活了附近的一个基因,后者是这种癌症常见的驱动因素。

不过,研究人员表示,AlphaGenome仅基于人类和小鼠的基因组,以及其他相关实验数据进行训练,还没有测试它在其他生物中的有效性。此外,AlphaGenome预测的准确性还有提升的空间。例如,该模型难以识别位于10万多个碱基对以外的目标基因序列。

美国冷泉港实验室的计算生物学家Peter Koo说,AlphaGenome和类似的模型尚未捕捉到不断变化的细胞性质如何影响DNA序列的功能。因为这些模型只能在一个固定环境中进行预测,而细胞是动态的:蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。

(原标题为《DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质》)

DeepMind用AI实现可控核聚变突破:等离子体形状模拟精度提高65%

DeepMind的实验已将等离子体形状的模拟精度提高65%。

·去年,DeepMind和瑞士等离子体中心合作利用AI成功控制托卡马克内部的核聚变等离子体。最近,DeepMind新研究表明已将等离子体形状的模拟精度提高65%,将学习新任务所需的训练时间减少3倍甚至更多。

DeepMind的实验已将等离子体形状的模拟精度提高65%。

从人工智能机器人AlphaGo大战围棋世界冠军韩国棋手李世石,到人工智能程序AlphaFold预测蛋白质折叠,再到去年用AI控制核聚变反应登上《自然》杂志,谷歌旗下人工智能公司DeepMind已将人工智能算法深入到足以改变世界的领域。

7月26日,DeepMind表示,去年和瑞士等离子体中心合作利用人工智能成功控制了托卡马克内部的核聚变等离子体。“自那时起,我们的实验已经将等离子体形状的模拟精度提高了65%。”相关研究7月21日提交在预印本网站ArXiv上,论文题为《面向托卡马克磁控制的实用强化学习》。

托卡马克是一种利用磁约束来实现受控核聚变的环形容器,中央是一个环形真空室,外面缠绕线圈。通电时,托卡马克内部会产生巨大的螺旋型磁场,将其中的等离子体加热到很高的温度,以达到核聚变的目的。

反馈控制对托卡马克装置的运行至关重要,控制系统主动管理磁线圈以抑制细长等离子体的不稳定性,此外对等离子体电流、位置和形状的精确控制使热排和等离子体能量的管理成为可能。传统的等离子体的精确控制是通过连续闭合等离子体电流、形状和位置来实现的,但等离子体形状和位置等量不能直接测量,必须通过磁测量间接、实时估计。虽然这类系统已成功稳定了大范围的放电,但这种设计具有挑战性且耗时。

而强化学习近来成为构建实时控制系统的另一种范式,强化学习在包括等离子体磁控制领域在内的实时控制系统中显示出了良好的效果,但与传统的磁约束反馈控制方法相比,仍然存在明显缺陷。

在此次研究中,研究团队将重点放在策略准确性和整体训练速度上,解决了强化学习方法的主要缺点,包括对所需的等离子体特性实现更高的控制精度、减少稳态误差、减少学习新任务所需时间,提出了对智能体架构和训练过程的算法改进。模拟结果显示,等离子体形状精度提高了65%,大大减少了等离子体电流的长期偏置,将学习新任务所需的训练时间减少3倍甚至更多。

研究团队表示,虽然这些结果显著降低了强化学习控制器的局限性,但还有很大改进空间。未来不仅需要提高模拟性能,还需要在硬件上匹配实际等离子放电时的性能水平,目前模拟和硬件之间的精度差距几乎主导了模拟中任何剩余的改进。同样,有许多机会可以继续减少训练所需的时间。