利用机器学习能成功建立高度精确的分子水模型吗?

虽然水被认为是世界上最简单的物质之一,但几十年来,在原子或分子水平上模拟水的行为一直让科学家们感到沮丧。到目前为止,还没有一个单一的模型能够准确地描述更多水的奇异特性,包括它在略高于熔点的温度(4℃)下密度最大。美国能源部阿贡国家实验室(DOE)的一项新研究在数学上描述水的行为方面取得了突破。为了做到这一点,阿贡研究人员利用机器学习开发了一种新的、计算成本较低的水模型,该模型能更准确地表示水的热力学性质,包括水在分子尺度上如何变成冰。

博科园:在这项研究中,阿贡纳米材料中心(CNM是美国能源部科学用户设施办公室)研究人员使用机器学习流程优化了一个新的水分子模型。根据大量实验数据训练模型,以生成一个高度精确,水的分子尺度模型。该研究的通讯作者Argonne nanoscientist Subramanian Sankaranarayanan说:优化水的模型参数长期以来一直是一个挑战,目前存在50多种不同的水模型。在试图了解如何在复杂参数空间中为任何给定的模型导航,以获取水的广泛特性,这是非常困难的。目前还没有一个模型可以同时解释水的熔点、密度最大值和冰的密度。

  • 基于机器学习的分子动力学模拟显示了冰颗粒在过冷水中如何形成和结合,从而导致冰的不完美。这些模拟帮助科学家了解冰粒(黄色/绿色/青色)之间边界的运动,以及六角形(橙色)和立方(蓝色)冰片冻结在一起时发生的堆积紊乱。图片:Argonne National Laboratory

试图建立量子力学或原子模型来捕捉水的行为让研究人员感到困惑,因为计算量太大,而且仍然无法再现水的许多与温度有关的特性。Argonne博士后研究员、该研究的第一作者Henry Chan表示:对于简单的模型,如本研究中使用的模型,这一点更难实现。对于研究人员来说,选择使用整个水分子作为模型的基本单元使他们能够以较低计算成本进行模拟。这项研究的第一作者之一,路易斯维尔大学助理教授巴德里·纳拉亚南(Badri Narayanan)说:虽然传统上这些简单的模型引入了许多近似,而且往往精度较低,但机器学习能在保持简单性的同时创建更精确模型。

然而,即使这样降低了计算开销,如果没有大型超级计算机,一些物理特性也很难模拟。研究小组利用美国能源部下属的科学用户设施Argonne Leadership Computing Facility的Mira超级计算机,对多达800万个水分子进行了模拟,以研究多晶冰中界面的生长和形成。根据共同第一作者和CNM助理科学家Mathew Cherukara的说法:这个被称为“粗粒度”的新模型达到了与包含原子级描述的模型相同。一般会认为引入这些近似通常会导致一个糟糕得多的模型:一个有效但效果不太好的模型。美妙之处在于,这个分子模型没有像原子模型那样精确,但最终仍是如此。

为了实现粗粒度模型的高精度,研究人员使用了来自近10亿个原子尺度的信息来训练模型,这些信息涉及众所周知的与温度有关的特性。训练模型涉及Chan所称的“分层方法”,其中每个候选模型都要经过一系列测试或评估,从基本的基本属性开始,然后逐步发展到更复杂的属性。可以把它想象成试图教孩子一项技能,你从一些基本的东西开始,一旦你看到了进步,就会一步步增加难度。研究人员还表明,该方法可以用来提高其他现有原子和分子模型的性能。能够使用分层方法显著提高现有高质量水模型的性能。理论上,应该能够重新审视所有的分子模型,并帮助它们中的每一个都达到最佳性能。