机器学习助力合成生物学:算法可以成为你的细胞生物工程师

资料来源:Thor Swift/Berkeley Lab

肉香满满的素汉堡和用于美容的合成胶原蛋白都来自一个充满潜力的研究领域——合成生物学。在该领域,科学家们可以设计出符合规范的生物系统,例如用于生产抗癌药剂的微生物。然而,传统的生物工程方法费时费力,而且需要不断试错。

现在,美国能源部劳伦斯伯克利国家实验室(Berkeley Lab)的科学家们开发出了一种新工具,使机器学习算法可以适应合成生物学的需求,从而系统地指导生物制品的开发。

这项创新意味着,科学家们不必再花费数年时间对细胞的每个部分以及细胞的功能进行细致的了解再对其进行操作。取而代之,通过有限的训练数据集,算法就能够预测细胞的DNA或生物化学变化将如何影响其行为,然后对下一个工程周期提出建议,并对实现预期目标的概率进行预测。

伯克利实验室生物系统和工程(BSE)部门的研究人员Hector Garcia Martin说:“要知道,研发抗疟疾药物青蒿素花了150年。如果你能在几周或几个月内创造出符合要求的新细胞,就能在生物工程领域掀起一场革命。”

该团队与BSE数据科学家Tijana Radivojevic以及一个国际研究小组合作,开发并演示了这种名为“自动推荐工具”(A machine learning Automated Recommendation Tool for synthetic biology,以下简称ART)的算法,并在近日发表于《自然?通讯》杂志上的两篇论文上对此进行了描述。

在第一篇论文中,研究人员针对合成生物学领域的特殊性定制了算法:小的训练数据集、对不确定性的量化需求以及递归循环。此外,来自此前代谢工程项目的模拟和历史数据也证明了该算法的能力。

在第二篇论文中,该团队尝试利用ART指导代谢工程,以提高色氨酸的产量。为了进行实验,他们选取5个基因,每个基因由不同的基因启动子和细胞内其他机制控制,总共代表了近8000种潜在的生物途径组合。研究人员获取了其中250条路径的实验数据,并将这些数据用于训练算法。之后,通过统计推断,该工具能够推断出剩余的7000多个组合如何影响色氨酸的产生。

最终,它推荐的设计方案得到的色氨酸产量比最先进的参考菌株高106%,比用于训练模型的最佳设计高17%。

“这清楚地证明了,让机器学习来指导生物工程是可行的。”Garcia Martin说,“这仅仅是个开始,而此次我们证明了代谢工程具有可替代性方法。算法可以自动执行研究的常规部分,而研究者则可以把时间花在更具创造性的方面,例如:决定重要的问题、设计实验、巩固已获得的知识。”

研究人员表示,仅通过少量数据就能达到如此效果令他们感到惊讶。不过要想真正实现合成生物学的潜力,还需要更多数据训练算法,以及更多机器学习方面的专业人才。合成生物学对于众多领域都具有应用前景,例如:食品、医药、农业、气候、能源和材料,目前其市场规模仍在不断壮大。

版权声明:本文由科界平台原创编译,中文内容仅供参考,一切内容以英文原版为准。转载请注明来源科技工作者之家—科界App。