你也可以用电脑计算望远镜数据以寻找遥远行星的证据

【博科园-科学科普】为了寻找适合生命的遥远行星,美国宇航局建立了一个众包项目,志愿者在其中搜寻望远镜图像,以寻找恒星周围的碎片,这是太阳系外行星的良好指标。利用该项目的成果,麻省理工学院的研究人员现在已经训练了一个机器学习系统来搜索碎片盘本身。搜索的规模要求自动化:在NASA的广域红外探测任务(WISE)任务中收集到的数据中,可能有近7.5亿的光源。在测试中,机器学习系统在97%的时间里同意了人类对碎片的识别。研究人员还训练他们的系统根据他们可能包含可探测的系外行星来评估碎片。

一颗年轻的类似太阳的恒星被它的行星形成的气体和尘埃圆盘包围着,图片版权:NASA/JPL-Caltech

麻省理工学院的研究人员在一篇描述《天文学和计算》杂志上的新工作的论文中称,他们的系统发现了367个未经检验的天体,它们是未来研究中最有希望的候选者。这项工作代表了一种不同寻常的机器学习方法,这是该论文的合著者之一Victor Pankratius所倡导的,他是麻省理工学院Haystack天文台的主要研究科学家。通常机器学习系统将梳理大量的训练数据,寻找数据特征与人类分析所应用的某些标签之间的一致性关联——在这种情况下,恒星被碎片环绕。

但Pankratius认为,在科学领域,机器学习系统如果能明确地包含一点科学理解,帮助指导他们的搜索,寻找相关性,或者识别出符合科学兴趣的标准偏差,将会更有用。Pankratius说我们的主要目标是超越人工智能的今天,今天正在收集数据,正在努力寻找数据的特征。最终会得到数十亿的特性。那你和他们一起做什么?作为一个科学家,你想知道的不是计算机告诉你某些像素是特定的特征。这是一个物理相关的东西,这是物体的物理参数

这篇新论文诞生于麻省理工学院的一个研讨会上,Pankratius与Sara Seager(1941年,地球、大气和行星科学教授)共同教授,她以系外行星研究而闻名。该研讨会是系外行星的天文信息学,介绍了一些数据科学技术,可以用来解释新的天文仪器产生的海量数据。在掌握了这些技巧之后,学生们被要求将这些技巧应用到悬而未决的天文学问题上。在她的最后一个项目中,航空航天大学的研究生Tam Nguyen选择了训练机器学习系统来识别碎片磁盘的问题,而新论文是这项工作的一个延伸。Nguyen是论文的第一作者,她和Seager, Pankratius和Laura Eckman一起,她是电子工程和计算机科学专业的本科生。

在NASA的众包项目中,研究人员得到了人类志愿者识别出的带有碎片圆盘的光源的天体坐标。这些圆盘可以被识别为椭圆,在它们的中心有稍微明亮的椭圆。研究人员还使用了WISE任务所产生的原始天文数据。为了准备机器学习系统的数据,Nguyen将其分割成小块,然后使用标准信号处理技术来过滤由成像仪器或环境光引起的工件。接下来她在他们的中心识别出那些有光源的区块,并利用现有的图像分割算法来移除任何额外的光源。这类程序在任何计算机视觉机器学习项目中都是典型的。

但是Nguyen使用了物理学的基本原理来进一步修改数据。首先她观察了四个不同频段的光源发出的光强度的变化。她还使用标准的度量标准来评估光源的位置、对称性和规模,为她的数据集设定包含的阈值。除了来自NASA众包项目的标签碎片,研究人员还列出了一些天文学家认为可能是系外行星的恒星。从这些信息中,他们的系统还可以推断出与系外行星存在相关的碎片盘的特征,从而选择367名候选者进行进一步研究。考虑到可扩展性与大数据挑战,利用众包和公民科学发展训练数据集天文观测和相关对象的机器学习分类器是一种创新的方式来解决挑战不仅在天文学中,而且不同的数据密集型科学领域。

使用计算机辅助的发现管道来自动化提取、分类和验证过程,将有助于系统地将这些功能组合在一起。”本文很好地讨论了这一方法对碎片磁盘候选者的有效性。这些经验教训对于将这些技术推广到其他天文学和不同学科的应用是很重要的。磁盘侦探科学团队一直致力于自己的机器学习项目,一位美国宇航局戈达德太空飞行中心的天体物理学家和领导者的众包disk-detection项目被称为磁盘侦探。我真的很高兴Nguyen正在研究这个问题,因为我真的认为这种机器-人类合作对于分析未来的大数据集是至关重要的。


知识:科学无国界,博科园-科学科普

内容:经“博科园”判定符合今主流科学

来自:麻省理工学院

编译:中子星

审校:博科园

解答:本文知识疑问可于评论区留言

传播:博科园