科学研究中出现大量数据如何处理?高能物理提供了新思路

出品:“科学与中国”院士专家巡讲团

制作:中国科普博览

监制:中国科学院部工作局 中国科学院计算机网络信息中心

高能物理的主要目标是探索物质的微观结构以及宇宙起源等的自然规律。比如为什么物质有质量?反物质在哪里?宇宙大爆炸刚发生时的物质形态是什么样的?

那什么是大数据呢?不同的领域对大数据的定义不相同,一般来说,我们把数据量极大,内容与格式极复杂,速度产生极快的数据定义为大数据。

在高能物理方面,我们面临着很多与数据相关的挑战。第一个挑战就是数据获取,以ATLAS实验为例,探测器应该每秒采集4000万次数据,在这样的探测器中有几亿个感应器,而相关数据都应该被记录,因此每秒钟的时间我们需要采集1PB的数据,这难以实现。

第二个挑战就是数据储存,目前我们的储存设备的容量不断增加,但是它的可靠、可管理性,速度、吞吐能力未必随之增加。

第三个挑战是数据共享,共享技术的互操作性,体系结构,统一的标准等等都达不到要求,数据安全保护以及跟踪管理仍然是一项巨大的挑战,同时,跨领域数据模型的统一,信息及知识库的共享也面临困难。

第四个挑战是数据分析,我们知道CPU的时钟频率已经不再增长,但是核数在继续增加,计算模型、数学、统计和算法技术需要重新建模,这对数据分析来说是一个很大的问题。

第五个挑战是可视化,如何尽量减少计算系统与外部数据的通讯,只有这样,才能以最快的速度把分析结果的可视化展现出来。

第六个挑战是数据的长期保存,数据的丢失以及技术的更新都是需要解决的问题。

现代科学研究越来越数据驱动,大数据已经来临,不管怎么样,我们需要新的思路与技术来应对挑战。高能物理为我们提供了经验与教训,能够帮助科学家和计算机技术专家找到应对的方法。


“科学与中国”院士专家巡讲活动是中国科学院学部发起,由中科院、中宣部、教育部、科技部、工程院、中国科协共同主办的高层次公益性科普活动。精彩内容关注“科学与中国”官方网站(cs.kepu.cn)。中国科学院学部工作局为网站委托单位,中国科普博览为网络传播合作伙伴,中国科学院计算机网络信息中心提供技术支持。