书籍容易腐烂,照片终将褪色,CD 和硬盘的寿命不过数年,那么有没有更好的数据存储介质呢?
图 | 这块 75 毫米 x 75 毫米 x 2 毫米的玻璃上储存了 1978 版《超人》电影。约 75.6GB。(来源:微软)
微软公司(Microsoft)找到了新的数据储存方式。该公司和华纳兄弟公司(Warner Bros.)合作,将 1978 版的《超人》存储到了一块玻璃中,数据多达 75.6GB。这是玻璃硬盘从概念到落地的实践。
2 毫米厚、100 多层的玻璃硬盘
图 | 华纳兄弟档案高管 Brad Collar 和华纳兄弟首席技术官 Vicky Colf 展示同一部电影在胶卷与玻璃存储的对比。(来源:微软)
这块玻璃为杯垫大小,75 毫米 x 75 毫米 x 2 毫米。微软使用红外激光将电影数据解码为三维像素(voxels),存入玻璃后,其中的数据可以机器学习来进行解码读取。
与数字硬盘存储方式不同,玻璃硬盘是激光通过在玻璃不同的深度和角度上创建一层三维纳米光栅和变形进行数据编码存储,读取数据则需要机器学习算法来解码在偏振光透过玻璃时产生的图像和图案。
其编码和解码原理是,飞秒激光(发出超短光脉冲且通常用于治疗近视的 LASIK 手术)会熔融玻璃形成与光偏振相关的纳米光栅结构,那么写入纳米光栅的点可以表示"1",而"0"则无需写入。此前澳大利亚斯威本科技大学课题组 James Chon 副教授及顾敏教授在 2009 年就用这个方法实现了数据储存,即在 5 个维度上实现信息编码,包括了光的偏振、波长以及 x、y、z 三个坐标等 5 个物理维度。
华纳兄弟通过将数字副本转换回模拟胶片并将其分成 3 个色彩分量(青色,品红色和黄色)分别将其转移到黑白胶片负片上,这就不会像彩色胶片一样褪色。
微软表示,一块 2 毫米厚的玻璃可以包含 100 多个数据层。每一层都由激光写入的纳米光栅组成,然后机器学习算法在它们之间跳转以对其进行解码。
更保真,更保质
图 | 华纳兄弟公司的胶片冷藏库,需要恒温、恒湿,还要时常检测有无化学分解。(来源:微软)
长期以来,华纳兄弟在寻找能够长期储存那些无需经常访问的"冷"数据。该公司目前在温度和湿度受控的冷库中用胶卷来保存巨量的影视数据,时不时还要用探测器检测有没有化学分解,同时其存储数字档案的固态硬盘需要每 3 年迁移一次,以避免电子衰减而丢失数据。这个过程代价高昂。华纳兄弟还作了多手准备来防备数据存储事故,比如要应对地震或飓风来袭,还要防止火灾和洪水破坏胶片。他们准备在世界各地放置 3 个拷贝,2 份为数字副本,1 份为原始素材拷贝。微软的硅项目让他们看到了一劳永逸存储数据的希望。
微软公司 CEO Satya Nadella 说,这个玻璃硬盘系统是一个崭新的冷存储系统。要知道,玻璃经过煮沸、烘焙和刮擦都无损其存储稳定性,因此数据可以保存数个世纪。此外玻璃存储不需要控制温度和湿度,这就大大降低了数据库的环保成本。
玻璃硬盘更保真。华纳兄弟档案高管 Brad Collar 说,如今电影拍摄为数字拍摄,需要将数字像素存储到胶片模拟介质中,这就损失了原有的像素,并且这是不可逆的,而玻璃存储则如同相机一样保留了原始像素。
与 CD 光盘相比,玻璃硬盘也有很大优势。CD 光盘只能以平面上的凹凸来储存"0""1",而玻璃可以三维阵列来实现高储存密度,那么以激光技术可以实现在 2 毫米玻璃中存储 100 多层三位像素。
另外,玻璃存储通过光学读取器来访问数据,速度也更快,机器学习算法可以迅速进行数据定位然后归位,大大减少提取信息的延迟,而光盘、磁带则需要时间来找到读取位置。
微软这个项目名为硅项目(Project Silica),微软研究院是负责部门。作为科技公司巨头,微软公司希望玻璃硬盘能满足数据长期存储的需求。大数据存储
图 | 微软的光学科学家在检查激光写入设备。(来源:微软)
自 2009 年科学家提出可以用光学写入透明材料来存储数据以来,科学家就盯上了玻璃。
玻璃存储研究是微软公司与英国南安普顿大学(the University of Southampton)合作开展的,后者于 2013 年开发了利用飞秒技术进行玻璃存储数据的技术。
除了电影,有很多数据值得"冷"存储。比如患者一生的医疗数据、法律合同、能源勘探的地质信息、图书馆数据、档案馆数据以及城市规划等等。
目前只是微软开发玻璃硬盘的开始,这项技术仍然需要成熟。数据的读写速度和密度需要提高,成本需要下降,以及技术的可扩展性也要提高。
不过其应用空间巨大。威斯康星大学麦迪逊分校电子及计算机工程系副教授喻宗夫说,历史上有一种方法能经过长时间尺度的考验,那就是洞穴石头上的刻画,但现在我们数据如此多,如何系统快速刻在石头上是一个难题。那么选择刻入玻璃是个很聪明的选择。因为透明,可以利用激光在三维尺度上刻字,极大增加了储存量。"最近我们研究发现玻璃里的三维结构还可以进行智能计算。有储存,有计算,也许玻璃可以组成一个经得住时间考验的计算机了,这很有意思。"(喻宗夫提及的智能玻璃指的是他们发明的用来识别数字的玻璃,详见《最聪明玻璃诞生:以光散射为核心算法,无需耗电,可识别数字 | 专访》
喻宗夫认为,保存时间是玻璃硬盘最大的优势,只是其读和写会比较慢、也比较贵,可能不适合普通消费者对储存的需求。
专访暨南大学光子技术研究所研究员李向平
图 | 微软工程师在使用光学仪器和 AI 检索和读取玻璃中的数据。(来源:微软)
DeepTech:你如何评价微软这个工作?
李向平:首先这项成果非常有意义,主要在于光存储向大数据存储以及企业级应用的转化。利用玻璃可以实现长时间的冷数据保存,相比现在的硬盘存储方式,具有更低能耗(光盘数据不耗电)及数据长寿命(100 年以上)的优势。对于企业级用户,尤其是大数据中心,例如 Facebook、Google、国家安全信息保存、银行等大数据及冷数据保存非常有吸引力。
不过这个技术还处在研发阶段,理论存储数据容量高,缺点是存储速度较慢,需要多个脉冲累积在玻璃内形成微纳光栅(其原理决定的)。该技术需要进一步实用化,急需解决速度的问题,以及工业化成本问题(强飞秒脉冲激光器成本贵)。
DeepTech:五维(5D)数据指的是什么?用三维数据不够吗?
李向平:三维是 X、Y、Z 这 3 个坐标轴,但是因为光波的电场振动具有方向性即偏振,这就是第四个维度。这里他们的技术还利用了光的另外一个维度是振动的强度。如果是三维,受到光学衍射极限的限制,光学数据存储中记录光斑大小为半个波长左右,一张光盘的存储差不多就是 1 个 TB 的上限了。在增加光的偏振方向和振动强度两个维度之后,光盘的容量就不受限于三维空间的限制,就可以在这相同的物理空间尺度上再增加它的存储容量,所以这是多维的一个概念,其深受人喜欢的原因就是它可以理论上突破这种衍射物理极限的限制。
DeepTech:玻璃硬盘的数据还是以"0""1"二进制的,是吧?
李向平:还是二进制。比如可依据偏振光的强度分为几个灰阶,那样的话信息存储容量就极大增加了。
DeepTech:为什么选择玻璃?只要是透明的物质都行,是吧?
李向平:玻璃还是有点特殊的,因为微软这个技术是玻璃在激光照射下会发生物理特性的改变,尤其是采用脉冲激光器多个脉冲的时候,会在焦点内形成这种周期性的纳米光栅的分布。这种与偏振取向相关的周期性纳米光栅结构是它存储的原理。如果换用其他物质不一定会有这个机制,就没法实现偏振维度的复用。
同时,玻璃具有抗高温,抗电磁干扰,还耐磨损的特性,所以它可以保存时间达到千年左右。
DeepTech:微软的研究中,激光设备比较庞大,那么将来小型化后会有惠及普通民众的消费级应用吗?
李向平:可能会小型化,但是其小型化概念可能和我们平时用的如 DVD 光驱、DVD 影碟机不一样。现在的大数据它追求的是容量大,这种需求定位是企业级用户大数据中心的。我们平时可以看到一些数据中心有很多大的机柜,现在是说用这种自硬盘阵列的方式来实现存储,那么将来的话光盘也可以做到和硬盘相当,甚至比硬盘容量更大。
DeepTech:微软为什么要做玻璃硬盘这个项目?
李向平:这些公司意识到大数据时代下,谁拥有数据,谁就拥有未来的话语权。但数据最终还是需要保存的,数据保存以后在上面建立算法,进行数据挖掘才有数据的商业价值,那么如果谁能把这些数据保存下来才有发言权,而数据保存中企业级消费就是一个很大的市场。
冷数据也值得保存。比如你朋友圈的微信发出去,可能当天或者一周之内朋友访问和点击很多,但是一周之后数据就不再被访问了,但是根据国家法律规定,这些数据它是有用的、也是有效的,信息企业有义务保存这些信息。大数据现在存储每天的数据容量很大,但是这些数据的话不把它存下来,丢了又可惜,但是你要把它全部存下来的话,现在存储介质又不够。
现在的存储方式就是磁盘、磁带库等,就是以前影碟机磁带转轴的那种方式,其成本很低,大概就是每 GB 可以做到几分钱。但这种存储的最大的问题就是磁带用久了会黏连,所以其数据每隔一两年要倒带一次,不然磁带发生黏连。此外磁带是顺序读取,不能像光盘或者硬盘是随机读取、随机寻址,只能从头到尾顺序读取。
其实数据中心很大一部分的成本是来自这种设备存储硬件的维护费用,还有就是这些设备的冷却、空调制冷,因为这些设备都会发热。
像 Facebook 还有索尼率先想到用光盘存储冷数据,数据放在那里,不需要耗电,而且可以保存 20 年以上。他们认为用蓝光光碟来代替磁盘库有很大的优势。所以他们为代表的大数据企业在积极推动低能耗大数据存储这件事情。
DeepTech:国内这方面研究是怎样的?
李向平:之前国内有两个国家光盘中心,分别是清华大学金国藩院士和中科院上海光机所干福熹院士牵头。不过国内光存储技术起步较晚,在 DVD 和蓝光技术中一直受制于人。随着光存储消费级市场的萎缩,后面做的人就少了。目前,国内还有不少从事全息光存储的课题组,包括福建师范大学谭小地教授的全息光盘技术,尽管全息光盘读写速率快,但是其存储容量还是有限。目前主要竞争的光存储技术,一个是微软和南安普顿大学合作开发的五维存储这个,另外就是我们和国内某企业合作开发的七维(7D)存储技术。
我们的多维存储技术和英国南安普顿大学的技术原理有相似的地方,都是用光的维度,不同的地方是我们用的材料不同。我们采用了先进的纳米材料技术,来实现与光的多维度的响应和复用存储,具有更快的速度和更高的容量。
微软用玻璃的好处是材料相对很简单,但他们有个最大的问题,就是技术原理决定它存储速度不够快,因为它要多个脉冲写入数据,所以在每个点停留的时间要很长。我们用的方法正好解决了他们的写入速度的问题,可以做到单个脉冲的记录,所以比微软的技术要快 1 到 2 个数量级!而且,我们可以实现对 7 个维度的复用存储,存储容量比微软的技术也要高 2 到 3 个数量级。
李向平简介
李向平,1979 年出生,暨南大学光子技术研究院研究员,博士生导师。2002 年本科毕业于南开大学物理学院应用光学专业,2005 年在南开大学现代光学研究所获得硕士学位。2009 年获得澳大利亚斯威本科技大学博士学位。2009 至 2015 年在斯威本科技大学微光子中心就职博士后、高级研究员。主要从事等离激元、超分辨、激光加工及光存储方面研究