写在餐巾纸上的创新灵感
——记诞生在酒吧里的DNA存储技术
2013年02月09日 来源:科技日报 作者:记者 郑焕斌 综合外电
遗传物质DNA(脱氧核糖核酸)作为数据存储介质,具有体积小、密度大和稳定性强等特点,相比目前的硬盘或磁带而言更紧凑、更耐用。但将信息编码在DNA上并准确地解读出来,是科学家一直努力破解的难题。据《自然》杂志报道,欧洲生物信息学研究所(EBI)的科学家以DNA为介质,创建了一种数据存储新技术,只需手掌般大小的人工合成DNA便可容纳全世界高达30亿TB的数据。
日前《时代》杂志网络版发表了题为《再见硅晶片,你好DNA——未来的数据存储技术?》一文,认为目前急切需要一种新技术取代现有数据存储技术,而欧洲生物信息学研究所的新成果使DNA存储技术“向前跨越了一大步”;硅芯片是计算机飞速发展的功臣,DNA作为其继任者可能是未来更好的选择。
源自酒吧的灵感
3年前的一个晚上,欧洲生物信息学研究所副所长埃文·比尔尼和同事尼克·戈德曼来到德国汉堡市的一家酒吧消遣。该研究所是欧洲分子生物学实验室的一部分,其职能是管理包括DNA序列和蛋白质结构等数据在内的生物学信息数据库。随着数据存储成本的降低和自动化程度的提高,数据库的存储量每年以几何指数增长,全部硬盘数据的维护工作彼时正使研究所的预算捉襟见肘。
比尔尼和戈德曼感到困惑的是,用什么可以替代昂贵的存储硬盘和磁带?研究所如何才能更好地处理犹如海啸般袭来的数据?很自然地,两位生物学家一边饮酒一边就把话题扯到了DNA上。
他们开玩笑说,DNA将会是一个很好的选择!因为它非常紧凑、耐用,当然它存储数据的历史也相当悠久——人类从长毛猛犸象骨骼中提取的DNA中获得了数万年前的信息。
突然间,两人都激动不已,在酒吧的餐巾纸上匆匆地记录着。戈德曼回忆道:“很快,我们两人又要了一扎啤酒,当然少不了要求服务生送来更多的餐巾纸。”
3年后,源自酒吧高脚凳上的灵感终于开花结果——这就是发表在《自然》杂志上的论文。该论文报告说,研究团队在微量DNA中储存了739KB的文档,其中包括154首莎士比亚十四行诗、一张照片、一篇PDF版本的科学论文、马丁·路德·金演讲“我有一个梦想”的片段(长度为26秒)和压缩算法的text文本。
由于存储技术价格高昂、耗时长,而且需要用DNA序列来打开文档,因而不会很快被投入实际应用。但随着人工合成DNA和其测序成本的持续降低,以及计算机工程(在硅芯片上编码的信息量)逐步逼近极限,这种生物学数据存储技术正是维护海量文档的机构和组织所急需的。
向前跨越了一大步
为了在DNA上对文档进行编码,比尔尼和戈德曼先将text文本、图像或者声像资料转换为二进制码,然后用戈德曼编写的软件,将其进一步转换为A、T、G、C四种编码。之后,他们为数千个DNA片段拟定了蓝本,每个片段都包含有一份文档片段,并将这些设计寄给安捷伦科技公司(该公司为生物学家合成所定制的DNA)。
戈德曼回忆道,安捷伦寄回的合成DNA片段很少——塑料管底部的一点点白色灰尘埃。研究团队使用一台标准的DNA测序仪来打开这些文档,整个过程持续了两周。然后,再用戈德曼设计的软件将已测序DNA重新组装成前后连贯的可读文档。让他们惊奇的是,从白色尘埃中再现的文档几乎完全无损。在完成少许修复工作之后全部信息被恢复,其准确度达100%。
文档的保真度给人留下深刻印象。把DNA存放在寒冷、干燥和黑暗的地方,能够完好无损地保存数千年。与硬盘、磁带等存储介质不同的是,DNA不需要经常维护。就读取方式而言,DNA存储不涉及兼容问题。
目前的黄金标准是用磁带存储文档,但这需要每5年更新一次,即把文档重新存储到新磁带上。据比尔尼和戈德曼估算,如果打算将一份文档存储600年之久,用磁带存储方法在未来600年内需要更新120次,相比之下,用DNA作为介质存储就比较便宜。
戈德曼指出,DNA分子是一种令人难以置信的密集存储介质,1克DNA存储容量大约与300万张CD相当。他推断,如果人工合成DNA和其测序成本以现有速度持续下降,利用DNA存储数据的商业服务在未来50年内将会迅速成长。“你用电子邮件把有价值的文件、相片和材料寄给家人(或发给DNA存储公司),一天或一周之后,他们将寄回给你一点点DNA。你可以将其放置在冰箱中,或者埋藏于花园里。成千上万年之后它们肯定会依然完好如初。”
比尔尼和戈德曼并不是致力于开发DNA数据存储潜力的唯一生物学家团队。2012年9月,哈佛医学院的遗传学家乔治·丘奇和思瑞拉曼·库苏尔等人曾在《科学》杂志上发表过一篇论文,其中有一段内容描述了同样的存储系统,当时丘奇将书籍《再生》编码到DNA序列中。《自然》杂志团队所存储的数据量稍多一些,且较《科学》杂志团队的做法有所改进。但从总体上来说,两个研究团队的思路相似,都较早先规模较小的研究“向前跨越了一大步。”
DNA存储或将是未来更好的选择
库苏尔指出,该项技术依然处于初期。“就信息存储方式而言,我们的两篇论文依然非常幼稚和简单。”
此外,即便该技术得到快速发展且成本趋向便宜,DNA也有两个“短板”:一是不可重复写入。如果不重复整个合成程序就无法更新信息;二是不允许随意读取。例如,只有将全部文档解码,才能阅读比尔尼所存储文档中的每首莎士比亚十四行诗。
无论如何,目前急切问题是,需要一种新技术来取代现有的数据存储技术。数字宇宙的研究报告显示,截至2011年,人类已创造的数据量达1.8ZB(泽字节),即18万亿亿字节;到2020年,该数字将增加50倍以上。届时,摩尔定律可能将不再适用,它所阐述的趋势——集成电路上可容纳的晶体管数目大约每两年便会增加一倍——可能也会不再延续。据预测,随着集成电路上固定空间内所容纳晶体管数量的不断增加,从现在起“增加一倍”的周期可能会延长至3年。在计算机发展的黄金时代,硅芯片毫无疑问是第一个功臣。但是,DNA或将作为继任者,在未来成为一种更好的选择。