人类的第一部电影,现在被储存在了 DNA 里。
最近,哥伦比亚大学和纽约基因组中心(NYGC)的科学家们在《科学》杂志上发表了新的研究,以极高的密度在 DNA 中存储数据,理论上 1 克 DNA 可以存储 2.15 亿 GB 数据,更新了人工 DNA 存储信息的记录。
实验当中,除了世界上第一部电影《火车进站》之外,还有五个文件存储在 DNA 分子内:
几位科学家甚至放出了解码软件(在 GitHub 上提供)和原始输入数据——但他们还玩了一个小游戏,删除了当中储存的亚马逊礼品卡的图片,并挑战同行科学家解码原始数据,获取礼品卡兑换码。
古老的信息传递物质 DNA,全名是脱氧核糖核酸,是生命生生不息的物质基础。
自然界中,DNA 由四种核苷酸构成:腺苷酸(AMP)、鸟苷酸(GMP)、胞苷酸(CMP)和胸苷酸(TMP)。这四种核苷酸通过千变万化的排列组合,编码成参差多态的生命形式。
换言之,DNA 和硬盘驱动器的工作方式类似,只不过后者是用 0 和 1 来存储数据,而前者用四种基本的核苷酸来存储生物体的基因信息。基于之前的研究,中国直播网,DNA 可以人工排列编码,也可以存储二进制信息。
根据估算,单个人类体细胞中的 DNA 重量约为 6.6 x 10^-12 克,成年人全身上下的 DNA 重量也才约 244 克,个体差异从 66 克到 330 克不等。
DNA 存储的优势十分明显:首先信息密度巨大,1 个碱基就能储存 1.8 比特数据,1 克 DNA 就相当于一个中型数据中心。
其次,DNA 储存年代更久远,超过 100 年,中国直播网,并能无限复制。相比磁盘数十年就会性能降低,冰冻的 DNA 甚至能保存数万年。
第三,DNA 作为自然介质,人类在很长一段时间内都不会失去读取它的能力(如果不发生“第三次世界大战”之类的、让人类文明倒退的灾难)。不像磁带等明日黄花的介质,读取设备已很难见到,只能束之高阁。
研究人员把这六个文件压缩成一个大小 2.1M 点文件,并分割成 0 和 1 组成的短编码。通过一种叫做喷泉码(fountain code)的容错校正算法,他们将这些二进制代码随机地包装成数据包,并将数据包的 0 和 1 映射到 DNA 的四种核苷酸上,00、01、10、11 分别映射为 A、C、G、T 四种核苷酸。
喷泉码可以删除错误的编码组合,也可以恢复丢失的编码。同时,算法给数据包添加条形码,这种条形码则可以把二进制代码复原成正确的顺序。读取的过程就是把打散的数据包重新按照顺序排列起来。
他们总共编码了 7.2 万个 DNA 片段,每个片段由 200 个碱基对组成,冗余度仅 7%,约为储存理论最大值的 86%。此时这些片段还是文本文件,将交由旧金山的生物创业公司 Twist Bioscience 来合成实际的 DNA 分子。两周后,一小瓶 DNA 分子寄回到科学家们的手中。
找回这些文件则很简单——用现在的 DNA 测序技术就行,然后用软件来读取这些数据并重新组合,零差错地解码了这些数据。
科学家们估计,每克 DNA 可以存储 2.15 亿 GB 数据,这大概是 4574 万张 DVD 的容量,按每部蓝光高清电影 40 GB 来算,1 克 DNA 可以储存 537 万部电影。
DNA 存储技术并非新鲜技术。而新成果的突破在于,喷泉码的容错特性可以减少 DNA 编码的冗余。DNA 存储数据的能力理论上受限于每种碱基对应的 2 个比特,而因为生物特性和读取的需求,需要在片段中加入冗余信息,这使得存储能力降低到每种碱基对应 1.8 个比特。
Erlich 和 Zielinsk 使用的喷泉码技术将实际存储能力达到这个理论值的 89%,平均每个碱基可以对应 1.6 个比特,这比此前的方法多存储 60% 的数据。
为什么把 DNA 当成储存介质这件事情最近变得更重要了?
因为我们正在面临巨大的信息储存问题。根据国际数据公司(IDC)的报告,数字信息的总量每两年就翻一番,到 2020 年,互联网将产生 44ZB (即 44 万亿 GB)的信息。尽管不是所有信息都需要永久存储,浩瀚的数据对存储能力仍然发出了巨大的挑战。
作为消费者的我们可能觉得无所谓:存到云端就好啦。但所谓“云端”,仍然是服务商的存储设备,例如给苹果 iCloud、 Facebook、Twitter 等大量科技公司提供云服务的亚马逊 AWS。
对于这些公司来说,找到容量更大的介质是势在必行了,虽然 DNA 因为太贵,技术也还在早期,可能不是第一选择。
DNA 存储研究都是怎么发展起来的?
2012.9
哈佛大学 George Church 和 Sri Kosuri 在 DNA 中编码了 53400 字的书,11张 JPG 图片和 1 个 JavaScript 程序。每克 DNA 存储数据为 128 万 GB。
2013.1
欧洲生物信息研究所 Nick Goldman 和 Ewan Birney 在 DNA 中编码了《我有一个梦想》的音频、生信研究所的照片、沃森和克里克阐明 DNA 结构的论文、还有莎士比亚所有的十四行诗。
2016
华盛顿大学和微软合作,编码了一段 OK Go 乐队的 MV、一百多种语言的《世界人权宣言》、古腾堡计划的前 100 本书和作物信托的种子数据库。
2017.2
#p#分页标题#e#哥伦比亚大学 Yaniv Erlich 和纽约基因组中心 Dina Zielinsk 成果发表,也就是我们现在看到的用 DNA 来储存《火车进站》等资料。
用 DNA 来储存数据价格有多贵?
这次实验中 2 MB 数据的成本约为 7000 美元,但其中包括了质量确认的额外费用,而解码则只花了 2000 美元。这是因为目前 DNA 测序成本大幅下降,而对 DNA 合成的需求并不强烈,所以成本还降不下来。
其次是时间投入。相比于数字设备的快速存取,DNA 存储需要花很长时间合成,也要花很多时间读取。这意味着,这项技术更适用于资料的存档,而不能满足实时存取的需求,不能像 U 盘那样,随时读取和修改。
通过进一步的研究,科学家希望最大限度地降低 DNA 合成成本,并提高 DNA 的存储能力,比如采用喷泉码提高容错率。
更多细节可以在项目网站上看到。也许不久的将来,“绳结记事”将焕发出全新的含义。
论文 DOI:10.1126 / science.aaj2038
制图:冯秀霞
题图:Pixabay
特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.chinazhibo.tv。