欢迎访问 中国直播网!遇见美好,记录事实!Meet the good, record the facts!

中国直播网微博  直播网微博   网站地图   商标版权注册证   直播号入驻

有人把电影塞进了 DNA,算起来 1 克 DNA 能存五百万部高清片|好奇心小数据

2017-03-08 01:08来源:编辑:轩皓宇

人类的第一部电影,现在被储存在了 DNA 里。

最近,哥伦比亚大学和纽约基因组中心(NYGC)的科学家们在《科学》杂志上发表了新的研究,以极高的密度在 DNA 中存储数据,理论上 1 克 DNA 可以存储 2.15 亿 GB 数据,更新了人工 DNA 存储信息的记录。

实验当中,除了世界上第一部电影《火车进站》之外,还有五个文件存储在 DNA 分子内:

  • 一个完整的操作系统(KolibriOS)文件;
  • 一份计算机病毒;
  • 一份先驱者镀金铝板(Pioneer plaque)图片文件;
  • 一份价值 50 美元的亚马逊礼品卡图片文件;
  • 1948 年信息学家克劳德·香农的一篇论文;
  • 几位科学家甚至放出了解码软件(在 GitHub 上提供)和原始输入数据——但他们还玩了一个小游戏,删除了当中储存的亚马逊礼品卡的图片,并挑战同行科学家解码原始数据,获取礼品卡兑换码。

    有人把电影塞进了 DNA,算起来 1 克 DNA 能存五百万部高清片|好奇心小数据

    古老的信息传递物质 DNA,全名是脱氧核糖核酸,是生命生生不息的物质基础。

    自然界中,DNA 由四种核苷酸构成:腺苷酸(AMP)、鸟苷酸(GMP)、胞苷酸(CMP)和胸苷酸(TMP)。这四种核苷酸通过千变万化的排列组合,编码成参差多态的生命形式。

    换言之,DNA 和硬盘驱动器的工作方式类似,只不过后者是用 0 和 1 来存储数据,而前者用四种基本的核苷酸来存储生物体的基因信息。基于之前的研究,中国直播网,DNA 可以人工排列编码,也可以存储二进制信息。

    根据估算,单个人类体细胞中的 DNA 重量约为 6.6 x 10^-12 克,成年人全身上下的 DNA 重量也才约 244 克,个体差异从 66 克到 330 克不等。

    DNA 存储的优势十分明显:首先信息密度巨大,1 个碱基就能储存 1.8 比特数据,1 克 DNA 就相当于一个中型数据中心。

    其次,DNA 储存年代更久远,超过 100 年,中国直播网,并能无限复制。相比磁盘数十年就会性能降低,冰冻的 DNA 甚至能保存数万年。

    第三,DNA 作为自然介质,人类在很长一段时间内都不会失去读取它的能力(如果不发生“第三次世界大战”之类的、让人类文明倒退的灾难)。不像磁带等明日黄花的介质,读取设备已很难见到,只能束之高阁。

    研究人员把这六个文件压缩成一个大小 2.1M 点文件,并分割成 0 和 1 组成的短编码。通过一种叫做喷泉码(fountain code)的容错校正算法,他们将这些二进制代码随机地包装成数据包,并将数据包的 0 和 1 映射到 DNA 的四种核苷酸上,00、01、10、11 分别映射为 A、C、G、T 四种核苷酸。

    喷泉码可以删除错误的编码组合,也可以恢复丢失的编码。同时,算法给数据包添加条形码,这种条形码则可以把二进制代码复原成正确的顺序。读取的过程就是把打散的数据包重新按照顺序排列起来

    他们总共编码了 7.2 万个 DNA 片段,每个片段由 200 个碱基对组成,冗余度仅 7%,约为储存理论最大值的 86%。此时这些片段还是文本文件,将交由旧金山的生物创业公司 Twist Bioscience 来合成实际的 DNA 分子。两周后,一小瓶 DNA 分子寄回到科学家们的手中。

    找回这些文件则很简单——用现在的 DNA 测序技术就行,然后用软件来读取这些数据并重新组合,零差错地解码了这些数据。

    科学家们估计,每克 DNA 可以存储 2.15 亿 GB 数据,这大概是 4574 万张 DVD 的容量,按每部蓝光高清电影 40 GB 来算,1 克 DNA 可以储存 537 万部电影。

    有人把电影塞进了 DNA,算起来 1 克 DNA 能存五百万部高清片|好奇心小数据

    这些数据浓缩了成离心管中的一点点粉末。来自:纽约基因组中心

    DNA 存储技术并非新鲜技术。而新成果的突破在于,喷泉码的容错特性可以减少 DNA 编码的冗余。DNA 存储数据的能力理论上受限于每种碱基对应的 2 个比特,而因为生物特性和读取的需求,需要在片段中加入冗余信息,这使得存储能力降低到每种碱基对应 1.8 个比特。

    Erlich 和 Zielinsk 使用的喷泉码技术将实际存储能力达到这个理论值的 89%,平均每个碱基可以对应 1.6 个比特,这比此前的方法多存储 60% 的数据。

    为什么把 DNA 当成储存介质这件事情最近变得更重要了?

    因为我们正在面临巨大的信息储存问题。根据国际数据公司(IDC)的报告,数字信息的总量每两年就翻一番,到 2020 年,互联网将产生 44ZB (即 44 万亿 GB)的信息。尽管不是所有信息都需要永久存储,浩瀚的数据对存储能力仍然发出了巨大的挑战。

    作为消费者的我们可能觉得无所谓:存到云端就好啦。但所谓“云端”,仍然是服务商的存储设备,例如给苹果 iCloud、 Facebook、Twitter 等大量科技公司提供云服务的亚马逊 AWS。

    对于这些公司来说,找到容量更大的介质是势在必行了,虽然 DNA 因为太贵,技术也还在早期,可能不是第一选择。

    DNA 存储研究都是怎么发展起来的?

    2012.9

    哈佛大学 George Church 和 Sri Kosuri 在 DNA 中编码了 53400 字的书,11张 JPG 图片和 1 个 JavaScript 程序。每克 DNA 存储数据为 128 万 GB。

     

    2013.1

    欧洲生物信息研究所 Nick Goldman 和 Ewan Birney 在 DNA 中编码了《我有一个梦想》的音频、生信研究所的照片、沃森和克里克阐明 DNA 结构的论文、还有莎士比亚所有的十四行诗。

     

    2016

    华盛顿大学和微软合作,编码了一段 OK Go 乐队的 MV、一百多种语言的《世界人权宣言》、古腾堡计划的前 100 本书和作物信托的种子数据库。

     

    2017.2

    #p#分页标题#e#

    哥伦比亚大学 Yaniv Erlich 和纽约基因组中心 Dina Zielinsk 成果发表,也就是我们现在看到的用 DNA 来储存《火车进站》等资料。

     

    用 DNA 来储存数据价格有多贵?

    这次实验中 2 MB 数据的成本约为 7000 美元,但其中包括了质量确认的额外费用,而解码则只花了 2000 美元。这是因为目前 DNA 测序成本大幅下降,而对 DNA 合成的需求并不强烈,所以成本还降不下来。

    其次是时间投入。相比于数字设备的快速存取,DNA 存储需要花很长时间合成,也要花很多时间读取。这意味着,这项技术更适用于资料的存档,而不能满足实时存取的需求,不能像 U 盘那样,随时读取和修改。

    有人把电影塞进了 DNA,算起来 1 克 DNA 能存五百万部高清片|好奇心小数据

    通过进一步的研究,科学家希望最大限度地降低 DNA 合成成本,并提高 DNA 的存储能力,比如采用喷泉码提高容错率。

    更多细节可以在项目网站上看到。也许不久的将来,“绳结记事”将焕发出全新的含义。

    论文 DOI:10.1126 / science.aaj2038

    制图:冯秀霞

    题图:Pixabay

    特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
           版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
           欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.chinazhibo.tv。    

    标签: 电影  
    相关资讯
    热门频道

    热门标签

    CopyRight 2014-2024 中国直播网(直播网)VZHIBO.COM.CN(中國直播網有限公司)

    本站取得授权享有第17448205号“直播网”商标注册证 | 中国直播网投稿公邮:news@newsgo.com

    直播网网站所登载资讯、图集、视频等内容,版权归直播号自媒体平台原作者或投稿人所有,投稿视同本站原创首发,刊发或转载仅限传播目的非本网观点,未经授权请勿转载或商业用途。

    直播网侵权反馈:news@newsgo.com 直播网撤稿函下载如有侵权请来邮说明情况提供相关资料证实,直播网收到后会尽快处理答复。吉公网安备22040002000116 备案号:

    中直网 吉ICP备2023004346号 | 新现场 吉ICP备2020008037号 | 中在线 吉ICP备2020008037号