【Technews科技新报】人类在储存资料一直面对一个问题:资料在过去两年内储存的数目已经超过以往历史的纪录。资讯的急流有朝一日将会超过目前硬件所能储存的空间。而研究者竟然将脑筋动到大自然最原始的储存硬盘上:DNA。 听起来有点不可思议,但其实用 DNA 储存资料早就不是一件新鲜事了。自有生命以来,万物就开始利用 DNA 当作储存媒介。DNA 就像一座旋转阶梯,当作梯子的就是硷基 ATCG,由这 4 个硷基排列出的序列可以编码所有生命。而科学家尝试做的,就是将数位资讯的 0 和 1 转换成这 4 个字母。 一定会有人觉得何必这么麻烦,那是因为 DNA 有其他硬盘没有的好处,首先它占用的空间极小,而且非常持久,只要保存在冰冷干燥的阴暗处,猛玛象的 DNA 都可以析出并定序。最重要的是,DNA 永不过时,不像 CD 或录音带会没落。 自 2012 年来科学家们一直尝试在用 DNA 储存资料,来自哈佛大学的遗传学家乔治·茄契(George Church)和加州大学洛杉矶分校的生化学家斯理·克苏里(Srirram Kosuri)及他们的团队将 DNA 的 4 个字母──ATCG 录制成数位化的 0 和 1,将一本有 5 万个字母的书转录在上千个片段的 DNA 上。看似成功,但实际上成效非常差,每克 DNA“只能”储存 1.28PB(1PB=1024TB)。使用其他方法也许能再改进一些,但没有人可以达到理想目标的一半。 理想上科学家们究竟要做到多好呢?他们认为每个 DNA 的核甘酸应该可以储存 1.8bits。想必有人会疑惑为何不是整数的 2,因为他们也考量到稀少却无法忽视的 DNA 读取失误。 来自哥伦比亚大学的电脑科学家雅尼夫·埃利希(Yaniv Erlich),仍然坚持他可以更接近这个极限。他和纽约基因体研究中心的副研究员迪娜·资林斯基(Dina Zielinski)将目光转向常用来编码和解锁的算法程序。他们利用 6 个档案,包含了一个完整的电脑运作系统、史上第一部电影《火车进站》……等等,接着将它们转换成二进制,压缩成一个压缩档,在分成数串二进位的代码。最终产生出一股 200 个硷基长、共 7 千股的数位清单。 他们将这些档案传给位于旧金山的生物科技公司 Twist Bioscience,请他们合成出 DNA 序列。两周后,两人就收到一小瓶转录档案的 DNA,为了将它解码,他们利用现代 DNA 定序科技:序列会被送进电脑转换回二进制,并利用标签重组回 6 个原始档。根据埃利希宣称,他们的储存容量效率极佳,每个核甘酸就能编码高达 1.6bits,比其他对手好上 60%,更逼近理想目标的 85%。 然而用 DNA 储存资讯会一直面临一个问题:那就是序列定序同时也会毁损此序列,读取越多,DNA 也会逐渐消失。埃利希说:“假设我们决定编码《Let it Go》这首歌(电影《冰雪奇缘》主题曲),DNA 将会在一周内消耗殆尽。”另外,本质上 DNA 十分容易复制,然而将 DNA 编码的资料备份却是一件琐碎的事,因为每次备份都会有出错的风险。 但埃利希和兹林斯基设计出一种名为“DNA 喷泉”的演算法,可以将他们分类好的二进位代码包装进所谓的“水滴”中,他们还加了额外的标签帮硷基在稍后重新排列成正确顺序。而复制错误的困扰因此迎刃而解,就算复制超过 10 份,他们仍可以完美修复。 巧合地,Netflix 和 Spotify 的串流服务平台也是利用喷泉代码解决相似的问题。做法大致就是将资料划分成“水滴”,只要得到足够的水滴,不管遗失哪部分都可以重新建构所有串流影音。埃利希还将之比喻成一块巨大的数独拼图,只要有些正方形区域,依然可以推断出完整的样貌。 DNA 储存也将会形成主流,而且会越来越便宜。目前 DNA 的定序确实昂贵,直播,合成 DNA 更是所费不赀,但两者的价格一直在跌落。不过就算持续减价,合成 DNA 仍需要一定的技术,因为只有少数工厂支持相关研究的实验室。埃利希预测强况将会扭转,并表示:“别忘了第一部硬盘需要 4 个人才拿得动,经过 10 年已经变成指头大小。尽管目前只有少部分资金投入合成 DNA,atv,但我希望借由更优秀的设备,将 DNA 储存资料的潜能完全激发出来。” 也许在未来的某一天,我们周遭随处可见的硬盘,将被一瓶瓶 DNA 取代。 DNA could store all of the world’s data in one room This Speck of DNA Contains a Movie, a Computer Virus, and an Amazon Gift Card Researchers Store Computer Operating System and Short Movie on DNA (责任编辑:本港台直播) |