研究人员最近设计了一种通过人工扩展 DNA 字母表来扩展 DNA 数据存储的方法。这是使用 DNA 保存计算机信息的广泛努力的一部分。
“DNA 的密度是最密集的主流数字存储设备的 100 万倍,”华盛顿大学研究 DNA 存储的计算机科学与工程教授 Luis Ceze在电子邮件采访中告诉 Lifewire。
持久存储
DNA 含有四种化学物质——腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶——通常以首字母 A、G、C 和 T 表示。它们将著名的双螺旋组合成科学家可以解码或测序的组合。研究人员通过在现有的四字母序列中添加七个合成核碱基,扩展了 DNA 已经广泛的信息存储容量。
“想象一下英文字母表,”贝克曼先进科学与技术研究所的研究员、这项研究的合著者Kasra Tabataei在新闻发布会上说。“如果你只有四个字母可以使用,你只能创造这么多的单词。如果你有完整的字母表,你可以产生无限的单词组合。这与 DNA 相同。而不是将 0 和 1 转换为 A、G、C和 T,我们可以将零和一转换为 A、G、C、T 以及存储字母表中的七个新字母。”
该研究小组是第一个使用化学修饰的核苷酸在 DNA 中存储信息的人,但他们必须找到一种新的方法来解释它。他们将机器学习和人工智能 (AI) 相结合,开发了一种 DNA 序列读出处理方法,以检测天然化学物质中的改性化学物质。
“我们尝试了 11 种核苷酸的 77 种不同组合,我们的方法能够完美区分它们中的每一种,”伊利诺伊大学厄巴纳-香槟分校的研究生、这项研究的合著者 Chao Pan 在新闻发布。“作为我们识别不同核苷酸方法的一部分,深度学习框架是通用的,这使得我们的方法能够推广到许多其他应用。”
DNA 作为存储介质的优势之一是它的耐用性。“想想 1000 年——记住已经发现的古代 DNA,”Ceze 说。
科学家们可以对化石链进行测序,以揭示遗传历史,并为失落已久的景观注入生命。
“在我们面临前所未有的气候挑战之际,可持续存储技术的重要性不容小觑,”电气和计算机工程教授、该研究的合著者Olgica Milenkovic在新闻稿中说。“用于 DNA 记录的新型绿色技术正在兴起,这将使分子存储在未来变得更加重要。”
存储我们所有的东西
DNA 可能是保存人类迅速增长的数据的理想场所。最近的一份报告估计,到 2020 年,人们产生的数据相当于 4000 亿 TB或 40 个“鞋盒”的 DNA 数据存储。
将您的信息存储在 DNA 上的做法越来越接近现实。“对于小型有价值数据的存储,DNA 在今天是可行的——想想数百个 MB,”Ceze 说。
去年,15 家科技公司和机构组成了一个联盟,以推进 DNA 数据存储。微软表示,它已经展示了一个能够存储和检索 DNA 数据的全自动系统。该公司还在 DNA 中存储了 1GB 数据并进行了恢复。
但 Ceze 预测,DNA 可以与光硬盘等主流备份解决方案竞争还需要 5 到 10 年的时间。在过去三年中,人们对该技术的兴趣激增,
“DNA 永远不会过时,”Ceze 说。“有一个自然的‘气隙’,这对于安全来说是可取的。[但]这些对于长期存储来说是非常可取的特性。”