科技前沿

MIT科学家研发新型DNA存储技术

  

      近日,麻省理工学院(MIT)科学家研发出一种新型 DNA 存储技术,该技术可从大规模数据库中检索和标记 DNA 数据文件,实现了将数据存储为 DNA 形式的可能。

 


 图 | 相关论文(来源:Nature Materials )


       该团队表示,他们可将图像和文本页面编码为 DNA,但是要突破从众多 DNA 片段的混合物中挑选出所需文件,即检索功能的技术壁垒。据悉,研究人员以 DNA 形式存储数据需要一种约 6 微米大的二氧化硅颗粒,然后把数据文件固定在二氧化硅颗粒中,接下来用短 DNA 序列对文件进行标记。其中,每个颗粒都标有与文件内容相对应的单链 DNA “条形码”。用这种方法能从最多 1020 张图像中准确提取出单个图像。
这带来的好处非常显著,应用潜力也很巨大。包括提高大规模数据存储的效率、节省公共资源、极大提升信息运输与流通速度等,还包括对诸多专业领域的促进,如以核酸为代表的生命科学在交叉学科的应用、机密信息的安全储备、以及环境保护等。
      目前 DNA 存储数据的访问速度尚远不及硬盘,数据读写成本较高,该成果的优势在于数据存储的稳定性,因此较适合于冷数据。为了考察新方法的读取速度,MIT 团队将 20 个不同的图片编码到大约 3000 个核苷酸长的 DNA 片段中,大小相当于大约 100 个字节。

 

 
 (来源:Nature Materials )

       这些图片包含猫、老虎、飞机和人物照等,因此研究人员给每张图都设置了相对应的条形码。当提取特定图像时,首先需要移除 DNA 样本,然后添加与一定的标签,比如老虎照片对应的标签是 “猫科动物”“橘色” 和 “野生”,猫照片对应的标签是 “猫”“橘色” 和 “家养”。
 


图 | 测试用使用的图片(来源:Nature Materials )

       研究人员用荧光、或磁性颗粒来标记这些引物(primer),为的是方便从样本中取出、并识别对应的匹配物。这时,需要的文件就可以被删除,而剩下的 DNA 文件毫无损伤,并能被完整地放回原处。该检索过程还支持布尔逻辑(Boolean algebra)搜索查询,在概念验证阶段,搜索速度是每秒 1KB,搜索速度由每个胶囊的数据大小决定。
这等于提供了一种更加便捷的检索策略,使得我们在查找信息的时候,可以更加容易找到具体的信息点,而不是像过去那样通过 PCR( polymerase chain reaction 聚合酶链反应)来在全 DNA 上进行搜索。换句话,这种新策略使得数据定位更加容易,可以针对性地提取信息。
      目前,这种新技术成本非常高昂,写 1PB 数据(100 万 GB)需要花费 1 万亿美元。如果想比普通用于存储数据的磁带更具竞争力,该团队认为成本还需要降低约 6 个数量级。他们认为,这预计能在 10 年或 20 年内实现,因为过去几十年存储信息的成本一直在大幅下降。另一个主要瓶颈,是这种技术难以从其他文件中挑选出想要的文件。当下,人们通常使用 PCR 来检索 DNA 文件,每个 DNA 数据文件都包含一个与特定 PCR 引物结合的序列。要想提取特定文件,就得把该引物添加到样本中以查找和扩增所需序列。然而,这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰,导致不需要的文件被拉出。此外,PCR 检索过程需要酶,最终会消耗池中的大部分 DNA,因为所有其他 DNA 都没有被放大,这是能做的就是把它扔掉。
      另据悉,该团队计划将这种 DNA 封装技术用于存储 “冷” 数据,即保存在档案中的不经常访问的数据。这主要是因为 DNA 存储技术不成熟,具体地说是 DNA 保存技术。DNA 很容易发生降解,除了会受到温度影响,化学因素比如储存 DNA 的溶液等都会致其发生降解,而一旦降解,这些物质就彻底成为杂乱无章的信息。此外反复访问同样会对 DNA 进行处理,最终导致 DNA 自身的不稳定。该技术的 “数据检索” 环节依赖于荧光激活分类,限制了数据检索及读取的速度与效率,因此该技术不适用于读取 “热数据”,即存储后被高频次访问的数据,并且读取速度较传统硬盘也不具备优势。但如日后能在这些环节有所突破,则将是另一次质的进步。