DNA信息存储系统

【背景】

2017年,全球所有数据预计将增长到16 ZB,即使按现有条件预测改进存储技术,该指数的增长率也很容易就会超过97超人人澡不卡当前的存储能力。目前,DNA合成和测序的能力及成本都不可用于数据存储, 但是,追溯发展历程能看到发生的指数级改善:将它们的成本降低和通量的增长与卡尔森曲线中的摩尔定律进行了比较(图1),测序能力的增长速度比摩尔定律更快。 基因组学和智能药物开发等重要生物技术的应用将继续推动这些改进,最终实现DNA的数据存储。

DNA合成和测序生产力的趋势

DNA存储系统是将编码过的信息以人工合成DNA的形式存储,提供非常密集和耐用的归档存储效率。图2是对DNA存储系统的概述。基于DNA的存储系统被构造为一个key-value存储系统,访问时间为数小时至数天。文中还提出了一种新的编码方式,提供可控的冗余度,为密度提供可靠性,可以极大的增强可扩展性,DNA存储的基本单位是大约100~200个核苷酸长的DNA链,总共能够存储50~100字节。97超人人澡不卡通过分子生物学实验证明了所提出的编码的可行性、 随机访问和鲁棒性。生物技术的发展将给DNA储存更大数据集提供更强的实用性。

DNA存储系统流程图

【方法】

  1. 将各DNA链分离到一系列文库中用于平衡存储密度、可靠性和性能。 最密集的存储方式是将DNA链放置于同一个文库中,但是这种方式不利于存储的可靠性。首先,单个文库需要许多不同的引物来区分所有的密钥,从而增加了两个引物之间的反应几率。第二,单个文库减少了读取过程中抽取随机样本包含的所有所需数据的可能性。 第三,每个密钥使用一个单独的文库,大大降低了存储密度。因此,97超人人澡不卡使用合理大小的文库,并在每个文库中通过将密钥映射到一对PCR引物来实现随机访问。 在写入时,将这些引物加入到链中。在阅读时,使用相同的引物来扩增所需的链。
  2. 写入write(put)过程通过(图3)使用密钥来获得PCR引物序列,确定DNA存储文库中信息所在链的池,低地址段通过分块生成多个索引值。
  3. 接下来,编码数据地址,有效载荷和错误检测码,并附加引物靶序列,以合成最终DNA序列,将所得到的DNA分子存储在存储库中进行归档。
  4. DNA数据存储 “写入”,生成DNA文库

    3.1 通过霍夫曼编码将二进制转换为三进制数字,采用抗同聚物的编码方式将三进制代码0,1,2转化为A、T、C、G四种脱氧核糖核苷酸表示的DNA序列(图4)。其编码规则如图4,根据序列的下一个核苷酸来编码。

    DNA编码原则

    3.2 在翻译成核苷酸之后,将该序列打断成若干DNA片段,并在片段的两端添加引物序列和地址序列。 即每条链包含有效信息区、前向引物、 后向引物和地址信息。

    DNA数据编码格式

    3.3 Goldman编码:采用四倍重复25nt的DNA核苷酸序列,重复25nt出现在四条DNA核苷酸序列有效载荷的1、2、3、4位,每个片段都对应输出编码中的一条;XOR编码:在序列上进行简单的“异或”运算来实现冗余,18禁视频全免费采用异或A⊕B作为A和B两条序列的有效载荷,这会产生一个新的有效载荷,而产生一个新的DNA链。新链的地址块将输入链的地址编码为异或的输入;高地址段用于指示一条链是原始有效载荷还是一条异或链。 该编码方式提供冗余与RAID 5类似:三条线A,B和A⊕B的任意两条都足以恢复第三条。

    Goldman编码与XOR编码

  5. 读取read(get)过程通过(图7)使用密钥来识别与该密钥相关联的池中的PCR引物。 接下来,存储系统从包含存储的数据的DNA池提取样本。 将样品和PCR引物送至PCR仪扩增所需的链。 将最终得到的池测序,读出数据。
  6. DNA数据存储 “读取”
    4.1 这两种编码方式减少测序深度的反应结果类似。 x轴表示所读文件的百分数,y轴表示解码文件的精确度。

    不同测序程度与解码精准度的关系

    4.2 图9表示编码密度(x轴)与解码可靠性(y轴)的关系, 密度以文件被编码的总碱基数来计算。包括三种不同的编码机制:无冗余的简单编码,Goldman编码,以及文中提出的XOR编码。结果显示有图中1和3两种测序程度,简单编码因为没有冗余算法可靠性最低。当测序程度加深,可靠性也加大。当增加了冗余算法(蓝色和绿色线条),编码更具有还原力。密度相同的情况下,测序深度在1的时候Goldman编码还原能力高于XOR编码,因为Goldman编码方式下只要复制而不需要组合然后复制;当测序程度加深,XOR编码还原能力更高,因为在所有原始数据中没有副本的概率显著降低。

    编码数据的可靠性与不同测序程度下存储密度的关系

【结论】

以DNA为介质的存储方式将因其极大地密度和稳定性成为解决存储问题的终极方案,虽然目前由于DNA合成和测序的技术局限,导致无法广泛应用,但随着生物技术行业的进步,DNA的研究在以指数的速度提高。 鉴于硅技术的极限,18禁视频全免费认为混合硅和生化系统值得认真考虑:计算机构建师们也认为把生物分子纳入计算机设计的一个组成部分的时机已经成熟。 基于DNA存储是这个方向的一个典型例子。 生物技术将大大受益于计算机行业开发的硅技术,或许现在是借生物技术行业来推进计算机行业发展最新技术的时候了。

参考文献
Yazdi, S.M., et al., A Rewritable, Random-Access DNA-Based Storage System. Sci Rep, 2015. 5: p. 14138.