DNA存储在大数据时代似乎很适合作为冷存储介质,但是真的那么简单吗?微软和华盛顿大学分子信息系统实验室(MISL)合作,成功在DNA上记录下了200.2MB的数据。根据双方在《自然》杂志上发表的学术论文来看,这种存储方式优势很多,如存储可达千年,但它也存在不明朗和不靠谱因素。
DNA存储并不是真的用人或者动物作为存储介质,而是通过DNA中的G、T、A和C4中碱基代表二进制数据(0、1、2、3),将二进制文件通过编码映射成DNA里面的A、T、G和C碱基序列,再通过人工合成技术形成长链DNA来实现数据的存储。
所以数据写入即人工合成DNA,数据读取即DNA测序,数据拷贝即DNA复制。理论上,1克的DNA能够存储455EB的数据。目前这种技术还处在实验探索阶段。比如:微软和华盛顿大学分子信息系统实验室合作就成功将200.2MB的数据存储在了DNA上,而这个过程耗资大约80万美元。
200MB的数据存储需要耗资80万美元,目前这种价格显然还不具备平民化的特点。但是很多科技公司依然认为这是一个值得研究的方向。
尽管成本高好,但是DNA存储优势也十分明显:DNA存储时间也很长,在干冷条件下,可保持100万年以上,常温下可保持2000年以上,常温保存能耗很低,基本不需要电力。也就是说,初始投资高,但是存储量大,存储过程中能耗、运维成本不高。
按照目前的DNA碱基价格来看,每个碱基为0.04美分的价格依然让人望而却步。任何存储技术除了数据存储之外,更重要的还需要解决存储的传输方式、纠错能力等问题。而这也是笔者认为DNA存储未来依旧不明朗的重要原因。
目前普通机械硬盘的读写速度一般是每秒7200转(90-100mb每秒),而SSD的速度要更快,达到每秒300-500MB。相比之下,DNA的合成速度一般为每秒1000碱基,即20MB数据的复制需要将近1天的时间。不仅如此,目前的技术水平只能在实验室中合成很小的数据,大规模碱基合成需要在专门的基因合成服务公司实现。
即便解决了存储/复制(合成)问题,那么在读取时如何能够做到随机读取呢?以目前的技术来看,微软与华盛顿大学采用了"Primer"引子的方式,标记了每一个文件在DNA序列上的地址,在读取时,能够快速跳到某个位置进行读取。但是这种定位依然不够精确,而且效率很低。
DNA存储因为上面的这些特点,显然更适用于冷存储的应用场景,但是由于上面的两高一难问题,笔者认为DNA存储未来不够明朗。同样值得注意的是,如果DNA存储大规模应用,从个体来讲,每个人都可以随身携带大量存储数据自由行动,每个人都是"云硬盘",这种技术可如果应用在军工等领域,将会带来颠覆性改变。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)