国家基因库：人类存储健康信息的“生命银行”_工具

深圳市大鹏新区大鹏街道下沙片区禾塘仔，这里依山傍海，环境优美，背山面海的几栋白色的建筑并不起眼，但令人难以置信的是，庞大的数据如同螺旋一般，每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库，也是目前全球最大的综合性基因库。

国家基因库项目一期占地面积475万平方米，拥有基因测序房、超级计算房以及冷冻资源房，相较于其庞大的建筑规模，它丰富的内容更是令人瞠目结舌：国家基因库目前已存储多种生物资源样本1000万份，可检索生物信息条目数已经超过一个亿，我国更是计划把它打造成为中国的诺亚方舟，建立一个巨大的生物活体库，保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头？建立国家基因库的意义何在？下面就让我们一起走进关于国家基因库的专业解读。

图1 位于深圳市大鹏新区的国家基因库一期项目

“干”“湿”“活”三位一体

在我国建立基因库之前，美国、欧洲和日本就已经建立了大型基因数据库，而且这三大库里的生物信息数据几乎涵盖所有已知的脱氧核糖核酸、核糖核酸和蛋白质数据。中国国家基因库与这三大库的不同就在于，它不仅仅是数据库，而是国际上现有的各类生物样本库、数据库、生物多样性库、疾病库等的综合升级版。除了所谓的“干库”，——基因、蛋白、分子、影像等多组学生物信息数据库，和“湿库”——多样性生物样本和物种遗传资源库之外，中国的国家基因库还引入了“活库”，也就是生物活体库，将存储的内容扩展到动物资源、植物资源、微生物资源和海洋资源。同时，该基因库不仅面向科研，还面向推动中国精准医学、精准农业的发展，利用对基因信息的掌控推动产业的发展。

图2 国家基因库中的生物信息数据库

基因的“国库”

2011年，国家发改委等4部委批复同意深圳依托华大基因研究院组建国家基因库，今年9月，国家基因库正式投入运营，这是中国首个获批筹建的国家基因库，同时也是目前为止的唯一一个。

国家基因库有“超测”、“超算”、“超存”的能力：其中，人类资源方面基因库主要保存血液样本、组织样本、细胞系、细胞和尿液等，将为重大疾病的前瞻性研究提供样本资源支撑，为疾病诊断与预测及个性化医疗等奠定基础。在动物资源方面，基因库主要保存珍稀动物及具有重要经济价值的动物组织、细胞等。此外，国家基因库除了存储人类资源、动物资源以外，还存储植物资源、海洋资源和微生物资源。这些都可以为日后的研究工作收集大量的信息。这个建设中的基因“国库”，数据规模到底有多大？打个形象化的比方，目前深圳国家基因库已建成20 Pb数据的可访问能力，以一部**约500Mb计算，20Pb相当于四千万部**，一个人一天看一部**，至少需要10万年才能看完。

存储健康的“生命银行”

2015年1月，美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果，并宣布新的项目——— 精准医疗计划。更有专家表示，精准医疗计划在时间上是承接人类基因组计划，在本质上是对现行的以药物治疗为主体的医疗进行改革。科学家们认为，绝大多数的疾病都可以通过基因测序得以提前防范和管理。那么，基因测序究竟如何“锁定”疾病？以一个形象化的比喻来解释，一个D N A的正常表达可以理解为一段文字，如果该文字中出现一个错别字，可能就失去其正确意义。测序就是要与正常序列比对，找出哪个细胞哪里出错。通过测序结果，分析基因突变的部分，就能够找到某个疾病对应的基因，方便对症下药。事实上，每个人一生中所有关键阶段的标本都应该永久保存起来：比如出生时的干细胞，20岁时的免疫细胞，30岁时的生殖细胞等等……而国家基因库，就是储存这些样本和数据的地方，它就像是人类的“生命银行”一般。通过有意识地存储自己的健康数据，让人们对自己身体变化状况了如指掌，并且根据这些数据设计自己的饮食、运动和生活节奏，“对抗”衰老。

深圳国家基因库建成后，这个巨型“生命银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台，储存和管理中国特有的遗传资源、生物信息和基因数据。同时，以生物资源为依托，形成从资源到科研到产业的全贯穿、全覆盖模式，实现大资源、大数据、大科学、大产业的整合与应用。

图3 国家基因库的工作人员将细胞样品放入液氮中保存

在农业时代，一个国家拥有的耕地越多优势越大；在工业时代，拥有的石油、矿产等能源越多优势越大；而在生命时代，拥有更多基因资源同时能对基因资源进行认知和利用，则意味着更大的优势。国家基因库的成立，正在为我国积累全新的优势。目前，国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系，将在人类健康、生物多样性、生物进化机制等方面开展合作研究。

出品：科普中国

制作：爱科范儿团队

监制：中国科学院计算机网络信息中心

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品，转载请注明出处。

因为数据库系统是死的，需要人工干涉。根据查询相关信息得知，数据库系统的人员主要包括:数据库管理员、系统分析员和数据库设计人员、应用程序员和最终用户，当数据库系统出现bug或者其它问题时，就需要人类修复，系统是没有自行修复功能的。

数据产生方式历经的阶段

人类社会的数据产生方式大致经历了以下3个阶段：

1运营式系统阶段

数据库的出现使得数据管理的复杂度大大降低，实际中数据库大都为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等，人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始，这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中，比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生方式是被动的。

2用户原创内容阶段

互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web20时代，而Web 20 的重要标志就是用户原创内容（User Generated Content，UGC）。这类数据近几年一直呈现爆炸性增长，主要有两个方面的原因。首先，以博客、微博为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈；其次，以智能手机、平板电脑为代表的新型移动设备的出现，这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。

3感知式系统阶段

人类社会数据量第三次大的飞跃最终导致了大数据的产生，今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛布置于社会的运转进行监控。这些设备会源源不断的产生新数据，这种数据的产生方式是自动的。简单来说，数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源，但其中自动式的数据才是大数据产生的根本原因。

以上就是关于国家基因库：人类存储健康信息的“生命银行”全部的内容，包括:国家基因库：人类存储健康信息的“生命银行”、为什么数据库系统要包含人、人类社会的数据产生方式大致经历了哪三个阶段等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9508052.html

国家基因库：人类存储健康信息的“生命银行”

发表评论

评论列表（0条）