B树 即二叉搜索树: 1所有非叶子结点至多拥有两个儿子(Left和Right); 2所有结点存储一个关键字; 3非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果查询关键字比结点关键字小,就进入左儿子;如果比结点关键字大,就进入右儿子;如果左儿子或右儿子的指针为空,则报告找不到相应的关键字; 如果B树的所有非叶子结点的左右子树的结点数目均保持差不多(平衡),那么B树的搜索性能逼近二分查找;但它比连续内存空间的二分查找的优点是,改变B树结构(插入与删除结点)不需要移动大段的内存数据,甚至通常是常数开销; 如: 但B树在经过多次插入与删除后,有可能导致不同的结构: 右边也是一个B树,但它的搜索性能已经是线性的了;同样的关键字集合有可能导致不同的树结构索引;所以,使用B树还要考虑尽可能让B树保持左图的结构,和避免右图的结构,也就是所谓的“平衡”问题; 实际使用的B树都是在原B树的基础上加上平衡算法,即“平衡二叉树”;如何保持B树结点分布均匀的平衡算法是平衡二叉树的关键;平衡算法是一种在B树中插入和删除结点的策略; B-树 是一种多路搜索树(并不是二叉的): 1定义任意非叶子结点最多只有M个儿子;且M>2; 2根结点的儿子数为[2, M]; 3除根结点以外的非叶子结点的儿子数为[M/2, M]; 4每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字) 5非叶子结点的关键字个数=指向儿子的指针个数-1; 6非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1]; 7非叶子结点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]的子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树; 8所有叶子结点位于同一层; 如:(M=3) B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询关键字所属范围的儿子结点;重复,直到所对应的儿子指针为空,或已经是叶子结点;B-树的特性: 1关键字集合分布在整颗树中; 2任何一个关键字出现且只出现在一个结点中; 3搜索有可能在非叶子结点结束; 4其搜索性能等价于在关键字全集内做一次二分查找; 5自动层次控制; 由于限制了除根结点以外的非叶子结点,至少含有M/2个儿子,确保了结点的至少利用率,其最底搜索性能为: 其中,M为设定的非叶子结点最多子树个数,N为关键字总数; 所以B-树的性能总是等价于二分查找(与M值无关),也就没有B树平衡的问题; 由于M/2的限制,在插入结点时,如果结点已满,需要将结点分裂为两个各占M/2的结点;删除结点时,需将两个不足M/2的兄弟结点合并; B+树 B+树是B-树的变体,也是一种多路搜索树: 1其定义基本与B-树同,除了: 2非叶子结点的子树指针与关键字个数相同; 3非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树(B-树是开区间); 5为所有叶子结点增加一个链指针; 6所有关键字都在叶子结点出现; 如:(M=3) B+的搜索与B-树也基本相同,区别是B+树只有达到叶子结点才命中(B-树可以在非叶子结点命中),其性能也等价于在关键字全集做一次二分查找; B+的特性: 1所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的; 2不可能在非叶子结点命中; 3非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层; 4更适合文件索引系统; B树 是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针; B树定义了非叶子结点关键字个数至少为(2/3)M,即块的最低使用率为2/3(代替B+树的1/2); B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针; B树的分裂:当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针; 所以,B树分配新结点的概率比B+树要低,空间使用率更高; 小结 B树:二叉树,每个结点只存储一个关键字,等于则命中,小于走左结点,大于走右结点; B-树:多路搜索树,每个结点存储M/2到M个关键字,非叶子结点存储指向关键字范围的子结点; 所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中; B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中; B树:在B+树基础上,为非叶子结点也增加链表指针,将结点的最低利用率从1/2提高到2/3 见:>
(注意:以下信息来自于美国MedKooBiosciences,Inc。)
1美国国家医学图书馆化学身份z(CHEMIDPLUS)数据库
该网页可检索药物化学结构,本网站可以用药物名称查找其化学结构此外,本数据库还可以查看毒性,理化性质,药品代码等。
2美国国家医学图书馆PUBCHEM数据库可检索药物化学结构
本数据库是美国国家健康研究所(NIH)和美国国家医学图书馆(NLM)的大型药物分子库。NIH是美国医学研究机构,下设27个机构和中心,也是美国健康与人类服务部的一个组成部分。它是一个重要的联邦机构,执行和支持基础、临床及可转化医学研究,调查普通及罕见疾病的原因、治疗及治愈情况。PubChem数据库是美国国家卫生署分子库路线图计划的一个组成部分,是由NIH国家生物技术信心中心开发的一个化学结构及分子生物活性综合数据库
3。美国国家癌症研究所(NCI)抗癌药药物词典
该数据收集了4000多条与癌症医学相关的术语和化合物性质。
4药物合成数据库(Drug)
该数据是这个药物在线网推出的数据库本数据库提供近7000种已上市或在研药物的药物合成相关的信息,如药品名、结构式、化学名、CAS登记号、分子式、分子量、化学活性、开发阶段、研究机构等。最大的优点是快速检索合成路线,并给出参考文献来源。
检索条件支持模糊查询,各输入条件间的检索关系为逻辑与(即AND关系)。检索条件选择其一即可查询。检索方法包括:
药物名称:(注:包含通用名、商标名、研发代号、异名等)。如Loratadine、Cefpirome
化学名称:(注:包含CA命名、普通命名等)。
CAS登记号:(注:美国化学文摘登记号)。
5有机合成方法数据库
Since1921,hasprovidedthechemistrycommunitywithannualcollectionsofdetailed,reliable,andcarefullycheckedproceresforthesynthesisoforganiccompoundsSomeproceresdescribepracticalmethodsforofspecificcompoundsofinterest,whileotherimportantsyntheticmethodswithgeneralutilityEachprocereiswritteninmoredetailascomparedtotypicalinotherjournals,andeachreactionandalldatahasbeencarefullycheckedforinthelaboratoryofamemberoftheBoardofEditors
Organicmaybeaessedeitherviathetablesofcontentsof(journalmode)orbyconctingstructureand(databasemode)SpecificindivialprocerescanbeaessedviathetableofcontentsforeithertheoriginalannualvolumevolumeinwhichtheprocereappearedDatabasemodeallowsuserstosearchallvolumesofOrganicSynthesesbykeywordsorbyinputtingstructuresandStructuretheChemDrawpluginwhichcanbedownloadedaordingtofoundintheleftmarginArticlesfromfuturevolumesofOrganicSynthesesthatarenotyetincorporatedinthesearchabledatabasecanbeaessedontheOrgSynExpresspage
6有机合成人名反应
该数据库是药物在线网推出的数据库TheOrganicNameReactions(ONR)sectionisintendedtoservetheprofessionalchemistandstudentbydescribingorganicchemicalreactionswhichhavecometoberecognizedandreferredtobynamewithinthechemistrycommunityAselectgrouphasbeenchosenforadditiontothissectionEachreactiondescriptionisdesignedtobeinformativeandrepresentativeofthepertinentliterature;however,itisnotmeanttobecomprehensiveThedescriptionsarecomposedofthefollowing:(1)name(s)associatedwiththereaction,(2)theoriginaland/orprimarycontributor(s)connectedwiththediscoveryand/ordevelopmentofthereaction,(3)aconcisedescriptionofthetransformation,(4)areactionscheme,(5)keyreferences,and(6)crossreferencestootherONRbasedoncommonalitiesTheindexincludedinthissectionalsolistssupplementaryterms
7有机合成反应库
该数据可是这个药物在线网推出的数据库含有400多个有机合成人名反应。
8化学物质索引数据库(ChemicalIndexDatabase)
该数据库是药物在线网推出的数据库。本数据库为化学物质特性数据库,包含大量具药理活性及生物活性的物质性质信息数据。检索条件支持模糊查询,各输入条件间的检索关系为逻辑与(即AND关系)。化学结构式为矢量格式,可利用系统自带预览工具或支持该格式的工具进行无损缩放查看。检索结果包括:(a)索引信息:如物质名称、化学结构式图、化学文摘登记号(CAS)、CA名称、商标名、化学结构式、分子式、分子量、元素组成等。(b)参考文献:提供公开物质理化性质、制备方法、分析方法、药理药效、临床研究等的重要期刊、专利、综述等极具参考价值的文献。(c)物质特性:包括理化特性数据,如熔点、沸点、闪点、溶解性、多晶物质状态、光谱吸收特征数据、药物治疗分类等
其检索的方法有:
物质名称(英文名):(包含化学名、通用名、商标名、异名等的全名或部分(大于3个字符),如Ceftriaxone,Adefovir)
CA登记号(CASRegistryNumber):
注:美国化学文摘登记号
参考文献(LiteratureReferences)
药理活性(Keywords)
用途(Usages)
治疗分类(TherapeuticCategory)
分子式(MolecularFormula)
分子量(MolecularWeight)
熔点(MeltingPoint)
注:熔点值,以摄氏度为单位
沸点(BoilingPoint)
注:沸点值,以摄氏度为单位
解离常数(pKa)
比旋度(OpticalRotation)
油水分配系数(LogP)
最大吸收值(AbsorptionMaximum)
密度(Density)
折光率(IndexofRefraction)
毒性数据(Toxicity)
寒区旱区特色数据库为开展西部高寒、干旱特殊环境下的高原大气、水土资源、脆弱生态等提供基础数据,特色数据的充分共享和有效利用能有效促进学科发展。 寒区旱区特色数据库(以下简称特色数据库)以探索寒区旱区陆地表层系统的过程、尺度、格局及其相互关系为基础,以开展环境与全球变化及区域可持续发展研究服务为主,特色数据的充分共享和利用能有效促进学科发展。为开展西部高寒、干旱特殊环境下的冰川、冻土、沙漠、高原大气、水土资源、脆弱生态与农业研究提供基础数据,为西部国土资源合理开发利用、环境保护与工程建设提供决策数据; 为寒区旱区人地关系、资源利用、生态建设与社会经济可持续发展提供研究数据。
数据资源分类及管理结构
从数据管理的角度将数据分为原始数据、关系型数据、二进制数据、文本型数据、图形图像和空间数据。从突出特色和应用服务角度,可将数据分为气象、人文地理、自然资源、社会经济、土地利用、冰冻圈、水文(分地表水和地下水)、辐射收支、大气成分、土壤与植被资源、生态环境、气候环境、地理环境、地质环境、沙漠及沙漠化、社会经济等。
依据以上数据分类将研究课题、研究项目、定位观测站、定点观测、野外考察、交流等具体项目数据作为一级数据来源,建立一级分布式数据子库,形成二级数据库群建立的数据基础。为方便应用,将数据在一级数据库群的基础上,按照研究专业特点提炼为: 冰川数据库(极地冰川与海冰、山岳冰川与雪)、冻土数据(多年冻土、季节冻土)、大气数据(高原大气和陆面)、土壤数据、沙漠数据(沙漠与沙漠化、沙尘暴)、水文数据(地表水、地下水)、生态数据(寒区生态、旱区生态)、雷电数据(雷电观测与强对流、人工引雷与影响天气)、社会经济数据等。由这些分类数据库构成二级数据库群,并由二级数据库群构成特色数据集,以高性能计算机曙光3000为核心进行管理。
数据抽象 特色数据库分为三层数据抽象。底层数据集是物理上实际存储的各类关系型数据,非关系型数据存放在磁盘上的分类目录中。数据集是整个特色数据库的基础与核心,含有大量必要的数据分类及其他数据属性,是数据库的数据资源所在。数据集建设基本思想就是依据数据分类,将所有数据资源以更小的、用户容易 *** 作的单位来进行细化,将这种最小单位所表示数据资源的元素称之为数据集。每个数据集包含多个物理数据资源表(关系表和磁盘文件),是特色数据库的基础数据层。也是二、三级数据库群和数据库应用系统建设的基础。所有不同层次的数据抽象及其相互的逻辑关系都建立在数据集群的属性上。
第二层是逻辑子库层,由抽象出的物理上实际相互独立的不同数据集,按数据来源构建。这里所谓的逻辑子库群是按研究课题、研究项目、定位观测站、定点观测、野外考察和交流等具体项目来划分的,为不同的项目、课题和观测站、点分别建立各自的专业子数据库。二级数据库群是在一级数据库群的基础上以不同的课题、台站以及项目为类型所抽象出来的。
第三层是逻辑类数据库群(逻辑数据库),是在第一、二逻辑抽象层的基础上的再一次的数据按学科归类抽象。一、二级数据库群的建设是以三级数据库群为目标的。一级数据库群中的数据集将包含多个三级数据库群的属性。总之,三级数据库群数据的不同分类标准是在建设一、二级数据库群时就要建好的,且后期也不会有较大的变动。如果数据分类的标准发生变化时,三级数据库群要做相应的变化。
数据的管理 按照数据的分类和层次抽象以及用户如何使用数据,可实现数据库及表设计。数据按原始数据、关系型数据、二进制(图形图像文件)、多媒体、文本数据、空间数据进行管理。
原始数据是指从科研第一线提交上来的第一手数据(包括数据、应用程序、说明文档等)。这类数据主要以磁盘目录文件的方式进行管理,将不同的科研数据详细分类,在磁盘上建立相应目录,运行磁盘目录遍历程序将磁盘文件路径读出,并写入相应数据库表中,建立逻辑数据库,为用户下载提供服务。
关系型数据入库前,需要人工作一些适当的修正(增加一些必要的属性字段,去掉不合理的字段),采用Oracle9i管理。为了提供不同的数据服务格式,需要对数据的 *** 作和访问细化到每一个表字段上。
图形图像、多媒体、文本数据的管理。文本分为能够生成关系的简单文本数据和可用excel分析的图形文件,这类文件不是很大,易通过程序提取关系,生成表数据字段,可以在内存中生成文本文件和图像(用户只需要选择要生成图像的字段列)展示给用户; 二是那些难以生成关系的复杂文本数据和大图像,采用数据、应用程序和图像关联的方式以文本文件集和图形图像集的方式存储在相应磁盘目录中,按照原始数据和关系数据的管理方式管理。
空间数据的管理。空间数据主要是空间遥感数据、地理信息数据,采用两种方式管理。一种是以Arc/Info的Coverage,ArcView的Shape文件形式管理; 另一种是采用Oracle Spatial管理空间数据管理。
数据服务结构
服务分管理服务和用户服务。
管理服务主要将数字化的数据进行分析、校正并按照规范进行组织。将数据按照数据集、专业子库、分类数据库三级数据库体系结构进行管理,通过物理层面的数据集来形成逻辑层面的专业子库和分类数据库管理与服务系统。管理服务遵循权利与义务对等的原则积极开展数据共享与数据发布,遵循谁发布谁享有所有权,享有其他数据的优先使用权。按照用户类别,确定访问的数据范围; 在数据作者许可的前提下,尽可能广泛地开展共享服务,但数据用户要尊重数据发布作者的知识产权。
用户服务将基于共享网络技术,以学科分类、地域分类、时间分类、数据格式分类等提供逻辑组合的数据快速查询和下载服务,开展网络数据库的多维可视化动态网上发布技术服务,促进数据库的充分共享和有效利用,充分发挥数据的科学价值。
寒区旱区特色数据中心的建设遵循开放、自愿原则。为确保数据作者的知识产权,充分调动数据作者对所有数据的发布积极性,促进寒区旱区特色数据库建设的广泛性,数据库管理系统要求数据使用者将数据的使用情况反馈给数据发布者,在利用中心数据的研究成果中体现数据作者。数据中心跟踪数据的流向与使用,建立数据使用者与数据发布者之间的联系,分析数据使用的频度,根据反馈信息,改进数据服务方式,加强数据服务力度。
系统充分考虑了基于以上管理和服务的原则,从用户和数据的管理都做了多层安全设计,管理人员(包括数据所有者)有权对数据进行必要的管理。数据分完全公开、时效保护和项目共享三种类型。数据用户分科研处、所内研究人员、国内研究单位及非营利性机构、国外研究单位及非营利性机构和其他用户五类。设计了逻辑子库的创建、编辑和删除以及相关设置,数据集的创建、编辑和删除,向数据集添加表/文件、日志; 元数据的创建、编辑和删除,数据集的共享/发布、审批、跟踪核实等功能。
作者简介:张耀南
博士、研究员。就职于中国科学院寒区旱区环境与工程研究所,任计算机网络室主任、甘肃省高性能网格计算中心主任、中国科技网兰州节点中心主任、中国高性能计算专业委员会委员、甘肃省互联网协会常务理事、九三甘肃省委员会委员、九三中国科学院兰州分院委员会主任委员、中国计算机协会高级会员。
数据是构建知识大厦的基石。在全球化日益发展的今天,科技数据共享成为科技合作的一种基本形式。面对通过实验、观测和模拟获取的大量数据,科学家们需要新的信息技术手段来完成数据的采集、加工、存储、分析和发布。
数据建设和应用是第20届CODATA国际学术大会关注的重点领域之一。大会设有“数据、信息技术和数据应用”专题研讨会。届时,来自美国加州大学圣地亚哥分校、美国国家科学基金会美国约翰斯霍普金斯大学等机构的科学家将和与会者分享科技数据在材料科学、天文学和地球科学等领域的建设和应用心得。CODATA中委会成立十几年来,我国科研人员陆续组建了九个科技数据协作组,学科领域涵盖: 基本常数、化学化工、材料、核数据、原子分子、生物、环境、地学、机械结构与设计。
以上就是关于举例说明oracle数据库中B树索引的基本组织结构全部的内容,包括:举例说明oracle数据库中B树索引的基本组织结构、分子数据库的概述(数据库原子性)、寒区旱区数据管理平台:寒旱所等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)