提供WWW服务的JAFOV数据库

提供WWW服务的JAFOV数据库,第1张

KYamamoto

(Koka Women's College,38 Kadonocho,Nishikyogoku,Ukyo,Kyoto 571,Japan)

NNishiwaki

(Nara University,1500 Misasagicho,Nara 631,Japan)

摘要 JAFOV是一个描述日本脊椎动物化石标本的数据,存储了大约4500个标本的有关数据。数据库于1982年建立在日本Kyoto大学数据处理中心的大型机上,并以联机形式提供对外服务。这个系统使用不方便且图像处理功能弱,因此我们试图运用>

关键词 数据库 化石 脊椎动物 标本 因特网 >

1 引言

JAFOV是日本脊椎动物化石标本数据库。它于1982年建成,记录了大约4500个标本的描述数据。数据库存放在日本Kyoto大学数据处理中心的大型机上,以联机数据库的形式提供对外服务。然而,数据库还存在一些问题,如不易使用、图像(标本的照片或草图)联机处理功能弱等。

在本项研究中,我们试着应用>

在本项研究中,对要开发的目标系统有以下几点要求:

(1)数据检索可以通过>

(2)能处理的数据不仅包括文档和数字,还应包括化石的图像;

(3)检索到的数据能直接在终端上显示、打印或下载到用户计算机上。

2 JAFOV简介

21 数据库内容

名字JAFOV来源于jApanese FOssil Vertebrate(日本脊椎动物化石)的缩写。它是一个由日本脊椎动物化石标本描述的数据组成的数据库。JAFOV数据库的内容包括化石标本的文档、数字和图像数据,见图1。不过到目前为止,只有文档数据已经入库,而由于某些原因(主要是技术上的),数据库还远没有实现。

图1 JAFOV数据库的原始设计

JAFOV使用一个称为FAIRS的DBMS层次模型。它专为富士通公司制造的大型计算机而设计。这个DBMS适合于文档数据库,如正在使用的JAFOV,它为那些作为查找关键词而经常使用的数据项生成一个倒排文件以加速查找过程。这个模型不适合于处理数字和图像数据。

JAFOV由41个数据项(表1)组成,内容包括标本的描述、地理位置、地质层位、保管人及其它有关信息等。它们被归类为8个组,即:名字、类属、产地、化石形成层位、地质年龄、化石区段、标本保管人和相关参考书目。其中一部分数据项被定义为查找键,其余除少量仅供输出外,均作为文本数据项进行查找。

表1 JAFOV数据库中的数据项

大部分数据项的值直接从原始数据输入,其余则通过使用字典和/或转换表从其它数据项获取值。如转换表中箭头所示,有一些数据项的值通过已有的转换表生成,还有一些则从父数据项中摘取生成。这些数据项的存在减少了数据输入工作量并大大降低了数据出错率。

22 数据库结构

JAFOV数据库由JAFOV工作组建立和维护,它是日本脊椎动物化石学家协会(AVPJ)下的一个志愿小组。

建立JAFOV数据库的过程如图2所示。原始数据由日本的古生物研究所(所)及博物馆的志愿者提供。他们填写有关他们标本的数据采集单并交给工作组。工作组检查数据单并把内容输入到计算机形成原始计算机数据,由计算机的数据转换程序自动把它转换成JAFOV需要的输入数据。在这个过程中,一些数据项的数据通过参照从代码表得到的字典文件被生成,另一些项的数据则从父数据项中摘取。随后以JAFOV的格式打印出数据列表,并送回给数据提供者作校验。如果需要,原始计算机数据还将根据数据提供者的规范要求进行校正。此后,JAFOV的输入数据准备完毕,DBMS根据其数据定义将输入数据送到JAFOV。到这个时候,数据库中建立了两个文件:数据文件和它的倒排文件。

图2 建立JAFOV数据库的过程

23 当前提供服务的方式

目前,JAFOV作为联机数据库已经运行于Kyoto大学数据处理中心的大型机上,提供服务的主要方式见图3。可以通过直接或间接(即通过其它计算中心)联接到中心的一台终端来使用数据库。几年前因特网尚未建成,对数据库的存取只能通过连接在大学计算机互联网络(NACSIS)上的计算中心进行,而且还要对用户进行验证和收费。

图3 当前JAFOV提供服务的方式

图4显示的是目前JAFOV的使用方法。用户使用telnet将终端直接或通过前面提及的其它计算中心间接地连接到Kyoto大学数据处理中心的主计算机上,以telnet方式登录计算机,然后使用图中所示命令交互式地查询他需要的数据。

3 >

31 需要改进的地方及解决方法

现行的JAFOV系统有许多有待改进的问题,尤其是其服务方式。系统的使用应该更加容易、更加广泛,并且还应提供除文档处理以外的数据处理能力。存在的主要问题包括:

(1)不友好的用户界面:现在的用户界面是命令行方式(如图4),对研究人员很不方便;

图4 当前JAFOV的使用方式

(2)服务受限制:使用JAFOV之前需要注册到NACSIS的某一计算中心,也就是说只有注册的用户才能使用数据库;

(3)建立和维护多媒体数据库困难;

(4)在大型机上建立和维护JAFOV成本太高。

而>

(1)可以使用>

(2)通过因特网进行二进制数据变换很方便;

(3)提供很好的图像文件显示;

(4)通过因特网可以实现更广范围的存取。

为此,我们试着开发了JAFOV的一个>

图5 JAFOV的>

32 JAFOV的>

JAFOV的>

图6 JAFOV的>

图7 查询JAFOV得到的结果记录列表

图8 记录的内容

上例显示的查找过程与图4所示例子相同。毫无疑问,这里显示的方法比当前正在使用的方法对用户要友好得多。

33 >

在本项研究中,我们开发了一个原始DBMS,并以此建立了>

图9 >

主文件是一个文本型简单文件,其中定义了数据项/域。它由“项/域定义记录”和“标本数据记录”组成。项/域定义记录以CSV(即以逗号分隔的变量)的形式置于文件的第一个记录。接下去是与项/域定义记录有相同格式和顺序的标本数据记录。一个标本使用一个记录。文件可以由任意一种文本编辑器生成。

在检索生成的页面中,图像和文本文件以超文本形式连接起来。页面中嵌入了一个标志,它连接到图像或文本文件。当点取该标志时可以显示与之连接的图像或长文本数据。标志在页面上以可点取的按钮形式显示。

34 系统的查找过程

一般说来,>

图10 通过>

图11显示的是我们开发的系统中数据库检索及结果显示的机理。系统基本上使用CGI接口。首先,用户输入的条件通过CGI送到数据检索模块。模块在数据主文件中查找数据,并生成一个临时文件和一个HTML文件,检索到的记录在HTML文件中以可点取按钮(图7)的形式列出来。检索中可以使用多个查找条件,但条件之间只能是“与”的关系。

然后服务器把模块生成的HTML文件送回客户端。用户可以用鼠标单击记录以显示查到的详细资料。当单击任一标本登记号时,信息也是通过CGI送到显示模块。模块使用选定的文件生成HTML格式的显示页面,并将它送回客户端。于是,与记录有关的图像就通过相应的文件名连接到页面上。

图6~8是执行检索的一个例子。图6是用户输入查询条件的页面,即首页。图7是输入条件为“‘名字’中包含‘NAUMANNI’”时获得的查询结果。查询得到了两个标本并显示为图中可点取的按钮。这一页通过图11中的数据查询模块生成。同时,检索到的数据其全部内容保存在图11中的选定数据文件中。图8是单击图7中按钮后显示的记录内容。这一页通过图11中的显示模块生成,它从选定文件中检索出数据并使用一个模板来生成本页。

4 结论

在本项研究中,我们通过使用>

(1)显著改善了用户界面,用户对系统的使用更加方便;

(2)使用数据库的范围变得更为广泛,因为>

(3)数据库可以像处理文本数据那样方便地处理图像数据。

这些改进很好地解决了JAFOV当前版本中存在的大部分问题。

然而,要使这个系统在因特网上实际运行,还有一些问题需要解决,这些问题主要包括:

(1)查询数据需要的时间偏长;

数学地质和地质信息

(2)本项研究中开发的DBMS可以达到的实际容量是1000个记录,当存储记录数超过该数目时,数据查询将花费更长的时间。

通过使用功能更强大的DBMS如RDBMS作为搜索引擎,这些问题可以得到解决。因此,我们正在使用RDBMS来开发实用型系统。

致谢 笔者衷心感谢Toyo信息系统有限公司的Shintaro Inoue先生,他参与了本系统的开发,还要感谢CSK有限公司的Koushiro Miyauchi先生,他对本项研究中使用的计算机作了软硬件配置与调试。(龚仁辉译,陈建平校)

参考文献

[1]TKamei,KYamamoto,and NNishiwakiDatabase on Fossil Vertebrate Specimens Deposited in Japan:JAFOVBullData ProcCent,Kyoto Univ,1986,19(4):260~268(in Japanese)

[2]NNishiwakiDatabase on Fossil Specimens Deposited in JapanProc3rd InternConfGeosciInform(Adelaide,Australia)Australian Mineral Foundation,1986,1:62~70

[3]NNishiwaki,KYamamoto,and TKameiData Base on the Japanese Fossil VertebratesPSGlaeser(Ed)Data for Science and TechnologyProc8th InternCODATA Conf(Jachranka,Poland),North-Holland PubCo,1982,75~80

[4]KYamamoto,NNishiwaki,and TKameiJAFOV:Data Base on the Japanese Fossil Vertebrates(1)GeolData Proe,1982,7:21~30(in Japanese)

[5]KYamamoto,NNishiwaki,and TKameiPresent Status and Future Extension of JAFOV:Database on the Japanese Fossil VertebratesGeolData Proc,1987,12:142~150(in Japanese)

[6]KYamamoto,NNishiwaki,and YKawamuraAn Extension of the Japanese Fossil Vertebrates Database JAFOVBullData ProcCenter,Kyoto Univ,1994,27(3):117~120(in Japanese)

[7]HHoriike,YOzawa,YMurao,and TWatanabeUser's Manual:Database Retrieval with FAIRSData ProcCent,Kyoto Univ,1984(in Japanese)

[8]LAransonHTML Manual of StyleZiff-Davis Press,Emeryville,California,1994

数据库是在计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合,是计算机技术和信息检索技术相结合的产物,是电子信息资源的主体,是信息检索系统的核心部分之一。按所提供的信息内容,数据库主要可分为参考数据库和源数据库。1.参考数据库主要存储一系列描述性信息内容,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和指南数据库。(1)书目数据库 存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。图书馆目录数据库,又称机读目录,其数据内容详细,除描述标题、作者、出版项等书目信息外,还提供用户索取原始信息的馆藏信息。题录、文摘数据库描述的数据内容与印刷型的题录、文摘相似,它提供了论文信息或专利信息等确定的信息来源,供用户检索。(2)指南数据库 存储描述关于机构、人物、产品、活动等对象的数据库。与其它数据库相比,指南数据库为用户提供的不仅仅是有关信息,还包括各种类型的实体,多采用名称进行检索。如存储生产与经营活动信息的机构名录数据库、存储人物信息的人物传记数据库、存储产品或商品信息的产品指南数据库、存储基金信息的基金数据库等属于此类,它的作用指引用户从其它有关信息源获取更详细的信息。2.源数据库主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。它主要包括全文数据库和数值数据库。(1)全文数据库 存储原始信息全文或主要部分的一种源数据库。如期刊全文数据库、专利全文数据库、百科全书全文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。(2)数值数据库 存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。与书目数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。如各种统计数据库、科学技术数据库等。数值数据库除了一般的检索功能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能。4.2.2 数据库结构1.书目数据库的结构书目数据库是以文档形式组织一系列数据,这些数据被称为记录,一个记录又包含若干字段。(1)记录与字段 记录是作为一个单位来处理有关数据的集合,是组成文档的基本数据单位。记录中所包含的若干字段,则是组成记录的基本数据单位。在书目数据库中,一个记录相当于一条题录或文摘,因此,一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。在有些字段中,又包含多个子字段,子字段是字段的下级数据单位。如,主题词字段含有多个主题词。按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。常见的字段名称及代码见表4-1。表4-1 字段名称及代码基本字段辅助字段字段名称字段代码字段名称字段代码标题TI记录号DN文摘AB作者AU叙词DE作者单位CS标识词ID期刊名称JN出版年PY出版国CO语种LA(2)文档 按一定结构组织的相关记录的集合。文档是书目数据库数据组织的基本形式,文档的组织方式与检索系统的硬件和软件功能密切相关。在书目数据库中,文档结构主要分为顺排文档和倒排文档。1)顺排文档 记录按顺序存放,记录之间的逻辑顺序与物理顺序是一致的,相当于印刷型工具中文摘的排列顺序,是一种线形文档。顺排文档是构成数据库的主体部分,但其主题词等特征的标识呈无序状态,直接检索时,必须以完整的记录作为检索单元,从头至尾查询,检索时间长,实用性较差。2)倒排文档 将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。具有主题性质的倒排档,称基本索引档,非主题性质的倒排档,称辅助索引档。综上所述,顺排档和倒排档的主要区别是:顺排档以完整的记录为处理和检索单元,是主文档,倒排档以记录中的字段为处理和检索单元,是索引文档。计算机进行检索时,先进入倒排档查找有关信息的存取号,然后再进入顺排档按存取号查找记录。2全文数据库的结构一般的全文数据库结构与书目数据库相似,全文数据库的一个记录就是一个全文文本,记录分成若干字段。其主文档是以顺排形式组织的文本文档,倒排档是对应于记录可检字段的索引文档。3数值数据库的结构数值数据库的结构要综合考虑数据库的内容及检索目的,即,在内容上,数值数据库的主要内容是数值信息,但不排除含有必要的说明性的文本信息,在检索上,便于单项检索和综合检索,还能对数值进行准确数据运算、数据分析、图形处理及对检索输出的数据进行排序和重新组织。数值数据库的数据结构可以是单元式,也可以是表册形式。前者是对原始数据的模拟,后者则是对统计表格的机读模拟。数值数据库通常有多种文档,如顺排挡、倒排挡、索引文档等。顺排挡是由数值数据组成,为主文档,另有相应的索引文档,为便于存取,索引文档采用基本直接存取结构的组织形式。倒排挡也有相应的索引文档,索引文档采取分级组织形式。数值数据库的文档结构,使所有文档都可以用于检索,所有数据都可用来运算,构成了数值数据库的特点。4.指南数据库的结构指南数据库的结构兼有书目数据库、全文数据库和数值数据库的特点,有顺排档、倒排档、索引文档和数据字典。一般而言,对涉及主题领域较多,内容综合性较强的大型指南数据库,顺排挡(主文档)可采用多子文档的结构,对单一主题领域和内容较专的,则采用单一主文档和不定长、多字段的记录格式为宜。

c++怎么做数据分析要用Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。

所谓海量数据处理,无非就是基于海量数据上的存储、处理、 *** 作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。

我们可以采用巧妙的算法搭配合适的数据结构,如Bloomfilter/Hash/bit-map/堆/数据库或倒排索引/trie树。

针对空间,无非就一个办法:大而化小,分而治之(hash映射),你不是说规模太大嘛,那简单啊,就把规模大化为规模小的,各个击破不就完了嘛。

至于所谓的单机及集群问题,通俗点来讲,单机就是处理装载数据的机器有限(只要考虑cpu,内存,硬盘的数据交互),而集群,机器有多辆。

适合分布式处理,并行计算(更多考虑节点和节点间的数据交互)。

再者,通过本blog内的有关海量数据处理的文章:Big Data Processing,我们已经大致知道,处理海量数据问题。

无非就是分而治之/hash映射 + hash统计 + 堆/快速/归并排序;双层桶划分Bloom filter/Bitmap;Trie树/数据库/倒排索引。

外排序分布式处理之Hadoop/Mapreduce。

set/mahashtable/hash_map/hash_setset/map/multiset/multimaphash_set/hash_map/hash_multiset/hash_multimap之区别。

使用倒序索引提升ORDER BY DESC性能

使用倒序索引(INDEX DESC),可以大幅提升带有order by desc子句的SQL语句性能。

举例

1、表名:test_t,有一字段名为object_id

2、总数据量:580000行,segment_size:72MB

3、Where条件(Owner=’SYS’ and Object_id>50000)的行数:32472行

4、SQL语句:select from test_t where owner='SYS' and object_id > 50000 order by object_id desc

5、希望借助倒序索引,提升order by object_id desc的性能

希望能帮到你。

对询问中涉及的关键字,首先在已建立的辅索引中求指针的交集P ,而后对P 中所指记录逐个验证其它关键字是否与询问条件匹配,所有匹配的记录即为查询结果。

数据库系统是实现有组织地、动态地存储大量关联数据,方便多用户访问的计算机软、硬资源组成的系统。它包含关联数据的集合,DBMS 和用户应用程序等。

数据库完整保护的主要任务和措施:

主要任务是保障数据的正确性,有效性,协调性,提高数据对用户的可用性。

其措施如下:适时检查完整约束条件,保证语义完整。控制并发 *** 作,使其不破坏完整性。在系统出现故障后,即时恢复系统。

对数据库中的数据建立倒排索引

1 启动本机的mysql数据库

我新建test数据库,并在其中新建test表,表有两个字段,ID与Val。ID表示文档编号,Val表示文档内容,这是一个最简单的数据源。

2 在Solr中配置数据源

在\webapps\solr\conf\multicore\core0\conf\db-data-configxml中作如下配置:

[html] view plain copy

<dataConfig>

<dataSource type="JdbcDataSource" driver="commysqljdbcDriver" url="jdbc:mysql://localhost:3306/test" user="root" password="XXXXXX" />

<document name="messages">

<entity name="message" transformer="ClobTransformer" query="select  from test1">

<field column="ID" name="id" />

<field column="Val" name="complex" />

</entity>

</document>

</dataConfig>

此处的complex应与schema中的field name相对应。

3 重启tomcat,建索引:

4 测试查询:

我们此处选择返回查询结果列表的形式是JSON

至此,solr的最简单的一次配置完成了。我们可以看出其中的数据源是怎么变为倒排索引,实现快速查询。企业或网站在数据量极大时,可以使用这种方式建立自己的搜索引擎。接下来我们可以让Nutch和Solr配合,做自己的搜索引擎。

我不知道你的数据库是如何设计的,但是id一般都是有的

所以思路就是将数据表倒排,然后选取第一个

select top 1 from table order by id desc

呵呵那就是嵌套啊

select colname1,colname2 from as (select top 1 from table order by id desc)

一、数据文件类型:

每个sql server 2000数据库都有一个主数据文件,能有多个辅数据文件,后者只能供该数据库使用。

二、数据文件命名:

每个数据文件都是个独立的 *** 作系统文件。主数据文件通常以mdf为文件后缀(该后缀不是必须的,但对于文件的识别比较有用)。主数据文件将数据存储在表格或索引中,他包含数据库的启动信息。他还包含一些系统表格,这些表格记载数据库中的对象,如数据库中所有的其他文件(辅数据文件和事务处理日志文件)的位置信息。

每个辅助数据文件通常都以ndf为文件后缀(该后缀也不是必须的)。辅数据文件主要在一个数据库跨多个硬盘驱动器时使用。

每个数据文件(主文件和辅文件)都有一个逻辑文件名,在transact_sql语句中使用,及一个物理文件名,供windows *** 作系统使用。逻辑文件名必须对于特定的数据库都是唯一的,并且必须遵守sqlserver的标识符规则。

三、数据文件存储:

sql server 2000将所有的数据库记录在两个位置上:主数据库和该数据库的主文件。非常多时候,数据库引擎使用在主数据库中找到的文件位置信息。当然也有例外,比如,当你执行的某些 *** 作,使得数据库引擎使用主文件位置信息,初始化主数据库中的文件位置输入,就是个特例。这些 *** 作正从sql server 70升级到sql server 2000,恢复主数据库,并使用sp_attach_db系统存储过程将一个数据库添加到sql server 2000中。

四、数据文件空间分配:

在sql server 2000的表格或索引中存储信息之前,必须在一个数据文件内部分配一些自由空间给那个对象。分配给表格和索引的自由空间的每个单位称为“扩展盘区”(extent)。一个扩展盘区为64kb,由8个连续的页面组成,每个页为8k。共有两种类型的扩展盘区:混合扩展盘区和统一扩展盘区。

每次创建一个新表格或索引时,sql server 2000寻找一个带自由空间的混合扩展盘区,然后将该自由页分配给该新建对象。一个页面只包含一个对象的数据。当某个对象需要额外的空间时,sql server 2000将混合扩展盘区中的自由空间分配给该对象,直到他一共使用了8个页面为止。在这以后,sql server 2000分配一个统一扩展盘区给那个对象。如果所有的数据文件上都没有自由空间,且启动了“自动增长”选项的话,那么sql server 2000将以循环算法增长这些数据文件。

以上就是关于提供WWW服务的JAFOV数据库全部的内容,包括:提供WWW服务的JAFOV数据库、数据库的类型、c++怎么做数据分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9406430.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存