大数据处理的五大关键技术及其应用_工具

作者 | 网络大数据

来源 | 产业智能官

数据处理是对纷繁复杂的海量数据价值的提炼，而其中最有价值的地方在于预测性分析，即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据，根据数据挖掘的结果得出预测性决策。其中主要工作环节包括：

大数据采集大数据预处理大数据存储及管理大数据分析及挖掘大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

大数据采集一般分为：

大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策 *** 作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

完成对已接收数据的辨析、抽取、清洗等 *** 作。

抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术：改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术：改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中，可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

数据挖掘主要过程是：根据分析挖掘目标，从数据库中把数据提取出来，然后经过ETL组织成适合分析挖掘算法使用宽表，然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件，一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性，导致数据挖掘会涉及大量衍生变量计算，衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂，计算量就很大，特别是大量机器学习算法，都是迭代计算，需要通过多次迭代来求最优解，例如K-means聚类算法、PageRank算法等。

从挖掘任务和挖掘方法的角度，着重突破：

可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

预测分析成功的7个秘诀

预测未来一直是一个冒险的命题。幸运的是，预测分析技术的出现使得用户能够基于历史数据和分析技术(如统计建模和机器学习)预测未来的结果，这使得预测结果和趋势变得比过去几年更加可靠。

尽管如此，与任何新兴技术一样，想要充分发挥预测分析的潜力也是很难的。而可能使挑战变得更加复杂的是，由不完善的策略或预测分析工具的误用导致的不准确或误导性的结果可能在几周、几个月甚至几年内才会显现出来。

预测分析有可能彻底改变许多的行业和业务，包括零售、制造、供应链、网络管理、金融服务和医疗保健。AI网络技术公司Mist Systems的联合创始人、首席技术官Bob fridy预测:“深度学习和预测性AI分析技术将会改变我们社会的所有部分，就像十年来互联网和蜂窝技术所带来的转变一样。”。

这里有七个建议，旨在帮助您的组织充分利用其预测分析计划。

1能够访问高质量、易于理解的数据

预测分析应用程序需要大量数据，并依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商Infotech的首席数据和分析官Soumendra Mohanty评论道:“数据和预测分析之间是相互促进的关系。”

了解流入预测分析模型的数据类型非常重要。“一个人身上会有什么样的数据” Eric Feigl - Ding问道，他是流行病学家、营养学家和健康经济学家，目前是哈佛陈氏公共卫生学院的访问科学家。“是每天都在Facebook和谷歌上收集的实时数据，还是难以访问的医疗记录所需的医疗数据”为了做出准确的预测，模型需要被设计成能够处理它所吸收的特定类型的数据。

简单地将大量数据扔向计算资源的预测建模工作注定会失败。“由于存在大量数据，而其中大部分数据可能与特定问题无关，只是在给定样本中可能存在相关关系，”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道，FactSet是一家金融数据和软件公司。“如果不了解产生数据的过程，一个在有偏见的数据上训练的模型可能是完全错误的。”

2找到合适的模式

SAP高级分析产品经理Richard Mooney指出，每个人都痴迷于算法，但是算法必须和输入到算法中的数据一样好。“如果找不到适合的模式，那么他们就毫无用处，”他写道。“大多数数据集都有其隐藏的模式。”

模式通常以两种方式隐藏:

模式位于两列之间的关系中。例如，可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式。Mooney说:“如果交易即将结束，电子邮件的公开率应该会大幅提高，因为买方会有很多人需要阅读并审查合同。”

模式显示了变量随时间变化的关系。“以上面的例子为例，了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用，”Mooney说。

3 专注于可管理的任务，这些任务可能会带来积极的投资回报

纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今，人们很想把机器学习算法应用到海量数据上，以期获得更深刻的见解。”他说，这种方法的问题在于，它就像试图一次治愈所有形式的癌症一样。Urmeneta解释说:“这会导致问题太大，数据太乱——没有足够的资金和足够的支持。这样是不可能获得成功的。”

而当任务相对集中时，成功的可能性就会大得多。Urmeneta指出:“如果有问题的话，我们很可能会接触到那些能够理解复杂关系的专家” 。“这样，我们就很可能会有更清晰或更好理解的数据来进行处理。”

4使用正确的方法来完成工作

好消息是，几乎有无数的方法可以用来生成精确的预测分析。然而，这也是个坏消息。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现，使用新方法很容易让人兴奋”。“然而，根据我的经验，最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法。”

罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法”。“必须拥有一种高效且可解释的技术，一种可以利用序列数据、时间数据的统计特性，然后将其外推到最有可能的未来，”Yang说。

5用精确定义的目标构建模型

这似乎是显而易见的，但许多预测分析项目开始时的目标是构建一个宏伟的模型，却没有一个明确的最终使用计划。“有很多很棒的模型从来没有被人使用过，因为没有人知道如何使用这些模型来实现或提供价值，”汽车、保险和碰撞修复行业的SaaS提供商CCC信息服务公司的产品管理高级副总裁Jason Verlen评论道。

对此，Fontes也表示同意。“使用正确的工具肯定会确保我们从分析中得到想要的结果……”因为这迫使我们必须对自己的目标非常清楚，”她解释道。“如果我们不清楚分析的目标，就永远也不可能真正得到我们想要的东西。”

6在IT和相关业务部门之间建立密切的合作关系

在业务和技术组织之间建立牢固的合作伙伴关系是至关重要的。客户体验技术提供商Genesys的人工智能产品管理副总裁Paul lasserr说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。”然后，一旦设置了目标，就可以在一个限定范围的应用程序中测试模型，以确定解决方案是否真正提供了所需的价值。

7不要被设计不良的模型误导

模型是由人设计的，所以它们经常包含着潜在的缺陷。错误的模型或使用不正确或不当的数据构建的模型很容易产生误导，在极端情况下，甚至会产生完全错误的预测。

没有实现适当随机化的选择偏差会混淆预测。例如，在一项假设的减肥研究中，可能有50%的参与者选择退出后续的体重测量。然而，那些中途退出的人与留下来的人有着不同的体重轨迹。这使得分析变得复杂，因为在这样的研究中，那些坚持参加这个项目的人通常是那些真正减肥的人。另一方面，戒烟者通常是那些很少或根本没有减肥经历的人。因此，虽然减肥在整个世界都是具有因果性和可预测性的，但在一个有50%退出率的有限数据库中，实际的减肥结果可能会被隐藏起来。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

它包含Academic Search Premier，Business Source Premier，Food Science Source，Environment Complete，EconLit with Full Text，ERIC，European Views of the Americas: 1493 to 1750，GreenFILE，Library, Information Science & Technology Abstracts，MEDLINE，Newspaper Source，Regional Business News，Teacher Reference Center，eBook Collection (EBSCOhost)，EBSCO eClassics Collection (EBSCOhost)，American Doctoral Dissertations等数据库。

其中ASP是目前EBSCO公司最大的全文数据库，它包含文、理、工50多种学科，3200多种全文期刊，4200多种文摘和索引，各学科核心刊收录众多，且每日更新。

BSP（Business Source Premier），收录2630种期刊的索引、文摘和 2080种期刊全文，包括SCI收录的核心期刊473种。其中较著名的有"华尔街日报" （The Wall Street Journal）、“每周商务”（Business Week）、“财富”（Fortune）、American Banker、Forbes、The Economist等，涉及的主题范围有国际商务、经济学、经济管理、金融、会计、劳动人事、银行等。全文最早收录时间为1990年，有图像。每日更新。

前言

信息泛滥并没有减弱的趋势人们被来自电视 Internet和塞满邮箱的广告等各种各样的信息所淹没令人遗憾的是随着信息数量的增长信息的质量却在急剧下降图书被期刊和杂志取代然后被报纸 Web页面博客取代最终又被推特（eet）取代信息量变得越来越庞大也变得越来越不可信赖更糟糕的是在Internet时代数据永远不会真正消失它不停地累积隐藏在各种文件日志和数据库中根据Google的前CEO Eric Schmidt的说法现在人类在两天之内创造的数据量就相当于自从出现书写记录到年（或者任何一年）所创造的数据即现在只需要两天就会创造出大约 EB（即亿GB）的数据这一步伐还在不停地加速

当以电子化方式存储数据变成现实之后它也带来了自己的规则要理解数据的含义人们必须去学习相应的语言关系数据库理论为人们带来了对电子化数据的掌控能力它采用结构化查询语言（Structured Query Language SQL）来处理数据到目前为止关系数据库获取了巨大的成功

自从世纪年代第一次提出关系数据库以来关系数据库和SQL已经取得了长足的进步关系数据库和SQL中包含的那些概念对于初学者来说可能并不直观本书将为读者抽丝剥茧使读者理解SQL背后的原理既让读者了解SQL的强大功能也了解它存在的局限

读者对象

本书从入门知识开始介绍读者无须具备SQL或关系数据库的预备知识本书将带领读者走入SQL的发现之旅读者将亲自创建示例数据库它不仅结合了本书中所介绍的SQL概念还将通过几次反复重构引入数据建模查询调整和优化的概念本书还介绍了一些适用于每一种SQL的最佳实践

本书适合于准备学习关系数据库程序设计的计算机程序员也适合那些希望从数据库中释放更强大威力的商业用户 SQL是关系数据库世界的通用语言每一个对学习SQL这门强大语言感兴趣的人都适合阅读本书

先前已具有一定数据库使用经验的读者可以略过前两章直接跳到更高级的内容当然也可以复习一下这两章中介绍的重要原则

内容提要

本书介绍了当前已发布的SQL标准SQL: 把最主要的精力放在了SQL语言实际的运用上强调了不同SQL实现之间存在的差异本书介绍了很多示例在这些示例中使用了最新版本的现代数据库系统对SQL的具体实现这些数据库要么是可以免费下载的Express版本要么是免费的开源软件另外本书还介绍了目前最流行的桌面型数据库软件Microsoft Access和OpenOffice 本书中介绍的数据库包括

IBM UDB

Oracle g

Microsoft SQL Server / /

MySQL /

PostgreSQL

Microsoft Access /

带有嵌入式 HSQLDB的OpenOffice BASE

本书结构

本书从整体着眼向读者介绍了关系数据库的一般概念特别是SQL中的概念通过一个反复重构数据库的过程循序渐进地向读者介绍了数据库的各种知识在这一过程中对于开始时介绍的每一个概念随后都进行了更详细的分析从而启发读者理解这些概念背后的关联性

第章简要地介绍了SQL及其背后的关系理论这一章只是浮光掠影般地介绍了数据库最基本的概念后面的各章都在此基础上展开该章介绍了数据与信息的区别一些基本的原理还需要在后面章节中进一步解释这一章还对本书中所使用的关系数据库管理系统（RDBMS）进行了一个概述

第章对这些概念进行了更深入的介绍根据关系模型的分析应该将无组织的数据结构化使之符合关系模型的要求即将冰箱磁铁模式转换为斗柜模式然后再将其转换为关系数据库中实际的表

第章进一步介绍了关系模型初步介绍了数据库的基本设计和规范化的基本过程这一章还介绍了一些对规范化数据执行查询的SQL工具此外该章还介绍了动态SQL

SQL是一种基于集合的语言这使得它既有强大的功能也存在一定的局限第章讨论了最流行的过程化扩展（例如Oracle的PL/SQL和Microsoft的Transact SQL）这一章还介绍了SQL函数 SQL函数可以作为一种补充手段以弥补在处理基于记录的逻辑时SQL存在的固有不足

第章介绍了聚合数据总结了这种方式的威力和局限该章将前面章节中介绍过的SQL聚合函数提高到了一个新的层次演示了如何使用SQL来获取数据的聚合值

第章介绍了子查询当数据集是交错的查询数据需要依靠多层次的数据筛选时可以将一个查询作为另一个查询的筛选条件可以调整SQL语句用JOIN代替子查询这是贯穿本书的主题之一

SQL的强大功能在于处理存储在多个关系表中的数据第章介绍了SQL如何在单个数据集中联合这些关系表的数据

本书介绍的是基本的SQL概念打开了进一步学习SQL的大门第章是SQL发现之旅的下一站它介绍了进一步学习SQL时应该考虑的问题

第章介绍了性能优化技术描述了在优化查询和数据库环境时常用的方法和最佳实践第章讨论了多用户环境中关系数据库的工作原理介绍了SQL中实现的处理并发数据访问的机制

SQL所有的 *** 作都与结构和顺序有关毕竟它是结构化查询语言真实的数据可以是各种规模和结构第章介绍了SQL如何处理半结构化数据（XML文档）非结构化数据（文本文件）和二进制数据（例如和声音）

第章简要地讨论了数据库领域的最新发展例如列式数据库 NoSQL数据库对象数据库和面向服务的架构（SOA）以及它们与SQL的关系

对于本书所讨论的每一种数据库附录A按部就班地描述了安装示例数据库Library的过程以及如何使用特定的指令生成Library数据库的初始数据可以从本书支持网站上下载到这些SQL脚本

对于本书介绍的关系数据库软件包附录B提供了一个详细的安装步骤

附录C描述了每一种数据库所提供的工具使用这些工具可以访问创建数据库对象 *** 纵存储在表中的数据

附录D介绍了开源项目SQuirreL Universal SQL Client 可以通过Java Database Connectivity（JDBC）接口使用SQuirreL Universal SQL Client来访问各种数据库该附录详细地介绍了如何安装和配置该软件

学习本书的条件

为了充分利用本书建议下载和安装本书中使用的关系数据库软件这些软件绝大多数都是免费的或者具有免费的试用版可以按照附录B中介绍的步骤来安装这些软件

支持网站和代码

在学习每一章时建议下载相应的SQL脚本创建并生成数据库可以从 wrox 或者 agilitator 下载到本书的代码在支持网站中可以使用搜索框来查找指定名称的图书在找到指定的图书之后单击Download Code链接就可以访问允许下载的文件可以通过>

2甲骨文股份有限公司是全球最大的数据库软件公司，总部位于美国加州的红木滩。

公司类型上市公司 (NASDAQ: ORCL)

口号 Oracle is the information company

成立于加利福尼亚 (1977年)[1]

总部位于美国加州红木滩市

重要人物劳伦斯·埃里森 Lawrence (Larry) J Ellison, 首席执行官

产业数据库软件

雇员数目 35000+

产品

数据库服务器

应用服务器

开发工具

中间件产品

客户关系管理

供应链管理

JDE

收入 179亿美元 (2007财年)

主要产品

甲骨文公司主要的产品目前分为两大类：

服务器（服务器）及工具（主要竞争对手：国际商用机器、微软）

数据库服务器：2008年最新版本11G

应用服务器： Oracle Application Server

开发工具：Oracle JDeveloper，Oracle Designer，Oracle Developer，等等

应用软件（主要竞争对手：德国SAP公司。）

企业资源计划(ERP)软件。已有10年以上的历史。2005年，并购了开发企业软件的人科软件公司（PeopleSoft）以增强在这方面的竞争力。

客户关系管理(CRM)软件。自1998年开始研发这种软件。2005年，并购了开发客户关系管理软件的希柏软件公司（Siebel）。

Oracle公司是全球最大的信息管理软件及服务供应商，成立于1977年，总部位于美国加州 Redwood shore。2000财年(99年6月到2000年5月)营业额达101亿美元，再创Oracle公司销售额历史新高，比去年增长了13亿美元，盈利增长61%，达到21亿美元。Oracle公司现有员工超过三万六千人，服务遍及全球145个国家。Oracle公司拥有世界上唯一一个全面集成的电子商务套件Oracle Applications R11i，它能够自动化企业经营管理过程中的各个方面，深受用户的青睐，促使Oracle应用软件在2000财年第四季度的销售额达447亿美元，与SAP公司的同期应用软件销售额352亿美元相比，多出近1亿美元，这一事实表明，Oracle已经是世界最大的应用软件供应商。Oracle电子商务套件涵盖了企业经营管理过程中的方方面面，虽然它在不同的方面分别面对不同的竞争对手，而Oracle电子商务解决方案的核心优势就在于它的集成性和完整性，用户完全可以从Oracle公司获得任何所需要的应用功能，更重要的是，它们具有一致的基于Internet技术的应用体系结构，而如果用户想从其它厂商处获得Oracle电子商务所提供的完整功能，不仅需要从多家厂商分别购买不同的应用，而且需要另请咨询公司把这些不同的应用装配起来，还必须确保它们能够协同地工作。

先进的产品和高效率的企业运作，是Oracle公司利润得以继续增长的重要原因，一年前，Oracle公司确定了通过采用自身的Internet电子商务解决方案，实现每年节省10亿美元企业日常运作费用的目标，这一数据相当于将我们的年度利润率提高10%。

四年前电子商务在全球范围内还仅处于萌芽状态时，Oracle公司便前瞻性地作出了从领先的数据库厂商向以Internet计算为基础的完整的电子商务解决方案供应商转型的战略部署。这一前瞻性战略为Oracle带来了巨大的利益，今天，Oracle能够领先于竞争对手提供包括平台产品、应用产品和完善的服务在内的先进的、完整的、集成的电子商务解决方案，可以无缝集成供应链管理(SCM)、企业资源管理(ERP)、客户资源管理(CRM)和企业商业智能(BI)和电子商务应用IP(Internet Pocurement)、Exchange、Portal-to-go等产品。Oracle从低端到高端的所有方案100%基于Internet应用体系结构，都可以通过Web安全、直接地访问，使企业能够通过Web完成包括报价、定单、支付、执行、服务等在内的企业业务过程的所有环节，帮助企业将现有业务内容快速转移到电子商务，迅速获得来自电子商务的高效益。

Oracle应用产品包括财务、供应链、制造、项目管理、人力资源和市场与销售等150多个模块，荣获多项世界大奖,现已被全球近7600多家企业所采用。由于在电子商务方面的杰出表现，Oracle公司在美国Mongan Stanley公司最新公布的权威性全球企业1000强中，从去年的第122名一跃成为第13名，成为全球第二大独立软件公司和最大的电子商务解决方案供应商。目前， Amazon和Dell等全球十个最大的Internet电子商务网站、全球十个最大的B-to-B网站中的九个、93%的上市COM公司、65家“财富全球100强”企业均不约而同地采用Oracle电子商务解决方案。

Oracle中国公司

1989年Oracle公司正式进入中国市场，成为第一家进入中国的世界软件巨头，标志着刚刚起飞的中国国民经济信息化建设已经得到Oracle的积极响应，由Oracle首创的关系型数据库技术开始服务于中国用户。1991年7月，经过了近两年时间的努力开拓，为了更好地与迅速发展的业务相适应，Oracle在北京建立独资公司。今天的Oracle中国公司拥有超过3500名员工，并在全国十二个城市设立了分公司。

为了帮助中国用户及时、充分利用世界最先进的计算机软件技术与产品，Oracle中国公司在产品汉化方面投入了大量的资源，目前，Oracle的大部分产品均已实现了全面中文化，中文版产品的更新节奏与美国本土基本同步一致。与此同时，Oracle在中国得到了数以百计的国内计算机企业的合作与支持，除了惠普、Sun、康柏、Cisco、Intel等Oracle全球联盟合作伙伴和普华永道咨询有限公司、安达信企业咨询有限公司、安盛咨询、德勤企业管理咨询公司、凯捷安永咨询(亚太)有限公司等Oracle全球系统集成商外，Oracle公司在中国还建立起完整的合作伙伴体系，6家增值经销商、72家独立软件开发商、3家应用软件合作伙伴、180家授权分销商和4家授权培训中心，他们共同构成了基于Oracle技术产品基础的全国性市场开拓、系统集成、增值开发与技术服务体系，为Oracle在中国的业务发展提供了强有力的支持。由他们开发的数百个基于Oracle平台的商品化应用软件包，已经广泛应用于国内的政府部门、电信、邮政、公安、金融、保险、能源电力、交通、科教、石化、航空航天、民航等各行各业。

甲骨文公司主要产品简介

1 Oracle电子商务套件（Oracle E-Business Suite）

Oracle电子商务套件是行业中第一个集成的基于互联网的商务应用套件，它将前台与后台运营中的关键业务流程自动化。Oracle电子商务套件涵盖了营销、销售、服务、合同、定单管理、产品设计、采购、供应链、制造、财务、项目管理、人力资源与专业服务自动化在内的企业中每一个领域的业务。2001年全球共有1100多家企业实施了Oracle电子商务套件，目前全球已经有超过12000家用户正在获益于Oracle电子商务套件所带来的前所未有的好处。

自从Oracle电子商务套件首次面世以来，甲骨文公司已经推出了6种电子商务套件的增强版本，从而形成了一整套成熟的、功能齐全的应用套件。Oracle电子商务套件能够使用户在实施业务应用时拥有前所未有的可选择性与灵活性，它的开放式基础架构与单一数据模型使用户在部署套件中的应用软件时拥有多种选择，既可以单独使用，也可以组成业务流，还可以作为一个整体的集成套件来部署。Oracle电子商务套件既可以作为用CD ROM为载体的传统软件的形式，也可以作为一种在线服务的形式来提供给用户。

2 Oracle10g —— 新一代电子商务平台

Oracle10g是业界第一个完整的、智能化的新一代Internet基础架构，Oracle10g电子商务平台实际上是指Oracle数据库10g、Oracle应用服务器10g和Oracle开发工具套件10g的完整集成。

Oracle数据库10g是第一套具有无限可伸缩性与高可用性，并可在集群环境中运行商业软件的互联网数据库，具有400多个领先的数据库功能，在集群技术、高可用性、商业智能、安全性、系统管理等方面都实现了新的突破。作为甲骨文公司长达十年的软件技术研发成果，真正应用集群技术（Real Application Clusters）能够提供近乎无限的扩充能力与整体可用性，为用户带来透明的、高速增长的集群功能。

Oracle应用服务器10g是J2EE认证的、最轻、最快、最具伸缩性的应用服务器，提供了企业门户软件、无线支持、高速缓存、轻量级J2EE引擎、商务智能、快速应用开发、应用与业务集成、Web 服务等多种应用开发功能，形成完整的电子商务应用开发和部署环境。使用了Oracle应用服务器10g的用户可以通过升级软件来取代升级硬件，大大的节省了基础设施的成本花费。

Oracle开发工具套件10g是一套完整的集成开发工具，可用于快速开发使用Java和XML语言的互联网应用和Web服务，支持任何语言、任何 *** 作系统、任何开发风格、开发生命周期的任何阶段以及所有最新的互联网标准。

9i之后的Oracle的硬件要求很高，（Windows版本）9i建议配512M内存，10g建议配1G内存。

Oracle数据库的体系结构

Oracle数据库包括Oracle数据库服务器和客户端。

Oracle数据库服务器：

Oracle Server是一个对象一关系数据库管理系统。它提供开放的、全面的、和集成的信息管理方法。每个Server由一个 Oracle DB和一个 Oracle Server实例组成。它具有场地自治性（Site Autonomy）和提供数据存储透明机制，以此可实现数据存储透明性。每个 Oracle数据库对应唯一的一个实例名SID，Oracle数据库服务器启动后，一般至少有以下几个用户：Internal，它不是一个真实的用户名，而是具有SYSDBA优先级的Sys用户的别名，它由DBA用户使用来完成数据库的管理任务，包括启动和关闭数据库；Sys，它是一个 DBA用户名，具有最大的数据库 *** 作权限；System，它也是一个 DBA用户名，权限仅次于 Sys用户。

客户端：

为数据库用户 *** 作端，由应用、工具、SQL NET组成，用户 *** 作数据库时，必须连接到一服务器，该数据库称为本地数据库（Local DB）。在网络环境下其它服务器上的 DB称为远程数据库（Remote DB）。用户要存取远程 DB上的数据时，必须建立数据库链。

Oracle数据库的体系结构包括物理存储结构和逻辑存储结构。由于它们是相分离的，所以在管理数据的物理存储结构时并不会影响对逻辑存储结构的存取。

1逻辑存储结构

它由至少一个表空间和数据库模式对象组成。这里，模式是对象的集合，而模式对象是直接引用数据库数据的逻辑结构。模式对象包括这样一些结构：表、视图、序列、存储过程、同一词、索引、簇和数据库链等。逻辑存储结构包括表空间、段和范围，用于描述怎样使用数据库的物理空间。而其中的模式对象和关系形成了数据库的关系设计。

数据块（Block）：是数据库进行UO *** 作的最小单位，它与 *** 作系统的块不是一个概念。oracle数据库不是以 *** 作系统的块为单位来请求数据，而是以多个Oracle数据库块为单位。

段（Segment）：是表空间中一个指定类型的逻辑存储结构，它由一个或多个范围组成，段将占用并增长存储空间。

其中包括：

数据段：用来存放表数据；．

索引段：用来存放表索引；

临时段：用来存放中间结果；

回滚段：用于出现异常时，恢复事务。

范围（Extent）：是数据库存储空间分配的逻辑单位，一个范围由许多连续的数据块组成，范围是由段依此分配的，分配的第一个范围称为初始范围，以后分配的范围称为增量范围。

年表

约70年代一间名为Ampex的软件公司，正为中央情报局设计一套名叫Oracle的数据库，Ellison是程序员之一。

1977 年艾利森与女上司Robert Miner创立“软件开发实验室”（Software Development Labs），当时IBM发表“关联数据库”的论文，艾利森以此造出新数据库，名为甲骨文。

1978 年公司迁往硅谷，更名为“关系式软件公司” (RSI)，两年后，共有8名员工，年收入少于100万美金。最先提出“关联数据库”的IBM采用RSI的数据库。1982年再更名为甲骨文(Oracle)。

1984年三年内，先后进军加、荷、英、奥地利、日、德、瑞士、瑞典、澳洲、芬兰、法、香港、挪威、西班牙。1986年上市时，年收入暴升至5500 万美元，同年3月招股，集资3150万美元。

1987年年收入达到 131 亿美元，甲骨文一年后成为世界第四大软件公司。两年内再进军墨西哥、巴、中、塞浦路斯、马来西亚及新西兰。一年后，收入再升一倍至282亿美元。

1990年甲骨文两年内挥军进入智利、希腊、韩、葡、土、委内瑞拉、台、比利是、阿根延、哥伦比亚、哥斯达黎加及菲等地，但市甲骨文首次录得亏蚀，市值急跌80%，艾利森首次安排资深管理人员参与经营。

1992年旗鉴产品Oracle 7面世，该公司重拾升轨，年收入达到 1179 亿美元。曾被视为甲骨文接班人、但后来被踼出局的Raymond Lane担任营运总监。

1995年艾利森宣布PC已死，把全数产品推向因特网发展，并另组“网络电脑公司”（Network Computer），销售“网络电脑”，最终被淘汰收场。

2000年科网接近尾声时，推出E-Business Suite，抢占应用产品市场，与昔日的生意伙伴构成严重利益冲突。同期微软及IBM数据技术提升，此后Oracle新增订单数目的占有率，在两年内下跌66%，业务倒退10%。

2003年敌意收购仁科软件公司(Peoplesoft)，引起业界轰动。两公司的争嗌新闻层出不穷。同年美国司法部落案阻止甲骨文收购。

补充内容：

oracle11g

2007年7月12日，甲骨文公司在美国纽约宣布推出数据库Oracle 11g，这是Oracle数据库的最新版本。甲骨文介绍说，Oracle 11g有400多项功能，经过了1500万个小时的测试，开发工作量达到了36万人/月。

有意思的是，根据甲骨文以往几个版本的发行经验，发布新版Oracle数据库的频率在3年左右，以此类推，Oracle 11g应该在07年年底发布，选择在7月份发布，不知道是否和代号Katmai的SQL Server 2008有关，因为目前还处于测试阶段的SQL Server 2008将在08年2月发布，业内用Oracle 10g和SQL Server 2003做比较也曾一度惹恼了甲骨文。

XML显高温

当XML面世之时，也许没有哪个数据库厂商会对这种技术给以足够的关注，然而在今天，XML已经开始对数据存储产生巨大的影响。到现在，这种可扩展标记语言已是各种数据，特别是文档的首选格式，国际主流的数据库厂商们自然也随行就市，全都推出了兼容传统关系型数据与XML数据混合应用的新一代数据库产品。

XML在数据存储方面有一个明显的优点，那就是可以直接将逻辑关系编写在XML文件当中。一个时髦的XML数据库应该提供哪些功能呢归纳起来应该有四个基本功能：使用、存储、查询和产生XML的能力。

在Oracle 10g中，曾被人们津津乐道的最重要的改进是增加了对XML schema(XML语法)转换的支持，它允许用户通过将现有的数据映射为新的schema来实现XML schema转换。而不必把所有XML数据输出后再重新输入进去，其它事情将由数据库自动完成。

在Oracle 11g中， XML DB的性能又获得很大提高，XML DB是Oracle数据库的一个组件，客户可以以本机方式存储和 *** 作XML数据。11g增加了对二进制XML数据的支持，现在客户可以选择适合自己特定应用及性能需求的XML存储选项。

当然，不仅仅是甲骨文看好XML，为吸引Oracle用户，IBM公司DB2 9打XML旗号直接把XML作为其新产品的最大卖点;微软和Sybase也宣称它们的产品也可以实现高性能XML存储与查询，使现有应用更好地与XML并存。

网格计算有点冷

新的Oracle 11g仍使用g(Grid)作为后缀，以代表这是一个包含了网格技术基础的数据库。甲骨文称，Oracle 11g能更方便地在低成本服务器和存储设备组成的网格上运行。不过，目前仅有IBM DB2数据库也支持网格计算技术。

网格计算将多个服务器和存储器当作一台大型电脑协调使用，使它们在高速网络上动态地共享计算机资源，以满足不断变化的计算需求。简而言之，即将多个服务器和存储器当作一台主机协调使用。网格计算被广泛视为未来的计算方式。

尽管微软对网格计算的兴趣也很浓厚，承诺要让Windows能够更好地适应高数据强度的计算网格。但微软除了在内部研究之外，似乎一直在这个话题上非常沉默。对于数据库中网格计算，微软和Sybase方面表示，网格应用在技术上还需解决一些问题(如：多节点性能问题) ，网格技术要成为商业应用的主流，还需要几年时间在应用和产品上进一步完善。

不容乐观的是，在咨询公司Quocirca发布的调查显示，我国网格实际采用率仍然偏低，总体网格指数在15个被调查国家中只排第9位，处于中下游，甲骨文表示，中国用户可能对网格的价值还没有真正接受。很多中国企业有一种观望的心态，觉得应用网格存在风险。

11g安全了吗

有业内人士曾表示，Oracle 10g只能算是一个过渡版本。因为06年，下一代安全软件机构NGSS对微软SQL Server和Oracle数据库做了一个弱点对比，结果表明Oracle的数据库产品存在更多的弱点。

NGSS的研究人员称，Oracle有233个缺陷点，而SQL Server只有59个。这些缺陷在SQL Server7、2000以及2005中，在Oracle8、9以及10g版本中被报道，并被修复。分析机构ESG也发布调查报告表示，在安全性方面微软击败了甲骨文，似乎甲骨文数据库“无懈可击”的安全神话已不复存在。

针对那些不断对甲骨文安全性能表示批评的专家，甲骨文终于开始猛烈还击。2006年底，甲骨文全球技术事业部的安全经理Eric Maurice在公司的博客上表示，甲骨文在开发和安全方面的技术水平居业界领先位置。与微软数据库的安全性能比较，不过是别有用心的人在玩数字游戏，甲骨文不会让外部的压力改变其既定的安全策略。

到现在，起码可以从资料上看到，Oracle的安全认证获得最高认证级别的ISO标准认证，而SQL Server并没有获得什么安全认证。从这方面证明了Oracle的安全性不应该被受到如此指责。

从甲骨文此次推出的11g可以看到，在安全方面除了10g已经存在的数据阀门和加密外，11g又增加了四项安全功能，即安全备份、非对称数据的授权安全检索、监控、管理和报警。

Oracle 11g数据库增强了Oracle透明数据加密功能，将这种功能扩展到了卷级加密之外。11g还增加了表空间加密功能，可用来加密整个表、索引和所存储的其它数据。存储在数据库中的大型对象也可以加密。

看来甲骨文很注重11g在安全上的表现，闪回交易技术可以撤销错误交易以及任何相关交易，并行备份和恢复功能。另外，一种新的顾问软件—数据恢复顾问，可自动调查问题，智能地确定恢复计划并处理多种故障情况。

Oracle 11g的Oracle Data Guard组件可用于对生产数据库的报告、备份、测试和“滚动”升级。通过将工作量从生产系统卸载到备用系统，并组成一个更经济的灾难恢复解决方案。

也许正是在安全性上的增强，才使得甲骨文公司数据库服务器技术高级副总裁Andy Mendelsohn自信地表示：“Oracle 11g真正克服了挑战并实现了真正的创新。”

一个疯狂的发烧友在自家的车库中改造了小型IDC，并利用Sun Enterprise 220R Server架设了Oracle 10g数据库

增强信息生命周期管理和存储管理能力：引入了更多的自助式管理和自动化功能;

◆透明的加密：Oracle将这种功能扩展到了卷级加密之外;

◆提高信息可用性：免受计划停机和意外宕机影响;

◆更快的XML：通过XML DB组件，客户可以本机方式存储和 *** 作XML数据;

◆增强了自助式管理和自动化能力：增加了自动SQL和存储器微调等管理功能;

◆增强了应用开发能力：提供多种开发工具供开发人员选择，包括Java实时编译器。

开源数据库成熟时

以MySQL、PostgreSQL为代表的开源数据库系统，已成为取代闭源数据库的一种颇具吸引力的选择。

成熟的开源数据库，让Oracle这样的闭源厂商难以腾飞

知名的网络游戏The Matrix Online(骇客帝国Online)，每天有数万名网上玩家同时在线，为了能够支撑庞大的在线游戏玩家同时进行游戏，Sony Online Entertainment(索尼在线娱乐公司，以下简称SOE)需要密集使用数据库。

以往SOE会使用大量的Oracle RAC集群提供服务，但是由于Oracle数据库的授权证十分昂贵及欠缺d性，加上公司需要更多额外数据库。所以从2005年开始，该公司就开始寻求既具有较低总拥有成本，又具有较好灵活性的开源数据库以取代Oracle数据库。

踢开Oracle

SOE对数据库的需求相当可观，其数据库应用程序是关键任务应用程序的最恰当诠释：每天有数十万在线玩家在玩SOE的游戏，而每款游戏都是一个数据库及其密集的应用程序。

事实上，SOE在应用开放源代码的应用上有很长历史，曾经就使用过Linux、Tomcat、Apache、Hibernate架设系统，此次的开源抉择，SOE更注重寻觅能够利用其宝贵资产(内部能够熟练使用Oracle的数据库人才)的方法，在选择开源数据库时，列出了四项标准：

1、能够充分发挥其现有数据库管理员和开发人员的潜能;

2、易于将SOE现有的Oracle应用程序迁移到新的数据库;

3、能够提供商用级别质量可靠性，包括备份和恢复标准，以支持关键任务应用程序;

4、可扩展，具有高性能。

在选择开源数据库之前，SOE需要使用许多Oracle 9i RAC群集。另外，SOE在其后台运营中部署了数据库。与如今的很多企业一样，SOE希望开源软件能够提供应对这些业务挑战的解决方案。

根据SOE对不同开放源码数据库的评估，他们选择了兼容Oracle数据库的EnterpriseDB，因为SOE有八成以上的特定Oracle应用程式，可以在极少、甚至无需修改的情况下在EnterpriseDB执行，以现有开支比较，利用EnterpriseDB后，每款线上游戏的整体拥有成本可降低80%，每年节省总额过百万，在2007至2008年度，SOE将使用数百台EnterpriseDB数据库集群服务器。

开源更有前途

使用Oracle数据库的企业一般都会对开源数据库感兴趣，主要有三个方面原因：首先，通过部署开源数据库，这些企业可以显著降低数据库的总拥有成本(TCO)，有时降幅甚至高达90%;其次，他们通常可以从其他厂商获得更大的许可灵活性以及业务便利;最后，这些企业会发现其他厂商更渴望为他们提供出色技术。

对于开源数据库，企业多少也会有些担心，因为许多企业仅限于将开源数据库用于一些简单的应用程序，如一些网站的支持应用。因为这些企业普遍认为开源数据库可能不够稳定，可靠性或者可扩展性不够高，因而无法满足他们的关键任务应用需求。另外，企业可能还觉得更改数据库的代价，例如，与应用程序重新编码，人员重新培训相关的成本，可能会超出预期的节省目标。

MySQL、FireBird、EnterpriseDB和Postgre(PostgreSQL的前身)都是非常健壮的开源数据库，而EnterpriseDB又是基于PostgreSQL进行开发的，不仅保留了PostgreSQL的稳定性，而且可实现50%的速度增长，系统可以自动监测是否有补丁程序存在，大大减轻管理员的工作。

近几年来，美国一些大企业纷纷采用开放源码数据库，它们往往在总部采用商业数据库，而在分支机构的Linux服务器上采用开源产品。这些数据库除了费用便宜，还各有独到之处。与商业化产品相比，开源数据库结构简单，但功能不简单，读取 *** 作快捷，易管理，甚至不需要全职的管理员。由此吸引了像Cisco、Yahoo这样的大公司，以及众多的中小企业。而在国内，我们熟悉的新浪、网易等大型门户网站也是开源数据库的使用者。

该企业品牌在世界品牌实验室（World Brand Lab）编制的2006年度《世界品牌500强》排行榜中名列第三十六。

国外网络数据库:当前特点与发展趋势

摘要：网络数据库是重要的电子资源，有着独特的优势与良好的发展前景。文章从8个方面分析了国外网络数据库的当前特点，并对其未来发展趋势进行了探讨。

关键词：网络数据库电子资源特点发展趋势

On Special Features and Development Trends of Web Databases

ABTRACT As one of important electronic resources, network databases have distinctive advantages and bright prospects In this paper, the author analyzes the present characteristics of network databases and discuss its development trends 9 refs

KEY WORDS Network databases Electronic resources

近年来，随着互联网的扩展和升级，网络数据库有了迅猛的发展。及时了解、探讨国外网络数据库的特点与发展趋势有助于图书馆对电子资源的评估、引进及其开发利用；同时亦可为国内网络数据库开发商提供有益的启示。

1．网络数据库的特点

网络数据库是重要的电子资源，与印刷型文献及光盘、磁盘等电子出版物相比，网络版数据库有着独特的优势，正日益受到图书馆及其用户的青睐。

1．1 数据量大、增长迅速、更新速度快

在国外，数据库生产已形成规模，走向产业化和商业化，这就使得网络数据库的整体发展呈现出以下两个特点。一是数据库规模大、数据量多，增长迅速。如号称世界上最大学术电子出版物供应商的Elsevier Science，通过ScienceDirtect可在线提供多个数据库产品服务，包括一个综合性的学术期刊全文数据库、多个专题数据库、12种参考工具书及15个书目数据库，可检索、浏览的信息资源包括1500多种全文学术期刊、 5900万条文摘记录、2百万篇学术期刊论文。ISI的Web of Knowledge 信息平台上目前可提供服务的数据库有：ISI三大引文索引数据库、期刊目次库、多个专业文献信息及事实数据库、会议录及专利信息数据库；现有数据容量为：核心期刊8600多种、学术会议录论文记录2百多万条，专利信息2千多万条、化学反应60多万个、化合物1百多万个；其数据的年增长量为：12000多个学术会议的22万多条会议录论文记录，收入的期刊数量则以23%的速度递增。

二是数据更新速度快、周期短，如SCI、ISTP、BA、EI等著名文摘索引的印刷版、光盘版一般为每季度或每月更新，而相应的网络版数据库通常是每周更新；电子期刊数据库的更新通常早于其相应的印刷版，为每周或每日更新；而电子报纸的更新速度则可以以小时、分秒计算。

1．2 品种齐全，内容丰富

网络数据库品种繁多，内容丰富。从文献的加工程度看，既有目录、索引、文摘等二次文献数据库，如ISI的三大引文索引、Biosis Preview、EI Village等，又有期刊论文、会议论文等一次文献数据库，如 Elsevier Science的全文期刊数据库、IEEE/IEE Electronic Library等。从文献类型看，既有电子期刊、电子报纸、电子图书, 如Science、Nature Publishing Group、Springer-Link、netLibrary等，又有学位论文、会议录、专利、标准等数据库，如ProQuest的 Digital Dissertations、ISI Proceedings、IEEE/IEE Electronic Library、Derwent Innovations Index等。从学科范围看，既有单学科的，又有多学科综合性的，如RSC（化学）、IOPP(物理学)、Lexiscom (法律、法学)、ABI、Business Source Premier（商业与经济管理）、Elsevier Science 全文电子期刊数据库（综合性）、Springer-Link（人文社会科学、自然科学与医学）。从数据库的开发与供应看，既有书刊代理商，如，EBSCO、 Blackwell，又有出版商，如Elsevier Science、Springer、John Wiley 、World Scientific等著名出版商，还有研究所、学协会等，如ISI、Royas Society of Chemistry 及Institue of Physics等。

1．3 使用便捷、无时空限制

网络数据库借助于互联网出版发行，除极少数外，绝大多数是连续作业，24小时不停机，通过互联网为世界各地授权终端用户提供服务，且同一数据库可同时为多人取用。这就为人们检索、利用数据库提供了极大的便利，只要网路畅通，用户足不出户，即可查找、获取、利用所需信息资源，无须受信息资源储存的地理位置及图书馆开放时间的影响与限制，可克服图书馆传统服务受时空限制的缺陷。

网络数据库的用户界面友好，易于理解、便于使用。首先，网络数据库的用户界面设计通常直观清晰、图文并茂，如不同的文献类型用不同的图形符号标示，生动直观；其次数据库往往设有专门的功能帮助键，且帮助信息详略适当、清晰、便于查阅；第三，对信息资源的查找利用具有选择与限定的自由，如，可在不同的数据库或文档、不同检索方式之间自由切换与选择，可对文献类型、出版时间、出版形式、可检字段等进行限定与选择，用户只需点击鼠标，即可完成选择与链接 *** 作。这是其他形式的出版物所无法比拟的。

1． 4 数据标准、规范、多元

网络数据库的生产标准、规范，如采用超文本、多媒体等先进成熟的信息处理技术，遵循Z3950等通用的标准、协议与规范，使用Internet Explorer、Netscape等通用、标准浏览器，以及PDF格式文档标准阅读器Acrobat Reader等，既便于用户的 *** 作使用，又便于数据的交换与系统的扩展整合，同时也为数据库的稳定、畅通使用提供了保证。

数据档案格式多元，可包含更多传统纸本媒体无法提供的文档格式。目前，网络数据库数据文档常用的格式有PDF、ASCII（TEXT）及HTML，可满足不同的需要。此外，Word、PostScript格式文档亦常有所见，例如在计算机科学领域，有时可发现许多电子期刊全文内还附上了计算机执行档供使用者取用执行。

图书馆及其网络终端用户只须熟悉常见、通用计算机解读软件的使用，无需特别加以培训，即可充分利用网络数据库检索、浏览、打印、下载所需信息资源。

1．5 数据库的检索功能强

网络数据库的检索功能往往较为强大，这就使得网络数据库在信息检索的检全率、检准率以及检索的灵活性、方便性等方面较之其他形式的出版物更突出、更具优势。其主要表现在以下几个方面：

（1）检索模块灵活、多样

除提供基本或简易检索模块，供初学者及一般用户使用外。还可提供各种形式的高级检索模块，以方便用户进行限定字段检索，或使用逻辑算符（AND 、OR和 NOT）、括号、位置算符、截词符和词根符等构造检索式，进行组配检索，使得检索更为灵活，更为准确。

（2）检索途径（入口）多

除提供关键词、题名、著者、刊名及字顺等多种检索途径外，类似INSPEC、Web of Scince等检索途径（入口）多而广的数据库将越来越多，前者的字段检索（Search Fields）提供有40个字段列表，每个字段都可作为检索入口，后者则提供有分子式等特殊多样的检索入口。

（3）扩、缩检手段灵活、多变

除使用逻辑算符（AND 、OR和 NOT）、括号、位置算符、截词符和词根符等符号进行扩、缩检外；还可对不同的数据库、文档、可检字段（包括关键词(Keyword)、题名(Title)、著者(Author Name)、文摘(Abstract)、全文(Full Text)及所有字段(All Fields)、出版年代、文献类型（包括图书、期刊、报纸、文章等）等进行选择与限定。

1．6 检索结果的显示与输出灵活、多样

（1）检索结果的显示方式灵活、多样

主要表现在三个方面：一是每屏显示的记录数的限定；二是排序方式的多样化，可按相关度、出版时间、文献标题、著者、来源、语言、出版国等多种方式升序或降序排列。如INSPEC数据库检索结果的排序方式即多达10种；三是显示格式的多样化，可提供题录(Citation)、题录+文摘(Citation+Abstract)、全记录(Complete Field)或选择字段(Select Field)等多种格式显示。

（2）检索结果的输出方式多元化

不仅可提供存盘、打印方式下载数据，且可利用E-mial发送检索结果，或将检索结果直接输出到文献信息管理软件，如ProCite 、Reference Manager、EndNote等中，亦或直接在网上订购文献全文。

1．7 数据库系统具有扩展整合功能

对用户来说，理想的状态是：透过一个数据库即可迅速查到所需信息并加以取用，系统扩展整合功能可帮助用户实现其理想。系统扩展整合功能是指数据库开发商借助互联网，利用超文本技术，在不同的信息资源之间进行链接，将原本相互独立、但互为联系的信息资源与服务整合在一块，使之形成为一个互动的有机整体，用户只需透过同一界面，即可迅速查到并获取自己所需要的信息。目前，数据库供应商提供的系统整合功能主要有以下几种：

（1）与图书馆馆藏的链接与整合

目前数据库供应商提供的链接方式有两种：一是数据转入或人工直接输入；二是单向式或双向式直接与OPAC链接，直接链接更为方便、经济、有效。数据库与图书馆馆藏的整合通常可通过数据的上载和下载实现。数据上载，即将图书馆的纸本馆藏记录上载到数据库中，对数据库中只有文摘，没有全文而本馆有纸本馆藏的期刊给予馆藏标示与链接，为读者提供最经济、快捷获取原文资料的信息。数据下载，即将数据库所收录的全部期刊的 MARC 数据下载到图书馆的OPAC中，予以揭示。数据库与图书馆纸本馆藏链接整合，既便于读者在图书馆的各种馆藏资源中串联，弥补单一馆藏资源的不足，从而迅速、有效地检索、获取所需文献信息，又便于图书馆充分、有效地揭示、开发与利用其纸本与电子馆藏。目前，可提供馆藏链接与整合功能的数据库供应商有不少，但整合方式则有所区别。如 SWETSNet 提供LINK-IN/OUT功能；OCLC的 SiteSearch 提供 Web界面，经由Z3950协议达成整合；EBSCO的EBSCOhost 提供双向式链接。

（2）与其他数据库的链接与整合

由于收录的文献范围、侧重点的不同，数据库之间往往既交叉重复，又详略不等。若能在彼此间进行链接，即可帮助用户获取更为详细、更为丰富的相关信息，有利于科研创新与发现。ISI为扩展系统整合功能而特别建立的ISI Links即可满足这种要求。ISI Links通过在不同的数据库之间进行链接，将各种不同来源的数据库加以整合，使得用户只需透过同一的界面进行检索，即可迅速高效地找到自己所需的信息。目前，ISI Web of Knowledge平台可在ISI Web of Scienc、ISI Proceedings、CCC、JCR、BIOSIS Previews、ISI Chemistry、Derwent Innovation Index、NCBI GenBank及INSPEC等数据库之间进行双向链接。如透过ISI Chemistry所进行的文献调研可以经由Web of Science获得更多的相关文献的资料，而在Web of Science中所找到的文献又可透过ISI Chemistry 获得更为详细的反应信息。

（3）与原始文献的链接

即系统利用超文本链接功能，为用户直接提供其在数据库，尤其是书目、索引、文摘数据库中查到的相关文献的原始文献链接。在书目索引文摘等二次文献数据库与全文数据库之间建立链接，可帮助用户迅速、直接访问、获取所需原始文献信息，克服二次文献数据库的固有缺陷，增强数据库的全文提供能力，同时，亦可提高全文数据库的利用率，于读者、于图书馆而言均是十分有利的。目前，数据库供应商提供原始文献链接的方式主要有两种，一是链接到出版商的电子期刊全文，二是链接到相应的全文数据库。例如，ISI已与Academic Press、Americn Institute of Physics 、Elseriver 等16个机构建立了友好的合作关系，可链接到的数百家出版商的数千种全文电子期刊。CSA (Cambridge Scientific Abstracts)数据库的做法与此相似。EBSCO则通过EBSCOhost Electronic Journals Service (EJS)，在 PsycINFO、 Socilogical Abstracts、 ERIC、 MEDLINE、 Econlit、CINAHL 、HealthSTAR 、Life Sciences(CSA)等索引文摘数据库中直接提供出版商以及Academic Search Elite、BioMedical FullTEXT Collection等全文数据库中相关电子期刊的全文链接，EBSCOhost EJS可链接的期刊现有8000种，可链接的全文期刊论文达340万篇。目前，可提供该种整合功能与服务的数据库还有OCLC 的ECO、SWETS等，但前提是图书馆必须订购这些全文数据库或相应电子期刊的纸本形式。

（4）与Internet 信息资源的链接

Internet中包含着丰富的信息资源，网络数据库利用网络便利，可提供相关的Internet信息资源检索与链接，读者只需输入一个检索式即可同时检索数据库及Internet 中的相关信息。该种链接不仅可补充、扩展数据库资源，且可为用户快捷、有效地利用Internet信息资源提供方便。如ISI 的专家对3700多个经过严格评估的学科站点的学术文献进行标引，通过Current Contents eSearch，用户可在检索期刊文献的同时，检索、浏览14万篇全文Web文献。值得一提的是，ISI的互联网文献的链接是基于每一篇以网页形式出现的学术文献具体内容的检索与标引，更细微、更深入。目前，可提供Internet信息资源检索与链接服务功能的数据库有CAS(Cambridge Scientific Abstracts)的Internet Databases Service (IDS)、EBSCO 的EBSCO Host、OCLC 的FirstSearch、、SliverPlatter 的SliverLinker等。

1．8 可提供相关电子信息服务

数据库产品与服务紧密结合，这是网络数据库的又一显著特征。目前，数据库开发商提供的相关电子信息服务主要有：

（1）文献传递服务，当用户从二次文献数据库中查到所需信息并希望得到文献全文时，可通过电子方式在线订购所需要的文献全文。原文订购若选择电子文献传递方式，一般在24小时内即可获得所需文献，方便、快捷，可弥补书目索引文摘等二次文献数据库不能提供全文的不足。

（2）定题服务，与传统的定题服务提供相似，基于网络数据库的定题服务允许图书馆及其用户根据需要开展多种形式的SDI服务。目前，数据库供应商提供的SDI服务主要有两种。一是指定参考用书（reserved list）服务，即系统提供图书馆依主题方式整理出类似所谓的指定参考用书（reserved list）功能选项，从而达成专门的SDI服务。

二是个性化文献报导服务，即由用户创建自己的检索策略，系统定期将符合条件的检索结果传递给用户。例如，Uncover的最新文献报导服务(Uncover reveal) 由用户选择自己感兴趣的关键词或期刊（最多可选50种）建立用户需求文档，系统每周一次，自动地将相关文献及用户所选期刊的最新一期目次信息发送到用户的Email信箱，用户只需定期查看自己的Email信箱，即可及时了解最新研究动态。而ISI的个性化信息代理服务( Discovery Agent, 又称个性化定题快讯服务)，则是ISI基于其现刊题录数据库 Current Contents高质量的信息资源而建立的。利用Discovery Agent ，用户可根据需要，按主题、编著者、期刊名、地址/机构等项目自行制定、管理和编辑自己的检索策略，并不断检测检索结果以获得最合适的检索策略，随后系统便会每周将基于该检索策略的检索结果通过Internet Web 传送给用户，其传递方式主要有两种：即Email和 Web发布加上Email通知，需要时可通过电子方式订购由ISI Document Solution所提供的全文。个性化文献报导服务直接面向网络终端用户，个性化特色鲜明，与全文传递服务配合使用，可实现用户自行 *** 作、完成由建立检索策略、查看检索结果到订购原始文献的文献检索与获取全过程的良好结合与循环，从而帮助用户方便、及时地了解、追踪、获取自己真正需要的最新信息（包括题录、文摘信息及原始文献），减少信息查询负担，提高工作效率。

近年来，国外网络网络数据库发展迅速，已形成一定的规模，但仍存在一些问题与不足，主要是：网络是必要条件，一旦断网或无网，数据库即无法使用；数据库内容存在交叉重复，如ABI与BSP、ARL与ASP；高水平学术电子期刊的品种与数量有限；数据库的开放程度有限，给数据库之间的整合带来困难；数据库的购买模式过于单一，不够灵活等。

2．网络数据库的发展趋势

网络数据库作为一种主要的电子资源，其独特的优势在网络环境下日益突显。随着计算机、通信网络与信息技术的不断发展，未来几年网络数据库将继续呈现出良好的发展势头，成为图书馆发展电子馆藏、开展电子信息服务的重要资源与基础。

2．1 学术电子期刊迅速增长

在发展初期，由于数据库品种与数量有限，选择范围小，图书馆及其用户对数据库的要求不可能也无法要求太高、太多。但是，随着图书馆电子资源建设与电子信息服务的深入发展，图书馆及其用户对电子资源的需求将不断增加，要求亦将越来越高，将更加注重数据库的内容。书目索引文摘等二次文献数据库及普通期刊全文数据库将不再能满足图书馆，尤其是学术图书馆及其用户的需求，人们迫切需要高品质的学术电子期刊。未来几年，高品质的学术电子期刊是最具发展前途的，将迅速增长。据了解，越来越多的著名学术出版商、研究机构以及专业学协会，例如Springer-Verlag、John Wiley、World Scientific、Science、Nature Publishing Group等著名出版商以及英国皇家化学学会（RSC）、英国物理学会（IOP），美国计算机学会（ACM）等正在或拟在近期将其纸本期刊电子化，或者直接创办新的电子期刊。国外有专家预测，未来5年之内，在万维网上将可看到所有重要的自然科学、工程技术与医学学术期刊。届时，学术图书馆的电子期刊与纸本期刊的结构比例将发生变化。

2．2 电子图书迅速蔓延

继电子期刊后，电子图书潜在的巨大市场将引发出版社、数据库开发商及其代理商新一轮的竞争与合作，其结果必然是电子图书的迅猛发展。OCLC的netLibrary已获得10余家大学及其他出版社电子图书的发行权，现有电子图书4万种，2003年计划在此基础上新增2万种电子图书。Springer现有电子图书1300余种，并已成功将The Series Lecture Notes in Computer(LNCS)、 Lecture Notes in Mathematics、 Lecture Notes in Physics等20套丛书中的1000余种书电子化，这些丛书及其他图书的电子化工作将持续进行。John Wiley继2000年提供参考书在线服务后， 2001年11月又推出了在线图书Online Books, Online Books现有电子图书（手册、专著等）180多种，内容涉及化学、生命科学与医学、电子工程/通信等多个学科领域，预计2002年底可达300种。 ProQuest 的Safari Tech Books Online则将电子图书的重点放在IT领域，号称可提供50%以上已出版的IT图书，且通常情况下，新电子图书的提供将先于其印刷版。此外，Safari Tech Books Online 还具有较强的扩展与整合功能。难怪国外有专家预测，未来几年将是互联网上电子图书迅速蔓延的时期。从上述实例，我们不难预测，未来几年，电子图书将成为电子资源新的增长点。电子图书不仅在数量、品种和范围上有大的增长，且在结构、功能上有所发展，此外，电子图书的购买模式将更为灵活、多样。

2．3 文献全文取用即时方便

为了满足图书馆及其用户快速方便地获取所需原始文献的需要，实现信息检索、原文获取的一体化，数据库开发商与集成商日益重视数据库原始文献的提供，以强化数据库原文取用的即时性与方便性。其实现途径主要有以下几种：

（1）不断开发新的电子期刊全文数据库。未来几年电子期刊，尤其是高品质的学术期刊将迅速增加。此外，学术期刊过刊数据库回溯建设将进一步丰富全文电子期刊的品种与数量。例如，Elsevier Science已于2001年1月启动过刊数据库项目（Backfiles Program）, 计划用3年时间，即到2003年底，完成其所收入的1500余种期刊中1995年以前出版的约300-350万篇期刊论文的回溯建库。届时，透过ScienceDirect可检索、浏览的期刊论文全文将多达800万篇、约4千万页。

（2）增加现有数据库中全文期刊的品种与数量，如Bell & Howell 公司（原UMI公司）的学术期刊图书馆（ Proquest Research Library）1999年收录的报刊总数为2308种，其中，全文刊为1472种，2000年报刊总数达2345种，全文刊则增至1533种，2002年全文刊增至1700多种。 EBSCO的学术全文数据库（Academic Search Elite），1999年收录期刊3215种，其中，全文期刊996种，2002年其升级版Academic Search Premier收录的期刊达4425种，其中，全文期刊增至3467种。Elsevier Science的ScienceDirect 期刊数据库2000年收录期刊1100多种，2002年初增加到1200多种, 2002年5月成功收购IDEAL，将包括Academic Press、Mosby、Churchill Livingstone, WB Saunders等出版商在内的335种全文期刊纳入其系统，使其期刊总数增至1500多种，成为目前世界上最大的全文期刊数据库。

（3）提供原始文献链接，方式主要有四种。一是链接到出版商的电子期刊全文，例如，ISI近期将与Cambridege University Press、OCLC、Project Muse 等机构建立友好的合作关系，届时ISI的合作伙伴将近20个，可进行全文电子期刊链接的出版商将多达2300家，ISI的最终目标是力争与其收录的8000多种期刊种的所有电子版全文进行链接。二是链接到相应的全文数据库；三是链接到互联网上的文献全文；四是链接到图书馆的纸本馆藏期刊。

（4）直接在网上订购文献全文。

剩下的通过邮件发给你

网站架构按照制作步骤分为硬架构和软架构。

一、硬架构

1、机房：在选择机房的时候，根据网站用户的地域分布，可以选择网通、电信等单机房或双机房。

2、带宽：预估网站每天的访问量，根据访问量选择合适的带宽，计算带宽大小主要涉及峰值流量和页面大小两个指标。

3、服务器：选择需要的服务器，如服务器，页面服务器，数据库服务器，应用服务器，日志服务器，对于访问量大点的网站而言，分离单独的服务器和页面服务器相当必要。

二、软架构

1、网站的框架：现在的PHP框架有很多选择，比如：CakePHP，Symfony，Zend Framework，根据创作团队对各个框架熟悉程度选择。

2、逻辑的分层

1）表现层：所有和表现相关的逻辑都应该被纳入表现层的范畴。

2）应用层：主要作用是定义用户可以做什么，并把 *** 作结果反馈给表现层。

3）领域层：包含领域逻辑的层，就是告诉用户具体的 *** 作流程的。

4）持久层：即数据库，保存领域模型保存到数据库，包含网站的架构和逻辑关系等。

扩展资料

网站的分类

1、根据网站所用编程语言分类：例如asp网站、php网站、jsp网站、Asp net网站等；

2、根据网站的用途分类：例如门户网站（综合网站）、行业网站、娱乐网站等；

3、根据网站的功能分类：例如单一网站（企业网站）、多功能网站（网络商城）等等。

4、根据网站的持有者分类：例如个人网站、商业网站、政府网站、教育网站等。

5、根据网站的商业目的分类：营利型网站（行业网站、论坛）、非营利性型网站（企业网站、政府网站、教育网站）。

参考资料来源：百度百科—网站架构

参考资料来源：百度百科—网站

以上就是关于大数据处理的五大关键技术及其应用全部的内容，包括:大数据处理的五大关键技术及其应用、ebscohost全文数据库包括哪几个子库、SQL实战新手入门：前言等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9506111.html

大数据处理的五大关键技术及其应用

发表评论

评论列表（0条）