一、信息采集技术
信息采集技术包括对象数据采集和元数据采集。
1)对象数据采集主要包括文本信息采集和图像信息采集,文本信息采集工作主要指将原来纸介质文献进行数字化。这仅仅依靠人工录入、人工校对是远远不够的,要完成大量文本信息的数字化,需要可靠的扫描技术和OCR(Optical Character Recognition,光学字符识别)识别技术。图像信息的采集需要应用扫描技术,重要的现场图像可以应用数码摄像机、数码照相机等工具进行采集,而原来存储在录像带等介质上的图像资料可以通过相应的技术完成数字化。当前文档一般都提供数字化版本,只要按集成化的数字图书馆系统的要求进行加工存储组织即可。
2)元数据就是关于数据的数据。元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。元数据采集技术指从数据库系统、文件系统、HTML文件中采集元数据,从而形成本地元数据库仓储的技术。
二、信息加工技术
信息加工技术包括对象数据加工技术和元数据加工技术。
(1)对象数据加工技术是指采集的为对象数据,则按元数据标准和著录规范进行标引、分类工作。
(2)元数据加工技术采集的为元数据,则按元数据标准和著录规范,对采集数据进行转换和清洗工作,即对元数据进行规范化与标准化,去除不合要求的元数据。
(3)自动标引、人工标引技术主要涉及主题标引和分类标引,是信息资源加工的一个重要环节。自动标引技术以主题词表和分类表为基础,为标引人员自动生成主题词与分类。
三、信息存储技术
目前图书馆的书目信息主要存储在各种不同环境的数据库中,由于异构数据库间并不兼容,往往需要编制一些转换程序,使得信息共享的效率大大降低。同时,为了开发网上对图书馆信息的快速和准确查询服务,现有图书馆的书目信息库已不能满足这一要求,必须增加其他内容的数字化信息。由于目录信息是非结构的信息,也不适宜用现有的数据库来表示。因此,图书馆中部分数字化信息可以使用XML来表达和存储。用户的检索请求通过Web服务器调用程序传送给相应的系统内部服务器,在系统内部,所有的信息处理工作都是围绕着XML文件系统进行的,当然其前提是将数据库中的信息转化成XML文档,将书的目录信息通过相应工具生成XML文档,传送到用户的浏览器中进行显示,或传送到其他的Web服务器实现信息共享。
信息的存储、信息的检索、信息的分析都要利用数据库技术。传统数据库技术经历了网状数据库、层次数据库和关系数据库三个阶段。建立在信息集成基础上的数字图书馆提供的信息资源不仅有普通的可以结构化的电子文本,还有图像、音频、视频、软件等等各种类型的信息,由于这种多媒体信息的存在和网络的发展,推动了数据库技术的发展。面向对象数据库技术、非结构化数据库技术、多媒体数据库技术日臻成熟。这种数据库的记录长度是不定的,可以储存各种类型的信息,因而可以轻松地处理多媒体信息。使得建立在信息集成基础上的数字图书馆系统的功能不仅仅提供一次信息,还提供经过处理的二次信息,还可以对信息资源进行处理并进行信息分析提供决策服务。因此,支持管理决策过程的、面向主题的、集成的、稳定的、随时间而变的数据存储技术也是建设数字图书馆不可缺少的技术之一。
四、信息检索技术
信息检索技术发展非常迅速,尤其是Web化的搜索方式正在成为普遍的检索模式并构成当今信息检索的基本方法,它集超文本技术、网络技术和多媒体技术为一体。万维网的浏览器/服务器模式具有优化的结构和强大的功能,Web化的搜索方式具体表现为各种SearchEngine(搜索引擎)的应用。SearchEngine(搜索引擎)是互联网上具有查询功能的网页的统称,目前已多达数百种,包括WebSearChEngine(万维网搜索引擎)、FTPSearehEngine(文件搜索引擎)、Email/WhitePageSearehEngine(电子函件/白页搜索引擎)、YellwPageSearehEngine(黄页搜索引擎)、UsenetsearehEngine(新闻论坛搜索引擎)、Meta-SearehEngine(元搜索引擎)等类型。万维网是互联网上最先进的网络信息检索系统,也是最受检索者喜爱的信息检索系统之一。
将人工智能领域的Agent技术,运用于互联网网络化智能信息检索中,给出了一种新的互联网智能检索技术。智能软件Agents是能为用户执行特定的任务,具有一定程度的智能以允许自主执行部分任务,并以一种合适的方式与环境相互作用的软件程序。Agent技术具有主动性、智能性、协作性、移动性,通过内在联系,建立模糊关系,学习用户个性化的思维,进行模糊推理,这就能为用户提供高效而完整的信息服务,将Agent技术与模糊信息处理两者结合应用于检索服务中,得到了一个解决信息检索问题更有效的途径。
五、信息服务技术
1)索引技术:一般有内容索引、结构索引和链索引。这些索引在建立时涉及索引的结构、索引的可扩展性和分布特点、索引生成的并行化等技术问题。
2)开放式URL连接系统:因为一个连接系统需要与多个源点数据库互通,所以必需规划连接系统与源点数据库通信的方法,被提议的标准称为开放式的URL,用在URL里传送元数据。和开放式URL有兼容性的连接系统叫做开放式URL连接系统。开放式连接为连接程序提供了一个独立的系统。连接系统从某一个源点收到元数据后,再根据自己数据库里的数据,决定提供给用户的目标数据。
3)数据挖掘技术:网络信息挖掘技术,也可以称为数据库中的知识发现,是从大量数据中抽取出先前未知的、完整的、可信的、新颖的、有效的信息的高级处理过程,它是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律来做关键的决策。信息挖掘包括数据挖掘((DataMining)和文本挖掘(TextMining)两种,它采用先进的技术来分析信息资源。
4)信息推送技术:信息推送技术是指一种按照用户指定的时间间隔或根据发生的事件把用户选定的数据自动推送给用户的计算机数据发布技术。推送技术的发展方向将是多点播送和多址发送的内容传递。RSS技术是信息推送技术中的一种,RSS是一种 XML(Extensible Markup Language,扩展标记语言)格式,用于为内容整合客户端提供选择性的、汇总过的网页内容,更确切地说,是基于XML,RDF的描述资源集合(特别是网络资源等)的轻便、可扩展的元数据集。RSS作为描述和同步网站内容的格式,是目前使用最广泛的XML应用。
5)多语种技术:可以通过多语言浏览功能,通过机器翻译功能为用户提供多种服务。
6)音频、视频播放技术:利用互联网播放MPEG,MP3,WAVE等高质量的音频文件和AVI等视频文件。
随着大数据分析市场迅速扩展,哪些技术是最有需求和最有增长潜力的呢?在Forrester Research的一份最新研究报告中,评估了22种技术在整个数据生命周期中的成熟度和轨迹。这些技术都对大数据的实时、预测和综合洞察有着巨大的贡献。
1 预测分析技术
这也是大数据的主要功能之一。预测分析允许公司通过分析大数据源来发现、评估、优化和部署预测模型,从而提高业务性能或降低风险。同时,大数据的预测分析也与我们的生活息息相关。淘宝会预测你每次购物可能还想买什么,爱奇艺正在预测你可能想看什么,百合网和其他约会网站甚至试图预测你会爱上谁……
2 NoSQL数据库
NoSQL,Not Only SQL,意思是“不仅仅是SQL”,泛指非关系型数据库。NoSQL数据库提供了比关系数据库更灵活、可伸缩和更便宜的替代方案,打破了传统数据库市场一统江山的格局。并且,NoSQL数据库能够更好地处理大数据应用的需求。常见的NoSQL数据库有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3 搜索和知识发现
支持来自于多种数据源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息的工具和技术。如,数据挖掘技术和各种大数据平台。
4 大数据流计算引擎
能够过滤、聚合、丰富和分析来自多个完全不同的活动数据源的数据的高吞吐量的框架,可以采用任何数据格式。现今流行的流式计算引擎有Spark Streaming和Flink。
5 内存数据结构
通过在分布式计算机系统中动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟的访问和处理大量数据。
6 分布式文件存储
为了保证文件的可靠性和存取性能,数据通常以副本的方式存储在多个节点上的计算机网络。常见的分布式文件系统有GFS、HDFS、Lustre 、Ceph等。
7 数据虚拟化
数据虚拟化是一种数据管理方法,它允许应用程序检索和 *** 作数据,而不需要关心有关数据的技术细节,比如数据在源文件中是何种格式,或者数据存储的物理位置,并且可以提供单个客户用户视图。
8 数据集成
用于跨解决方案进行数据编排的工具,如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB等。
9 数据准备
减轻采购、成形、清理和共享各种杂乱数据集的负担的软件,以加速数据对分析的有用性。
10 数据质量
使用分布式数据存储和数据库上的并行 *** 作,对大型高速数据集进行数据清理和充实的产品。
因为新的技术更加快速的处理信息。
传统数据处理方法的不足:传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库Q和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!
可视化的报表定义、审核关系的定义、报表的审批和发布、数据填报、数据预处理、数据评审、综合查询统计等功能模块。
通过信息采集网络化和数字化,扩大数据采集的覆盖范围,提高审核工作的全面性、及时性和准确性;最终实现相关业务工作管理现代化、程序规范化、决策科学化,服务网络化。
实时采集来自生产线的产量数据或是不良品的数量、或是生产线的故障类型(如停线、缺料、品质),并传输到数据库系统中;接收来自数据库的信息:如生产计划信息、物料信息等。
系统种类设备类
是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据采集系统是结合基于计算机的测量软硬件产品来实现灵活的、用户自定义的测量系统。比如条码机、扫描仪等都是数据采集工具(系统)。
网络类
用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,也可以对数据进行处理。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。
4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
数据采集站工作原理是:利用一种无线模块,传感器,从系统外部采集数据并输入到系统内部的进行数据统计的一个应用系统。
其工作原理是从无线模块和传感器其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到计算机系统中进行分析,处理。
数据采集是为了测量电压,电流,温度,压力,湿度,压力等物理现象而开发出一套应用系统,它基于无线模块,传感器等硬件结合应用软件和计算机,进行测量各种物理现象。
数据采集站的工作方式是:
数据采集的工作方式是将传感器采集到的各种物理现象转换成电讯号通过无线模块传输到计算机中,计算机又将电讯号传换成我们能理解的物理单位。
采集一般是采样方式,隔一段时间对同一点数据进行重复采集。采集的数据大多是瞬时值,也可以是某段时间内的一个特征值。
并且我国是作为世界第一制造大国,工业数据采集领域有着巨大的潜力,随着物联网不断的更新换代,企业也对工业数据采集的实时性,可靠性,专业性有着更加严格的要求。
相比较传统以往的数据采集,现在发工业数据采集逐步在往大数据领域不断的靠近,传统的数据采集来源单一,储存、管理等会显得越来越乏力,工业数据采集采集的发展会向着大数据方向靠拢发展。
为什么要建立数据仓库,数据仓库和数据库的区别?因为理论上的优点说法都很多,但要真正很好地理解,能简洁地向客户阐述明白,让客户觉得建立数据仓库是一件值得做的事情,还是值得讨论一下这个问题。有如下一些朋友们说法(自己在批注处谈点个人的意见):
A
数据库是一个装数据(信息的原材料)的地方。 数据仓库是一种系统,这种系统也是用数据库装东西。(这有点没说清楚:个人理解数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据,数据库装的原始数据,没经过任何加工;而数据仓库是为了满足分析需要,对源数据进行了Transform过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解。) 数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。 那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。
B
早期一直不理解数据仓库是什么困惑得很。 宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。 数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。(数据仓库的建立和数据挖掘都是一个过程,可以从数据仓库生命周期和OLTP系统生命周期的区别进行理解,数据挖掘过程CRISP-DM) 数据仓库的物理上就是数据库。相对业务系统数据库叫OLTP数据库(用于业务处理),这种数据库叫OLAP数据库(用于业务分析,不知道有没有这种说法,个人觉得OLAP和数据库还是不能简单地称为OLAP数据库的;OLAP是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足DDS从多种角度对数据进行快速、一致、交互地分析,克服传统DDS交互能力差的弊病,使决策者能够对数据进行深入观察。OLAP服务器使用为用户预定义的多维数据视图对数据仓库的信息进行统计分析处理,为具有明确分析范围和分析要求的用户提供高性能的决策支持在线分析处理,只是基于DW上的一种多维分析方式,当然我也可以不用OLAP,直接做基于DW的DM)。 数据仓库的概念是针对以下基本需求产生的: 公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律。 数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就100G以上。 数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。 数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓“ETL”过程) 数据仓库包括业务系统长期的历史数据,例如5年,用来分析。(所谓“ODS”数据) 数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓“事实表”、“维度表”)。 数据仓库概念兴许还包含报表生成工具(所谓“BI”工具)。这些工具能够达到几年前所谓DSS(决策分析)的效果。 数据仓库的客户历史资量的分析,也许又与CRM系统粘点边。 总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。 牢记住数据仓库的基本需求,不要被供应商吓着。
C
数据仓库可以说是决策支持系统(个人不同意这个观点,决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据挖掘工具出现以前,就已经有DSS了,但其在实际应用开发过程中暴露出许多问题,DW为克服传统DDS存在的问题提供了技术上的支持,基于DW上的DSS效果自然有很大提升),能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。 沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。 数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的(这句话明显不成立,数据仓库里表分为事实表和维表,这和数据库里的表还是有本质区别的,组织方式完全不一样,一个是面向主题,一个是面向业务的)。需要把存放大量 *** 作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。
以上就是关于高校图书馆网络信息服务体系运行的技术保障全部的内容,包括:高校图书馆网络信息服务体系运行的技术保障、大数据技术有哪些、为什么处理大数据需要专门的技术,以往的技术不再适用等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)