计算机应用技术,Technology of Computer Application,狭义:可以利用任何一种计算机软件的任何一功能,为可能用到它的人提供一定的服务。广义:对各种软件的各种功能、设置、属性有足够的了解和应用能力,可以在各种情况下驾驭计算机高效率的为不同人群提供他们所需要的各种服务。 总之,凡是利用计算机软件,为需要或者可能需要它的人提供服务的技术,就是计算机应用技术。该专业主要开设微机原理与接口技术、C语言、数据结构、 *** 作系统、平面设计、VB程序设计语言、SQL SERVER数据库应用、3DS软件应用、网页制作、Visual FoxPro应用基础、工具软件等课程。
2主要课程
我
计算机软硬件技术基础、Linux *** 作系统、数据库系统SQL、数据结构与C程序设计、单片机原理与技术、计算机网络原理、工程经济、高级语言汇编、VB net程序设计、多媒体软件应用、计算机网络与网站建设、Java语言程序设计、图形图像应用处理(PhotoShop)、Flash动画制作、微型计算机安装调试维修、办公室软件应用 *** 作、计算机辅助设计、岗前培训“一技之长”。
公共课程
1.思想道德修养与法律基础
该课程是以马列主义、毛泽东思想、邓小平理论为指导,理论联系实际地研究大学生成长过程中思想道德修养的客观规律的一门思想、政治和品德教育的课程。它根据我国社会主义现代化建设对大学生的政治、思想、品德方面的要求,以及大学生在政治观、人生观、道德观方面形成发展的规律和特色,教育大学生加强自身的思想道德修养,努力成为社会主义的建设者和接班人。讲授内容:大学生的历史使命,基本国情和基本路线教育,人生观教育,道德教育,社会主义民主法制教育。
毛泽东思想、邓小平理论和“三个代表”重要思想。
该课程通过简明扼要地讲授马克思主义的基本观点,进行马列主义、毛泽东思想、邓小平理论、“三个代表”重要思想和科学发展观教育,使学生明确改革是在新形式下,马克思主义的基本原理与我国客观实际的紧密结合,充分发挥马克思主义教育主阵地主渠道作用,帮助学生树立正确的世界观、人生观和价值观,达到培养“四有”人才的目的。
2.基础心理学
培养德智体全面发展的优秀心理学科学研究和教学人才;培养高层次、高素质的专业领域的应用型人才。培养能在文化教育、医疗保健、党政机关、心理咨询与辅导等机构从事教学、咨询与辅导等服务性工作的专业人才;能在企事业单位从事人员选拔、测评和培训的管理人才、能在市场调研及社会调查研究机构从事问卷设计和数据分析的专业人才。
3.形势教育
该课程是在马克思主义指导下,分析特定时期社会政治、经济、思想文化发展趋势,揭示党和国家在不同时期的方针政策的基本内容和基本精神的思想政治教育课程。主要目的是帮助学生全面正确地认识国际国内形势;认识党和国家面临的形势和任务;拥护党的路线、方针和政策,增强实现改革开放和社会主义现代化建设宏伟目标的信心和社会责任感。
4.大学英语
培养学生阅读英语书刊的能力,并能在实践中以英语为工具获取该专业所需的信息,为进一步提高英语水平打下较为坚实的基础。
主要内容:语音、语法、笔译。着重矫正语音、语调,扩大词汇量,加深基本语法,借助词典翻译一般短文,加强阅读和笔译技能的训练。
5.高等数学
该课程是该专业的重要基础课。
通过学习使学生比较熟练地掌握求导的方法和求积分的方法,能够求解典型的一阶二阶常微分方程,进一步培养学生用数学分析的方法解决工程问题的能力。为以后学习专业基础课和专业课以及将来从事工程设计打下良好的基础。
该课程的主要内容:函数及极限,一元函数微积分,一阶二阶常微分方程,空间解析几何,多元函数微积分,级数等。
6.体育
进行体育基本知识的教学和基本技能训练。使学生掌握正确的运动技能和科学的锻炼方法,养成体育锻炼习惯,提高身体素质,达到《国家体育锻炼标准》,具有从事该专业或其他行业所需要的良好身体素质。
基础课程
1.计算机文化基础
使学生掌握计算机的基础知识、具备计算机的 *** 作能力。主要讲 *** 作系统、数据库管理系统、文字处理系统以及表格处理系统的知识。熟练上机 *** 作,并参加山东省计算机应用能力考核,取得相应的合格证书。2、数字电路
该书讲述数字电路的基本知识,门电路、组合电路、触发电路、数字集成电路等工作原理,使学生具备分析综合电路的能力,为学习《微机原理与汇编》及其他硬件相关课程打下基础,并具备一定的微机电路的检测与维修技能。
计算机应用技术课程计算机应用技术课程2.微机原理与接口技术
该课程主要讲解计算机基础、8086微处理器结构、80X86微处理器结构、存储器结构、微机中断系统和DMA控制方式、微机接口及其应用、MCS51和MCS98单片微处理机、A/D、D/A转换器及其应用。介绍计算机基本组成原理和PC机微处理器和存储器层次结构的技术特点;详细介绍了接口电路原理和组织、扩展微机系统应用的接口技术。
3.模拟电路
模拟部分讲述二、三极管的结构、工作特点及应用电路、二级管的整流、滤波电路、三极管基本放大电路及常用放大器。
4.C语言
C语言是计算机专业必修课,以研究程序结构和编程技术为主要目标。目的使学生掌握C语言的基本语法和编程方法,掌握结构化程序设计的基本概念,掌握程序设计中常用算法和数据结构,并在此基础上编写出一般的应用程序。具有C语言我、调试、运行的实际能力,具有一定的程序设计能力。
5.数据结构
该课程是计算机专业必修的一门专业基础课,该课程详细介绍了线性表、栈和队列、串、数组和广义表,树和二叉树以及图等几种基本类型的数据结构,以及程序设计中经常遇到的两个问题——查找和排序。通过课堂听课、作业、上机实验使学生学会分析研究计算机加工数据对象的特征,具备选择适当的数据结构以及相应的算法能力,并具备算法的时间分析、空间分析能力,另一方面学习该课程的过程也可进行复杂的程序设计,要求学生写的程序结构清楚,正确易读,使学生具备开发大型软件的基本技能,上机选用vc环境。
6.专业英语
该课程是计算机专业学生应该掌握的一门计算机外语工具。掌握微机硬件组成,软磁盘、微机软件,使用计算机的过程,存储器,CPU,I\O设备,网络等内容。了解上机时常见的提示信息及解释,通过该课程的学习使学生扫清上机时使用英语软件的障碍,并且使学生具备阅读计算机专业英语书刊的能力,能听懂一般专业学术报告的能力。
7.教育学
该课程通过学习,使学生掌握教育的基本规律,熟悉我国的教育方针、政策、法规;掌握系统的中外教育基本理论知识、教育的历史知识和指导各级各类学校的教育、教学实践的知识和技能;具备进行教育科学研究的能力,熟练掌握计算机的基本 *** 作、传授技能。
8. *** 作系统
该课程主要讲解: *** 作系统的功能和类型、进程与处理器管理、存储管理、设备管理、文件管理、常用 *** 作系统的基本特点、Unix *** 作系统的功能特点等。
专业课程
1.平面设计
学会我软件的使用方法和技巧,较熟练使用我软件进行我和设计能力。
2VB程序设计语言
该课程主要讲授如何使用VB开发Windows应用程序,包括图形编程,文件使用,多媒体程序开发及数据库编程等,通过学习学生可利用VB编写出种种应用程序。
3.SQL SERVER数据库应用
主要任务是介绍数据库组织、管理和使用的一般知识,包括数据模型、数据库结构、数据库系统、数据库设计、关系运算、关系规范化、关系查询(SQL语言)等方面的知识;介绍至少一种实际的数据库管理系统的构成与使用。目的使学生通过该课程的学习,具有进行简单数据库应用系统设计与开发的能力。
4.3DS软件应用
该课程主要讲授3ds的基本工作界面,掌握MAX的工具箱 *** 作原理,学习各种基本模型制作方法,学习基本动画制作方法
5.网页制作
该课程主要学习计算机 *** 作和网页基础知识,网站结构和风格设计、网页文本和表格、在网页中使用图形图像、导航和链接、柜架网页、基本表单元素和动态网页。
6.计算机网络
该课程主要学习计算机网络基本原理和基本技术,局域网的特点、原理及典型实现技术。该课程是计算机应用专业的基础课。主要内容:网络概述,网络的层次模型,通信子网,计算机网络的高层服务,计算机网络应用开发与相关技术。通过该课程的学习使学生了解网络的原理及应用,熟悉局域网的安装、设计思想,并可进行网络管理和一般性维护。
7.Visual FoxPro应用基础
该课程主要讲解VFP的基础知识,包括数据库基础知识、数据的建立与项目的管理、数据处理命令、查询与视图、SQL语言及程序设计基础。同时讲解如何利用VFP所提供的各种生成器来设计数据库应用程序,包括表单、报表、菜单与工具栏的设计和应用程序开发的完整过程。
8.计算机组装与维护
该课程主要包括:多媒体概述、多媒体的音频、视频、动画技术,并从实际出发介绍多媒体应用软件的选购、安装等实用指导。多媒体系统组装包括:声卡、解压卡的工作原理及技术指标,安装调试故障的分析及处理。微机系统维护包括:机房的配置及 *** 作规程,计算机病毒概况、特点、预防与清除以及常见故障的分析与排除。
9.工具软件
该课程主要讲解:系统工具软件Norton Utilities2000、系统测试工具、磁盘分区工具、磁盘复制工具、数据压缩工具;电子书阅读工具、工具、抓图工具、图象处理工具、多媒体播放工具;电子邮件工具、网络浏览器、下载工具、IP工具、网络加速工具;杀毒工具等。
选修课程
1.演讲与写作
该课程的开设目的是,使学生通过学习,加深对语言的社会本质和实际功能的认识,提高运用祖国语言文字的实际能力,特别是言语交际的实际能力,同时,通过对写作的强化练习,使学生系统地掌握常用应用文体文章的写作理论知识和方法,提高学生在学习、工作和日常生活中实际应用各种文体的写作能力。
2、音乐与绘画
通过该课程的学习,可以陶冶学生的艺术修养,培养学生的艺术素质,并且在系统的训练过程中,培养学生正确的观察方法和造型能力,对今后的全面发展奠定良好的基础。
3.大学生就业与创业指导
该课程的基本礼仪是:对市场经济发展、就业市场状况和就业形势进行分析,使毕业生树立正确的择业观并调适在择业过程中可能出现的矛盾心理;教导毕业生,使其掌握一定的求职技巧并转换角色、适应社会发展对人才的需求;使毕业生了解政策,更好地利用就业指导机构指导自身就业。
4、社交礼仪
该课程使学生掌握礼仪的意义和作用。在日常生活和工作中增强自身的礼仪修养,规范自己的礼仪行为。明确各种工作人员的礼仪规范和服务规范及在工作中的标准和要求。
3核心课程
我
1、Vf数据库应用主要讲授数据库的基本原理,数据库系统的组成;关系型数据库的特点、基本运算、数据组成;以Visual Foxpro为实例,学习数据库的设计和开发,掌握数据库的应用。
2、V B N E T程序设计该课程主要讲授V B N E T程序设计语言的集成开发环境、程序设计基础、窗体和基本输出输入、常用控件、工程和程序管理、应用程序的结构、菜单程序设计、窗体设计和文件处理等。
3、JAVA程序设计该课程主要讲授Java的语言规范、Java的编程技术及应用,主要内容有:Java基础、流程控制、方法、数组、面向对象程序设计基础、线程、图形用户界面设计等,使学生掌握用Java进行面向对象程序设计的基本方法。
4、网页制作该课程主要讲授网站的设计、我、修改、上传,主要应用DreamweaverMX2004及FireworksMX2004。其中DreamweaverMX2004是网页我软件,讲授其表格、框架、层等布局工具及超链接、CSS样式等相关知识, Fireworks是图形/图像处理软件,主要讲授静态的制作、处理及简单动态的制作。
5、FLASH动画制作主要讲授网页动画设计软件Flash的使用方法,使学生掌握这一交互式动画设计工具,并能够利用它将音乐、声效、动画以及富有新意的界面融合在一起,以制作出高品质的网页动态效果。
4就业方向
我
计算机软件开发、计算机及其网络管理维护、国家企事业单位办公部门,互联网站建设维护等职业岗位群。
职业资格证书
计算机硬件工程师、计算机二级三级、计算机国家二级三级、LINUX管理、平面设计师、网站设计师、工业测量与控制、仪器仪表与智能家电产品开发及应用等。
5知识结构
我
(1)具有高层次计算机专门人才的文化基础知识。包括计算机软、硬件运行基本原理与计算机体系结构的知识;微型机及其运行的基本知识;计算机软件基础及程序设计,软件开发,调试知识;数据库管理系统原理及其实现的基本知识;计算机通讯系统及其网络系统的基本知识;计算机多媒体技术的基本知识;微型机的组装、调试的知识;及时跟踪计算机领域出现的新技术、新思想知识。
(2)掌握计算机硬件、软件和维护工具的使用。
(3)掌握计算机专业必须的专业知识,计算机水平达到二级以上。
(4)熟练地掌握一门外语,英语达到三级。
6能力结构
我
(1)学生应具备计算机硬件、软件和有关工具的 *** 作能力。
(2)跟踪计算机新技术的能力。
(3)多媒体应用软件的开发能力。
(4)信息管理系统的开发和维护的能力。
(5)计算机网络设备的安装、调试、维护和 *** 作能力。
(6)计算机房的建设、管理和维护的能力。该系要求,高职班学生毕业应争取有四证:毕业证、大学英语三级证书、全国计算机等级考试二级证书、计算机 *** 作员高级技能鉴定证书。
7专业特色
我
计算机应用技术课程计算机应用技术课程计算机应用专业的特色是“厚基础,重方向”。该专业学生可以学到很扎实的计算机应用基础知识,就业面广;同时,在此基础上又强化专业方向,学生们有重点地掌握一个专门化的技能,以便从事专业性较强的计算机岗位工作。
该方向着重研究神经网络、模糊逻辑、模糊神经网络、模拟退火技术、蚁群算法等在视频图像处理与编码中的应用,旨在发展快速高效和具有在低码率信道下实现视频图像实时编码潜能的压缩算法;在国内率先开展了模糊矢量量化技术的研究,提出了模糊学习vq算法、模糊k-邻域vq算法、随机竞争学习vq算法,使得vq编码性能大大提高,解决了对初始码书的依赖性问题和码书设计时间过长的问题。在数字水印技术方面,较为系统地引入了混沌理论,同时在国内较早地开始第二代数字水印算法的研究;该方向还将医学成像技术、人工生命、非线性非确定系统辩识相结合,在国内较早地提出了基于spect、fmri、eeg、meg等信息融合的高维时空非线性模型的建立和辨识,能够为医学功能实时成像提供定量的理论依据、有效的分析方法和实用的计算手段。
该方向重视高水平的实验室建设,分别与美国ti公司和美国motorola公司合作成立了dsp实验室和eda实验室各一个,实验室设备总投入已超过400万元,着重研究数字信号的实时处理技术与硬件实现,在现场可编程门阵列系统的动态可重构技术方面的研究,已经取得了关键技术的突破。这些实验室设备先进,及时跟踪国外大公司的最新技术,当前已经为深圳特区的信息行业提供了较为雄厚的技术支持和完整的技术培训,具有较大的知名度和良好的学术声誉。
该方向积极开展“产、学、研”合作项目,涉及高分辨率医学影像设备、无线通讯接口、固定电话短信设备、生化分析仪等领域,其中“isp数字电路实验分析系统”获得1999年广东省科技进步三等奖,“可编程来电显示测试仪的研究”获得1999年深圳市科技进步三等奖,“全自动多参数临床电解质分析仪”2001年通过广东省药品监督管理局的鉴定,已有5项成果在中国高新技术交易会上成功转让和实施产业化,当前已产生经济效益4000万元。
该方向积极开展国际间的学术合作研究,学术骨干中共有5人次赴英国做访问学者,并且承担英国british council的国际合作科研项目一项。该方向的研究工作,一方面以多媒体图像信息处理的新理论、新方法和新技术为突破口,力图实现理论和技术上的源头创新;同时将“产、学、研”紧密结合,力求形成我国自主的知识产权,提高核心国际竞争力。
8专业自考
我
主考院校:中山大学
专科
专业代号:A080701
课程设置:考课程16门,共70学分;选考课程0门,共0学分;加考课程1门,共6学分;
说明:1、016课程含007、009、012课程实验2学分,008课程实验3学分,014课程实验各1学分,须相关课程笔试
全部合格后方可报考。
2、港澳考生可不考001、002两门课程,但须加考231课程。
独立本科段
专业代号:B080702
课程设置:必考课程16门,共74学分;选考课程0门,共0学分;加考课程4门,共19学分;
说明:
1、015课程含007、008、011课程实验各2学分;010、012、013课程实验各1学分,上述实验和202、203课程中的实践考核须相关课程笔试全部合格后方可报考。
2、计算机及应用(或原计算机及其应用专业)专科毕业生可直接报考本专业;电子电工信息类非专业专科(或以上)毕业生报考本专业,须加考201课程;工科类非电子电工信息类专业专科(或以上)毕业生报考本专业,须加考201、202两门课程;其他专业专科(或以上)毕业生报考本专业须加考201、203两门课程,已取得相同名称课程考试成绩合格者可申请免考。
3、港澳考生可不考001、002两门课程,但须加考231课程。
4、本专业仅接受国家承认学历的专科(或以上)毕业生申办毕业。[2]
9研究方向
我
一、该方向主要研究计算机网络的应用技术和信息安全技术。
主要工作包括:(1)安络技术的研究,已经完成“入侵检测预警和安全管理技术”与“安络服务器技术研究”2项国家863计划信息安全主题研究项目,重大国防项目2项,广东省自然科学基金项目3项
(2)基于互联网络的软件工程技术和网络软件集成技术,在多agents协同工作,通用rpc应用平台等方面取得了研究成果[3]
(3)中间件技术,特别是安全中间件在银行支付系统中的应用技术,取得了多个成功应用的案例。
(4)j2ee架构的应用技术,在corba应用技术方面也取得了成果。
该研究方向研究力争解决对国民经济发展和国防建设具有重大意义的网络与信息安全领域所涉及的重大科学问题和关键基础技术。以网络应用与信息安全的构造和运行过程中所涉及的新理论、新结构、新方法和新技术为突破口,力图实现在科学理论和技术上的源头创新,以提高学生在网络与信息安全研究领域的整体创新能力和国际竞争力,形成我国自主的知识产权。
二、智能化网络与应用
该方向主要研究网络信息与生物信息的智能处理技术。该方向的主要研究内容包括:
①智能主体(agent)及其应用技术:主要研究主体语言、主体之间的协作和协调、通信和交互技术、多主体学习以及多主体系统在基因组自动注释(automated genomic annotation)、生物信息智能集成与共享web服务资源融合中的应用等。
②数据挖掘与知识发现:主要研究基础理论、发现算法、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。
③语义web与ontology:研究语义web的支撑技术、模型和方法,包括可扩展标记语言(xml,extensible markup language)、xml schemas、资源描述框架(rdf, resource description framework)和知识本体(ontology)等创建语义web的支撑技术。重点研究:设计机器可读的网上信息内容表示、自动推理模式、后基因组语义web的支撑技术、ontology与基因功能注释、知识网格和信息网格。
④生物信息智能处理技术:研究生物智能信息处理中的算法问题,重点研究生物信息资源共享技术和生物信息的知识挖掘。主要包括研究新的dna序列特征分析方法;研究先进、高效的信息分析和数据挖掘手段,从大量繁杂的蛋白质组数据中找出内在联系,揭示蛋白质的功能及相互作用关系。
该方向已完成的主要科研项目包括:基于web的智能信息采集与分类系统、城市流通领域电子商务系统——中国商品交易网、智能信息抽取及其应用研究、中国饲料服务网的研究与开发、电子出版物信息处理系统。该方向已联合培养博士研究生2名,硕士研究生8名。当前在读的联合培养博士研究生6名,硕士研究生6名。
学生问答
(1)计算机应用技术专业,(大专生、本科生,初高中生)是否适合学习吗?
计算机应用专业适合所有的有兴趣的人学习的,BENET这个专业很受欢迎,是印度APTECH的教学模式比较重视实践 *** 作教材更新比较快,根据主流产品和技术的变化而进行动态的更新,按照北大青鸟作出的学习目标
(2)问:学习后认证考试的题目由谁来出
认证考试的题目是统一命题的,并定期组织全国考试。考试为闭卷考试,试卷由统一组织评卷。
(3)问:学习课程需要英文基础吗?
学习是要掌握一点英文基础,以便能看懂计算机常用的几个单词。但英语不好的同学也不用头大,计算机英语很多都是简写的,而且重复性很高,不是像高中似的要你背很多单词,课程已经把学习的门槛降低了很多,不少内容都是用中文撰写及解释的,所以说你可以放心地学习。
文 | 翟周伟
本文节选自《Hadoop核心技术》一书。
Hadoop是一个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国内外的hadoop应用现状。
国外Hadoop的应用现状
1Yahoo
Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop机器总节点数目超过42000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个,在Pig中超过60%的Hadoop作业是使用Pig编写提交的。
Yahoo的Hadoop应用主要包括以下几个方面:
支持广告系统
用户行为分析
支持Web搜索
反垃圾邮件系统
会员反滥用
内容敏捷
个性化推荐
同时Pig研究并测试支持超大规模节点集群的Hadoop系统。
2Facebook
Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台,共计11200个核心CPU,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。此外,还开发了HDFS上的FUSE实现。
3A9com
A9com为Amazon使用Hadoop构建了商品搜索索引,主要使用StreamingAPI以及C++、Perl和Python工具,同时使用Java和StreamingAPI分析处理每日数以百万计的会话。A9com为Amazon构建的索引服务运行在100节点左右的Hadoop集群上。
4Adobe
Adobe主要使用Hadoop及HBase,同于支撑社会服务计算,以及结构化的数据存储和处理。大约有超过30个节点的Hadoop-HBase生产集群。Adobe将数据直接持续地存储在HBase中,并以HBase作为数据源运行MapReduce作业处理,然后将其运行结果直接存到HBase或外部系统。Adobe在2008年10月就已经将Hadoop和HBase应用于生产集群。
5CbIR
自2008年4月以来,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。使用Hadoop环境生成源数据库,便于Web应用对其快速访问,同时使用Hadoop分析用户行为的相似性。
6Datagraph
Datagraph主要使用Hadoop批量处理大量的RDF数据集,尤其是利用Hadoop对RDF数据建立索引。Datagraph也使用Hadoop为客户执行长时间运行的离线SPARQL查询。Datagraph是使用AmazonS3和Cassandra存储RDF数据输入和输出文件的,并已经开发了一个基于MapReduce处理RDF数据的Ruby框架——RDFgrid。
Datagraph主要使用Ruby、RDFrb以及自己开发的RDFgrid框架来处理RDF数据,主要使用HadoopStreaming接口。
7EBay
单集群超过532节点集群,单节点8核心CPU,容量超过53PB存储。大量使用的MapReduce的Java接口、Pig、Hive来处理大规模的数据,还使用HBase进行搜索优化和研究。
8IBM
IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux *** 作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案。
9LastFm
LastFm主要用于图表计算、专利申报、日志分析、A/B测试、数据集合并等,也使用Hadoop对超过百万的曲目进行大规模的音频特征分析。
节点超过100台机器,集群节点配置双四核XeonL5520@227GHzL5630@213GHz,24GB内存,8TB(4×2TB)存储。
10LinkedIn
LinkedIn有多种硬件配置的Hadoop集群,主要集群配置如下:
800节点集群,基于Westmere的惠普SL170X与2×4的核心,24GB内存,6×2TBSATA。
1900节点集群,基于Westmere的超微-HX8DTT,与2×6的核心,24GB内存,6×2TBSATA。
1400节点集群,基于SandyBridge超微与2×6的核心,32GB内存,6×2TBSATA。
使用的软件如下:
*** 作系统使用RHEL63。
JDK使用SUNJDK160_32。
Apache的Hadoop0202的补丁和ApacheHadoop的104补丁。
Azkaban和Azkaban用于作业调度。
Hive、Avro、Kafka等。
11MobileAnalyticTV
主要使用Hadoop应用在并行化算法领域,涉及的MapReduce应用算法如下。
信息检索和分析。
机器生成的内容——文档、文本、音频、视频。
自然语言处理。
项目组合包括:
移动社交网络。
网络爬虫。
文本到语音转化。
音频和视频自动生成。
12Openstat
主要利用Hadoop定制一个网络日志分析并生成报告,其生产环境下超过50个节点集群(双路四核Xeon处理器,16GB的RAM,4~6硬盘驱动器),还有两个相对小的集群用于个性化分析,每天处理约500万的事件,每月15亿美元的交易数据,集群每天产生大约25GB的报告。
使用的技术主要包括:CDH、Cascading、Janino。
13Quantcast
3000个CPU核心,3500TB存储,每日处理1PB以上的数据,使用完全自定义的数据路径和排序器的Hadoop调度器,对KFS文件系统有突出贡献。
14Rapleaf
超过80个节点的集群(每个节点有2个双核CPU,2TB×8存储,16GBRAM内存);主要使用Hadoop、Hive处理Web上关联到个人的数据,并引入Cascading简化数据流穿过各种处理阶段。
15WorldLingo
硬件上超过44台服务器(每台有2个双核CPU,2TB存储,8GB内存),每台服务器均运行Xen,启动一个虚拟机实例运行Hadoop/HBase,再启动一个虚拟机实例运行Web或应用程序服务器,即有88台可用的虚拟机;运行两套独立的Hadoop/HBase机群,它们各自拥有22个节点。Hadoop主要用于运行HBase和MapReduce作业,扫描HBase的数据表,执行特定的任务。HBase作为一种可扩展的、快速的存储后端,用于保存数以百万的文档。目前存储了1200万篇文档,近期的目标是存储45亿篇文档。
16格拉斯哥大学的TerrierTeam
超过30个节点的实验集群(每节点配置XeonQuadCore24GHz,4GB内存,1TB存储)。使用Hadoop促进信息检索研究和试验,特别是用于TREC,用于TerrierIR平台。Terrier的开源发行版中包含了基于HadoopMapReduce的大规模分布式索引。
17内布拉斯加大学的HollandComputingCenter
运行一个中等规模的Hadoop机群(共计16PB存储)用于存储和提供物理数据,以支持紧凑型μ子螺旋型磁谱仪(CompactMuonSolenoid,CMS)实验的计算。这需要一类能够以几Gbps的速度下载数据,并以更高的速度处理数据的文件系统的支持。
18VisibleMeasures
将Hadoop作为可扩展数据流水线的一个组件,最终用于VisibleSuite等产品。使用Hadoop汇总、存储和分析与网络视频观众收看行为相关的数据流。目前的网格包括超过128个CPU核心,超过100TB的存储,并计划大幅扩容。
国内Hadoop的应用现状
Hadoop在国内的应用主要以互联网公司为主,下面主要介绍大规模使用Hadoop或研究Hadoop的公司。
1百度
百度在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。
百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:
数据挖掘与分析。
日志分析平台。
数据仓库系统。
推荐引擎系统。
用户行为分析系统。
同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C++编程接口,并对Hadoop进行深度改造,开发了HadoopC++扩展HCE系统。
2阿里巴巴
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约30000物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过150000个,每天hivequery查询大于6000个,每天扫描数据量约为75PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:
数据平台系统。
搜索支撑。
广告系统。
数据魔方。
量子统计。
淘数据。
推荐引擎系统。
搜索排行榜。
为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。
3腾讯
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:
腾讯社交广告平台。
搜搜(SOSO)。
拍拍网。
腾讯微博。
腾讯罗盘。
QQ会员。
腾讯游戏支撑。
QQ空间。
朋友网。
腾讯开放平台。
财付通。
手机QQ。
QQ音乐。
4奇虎360
奇虎360主要使用Hadoop-HBase作为其搜索引擎socom的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,使用的平台版本如下。
HBase版本:facebook089-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。
5华为
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。
6中国移动
中国移动于2010年5月正式推出大云BigCloud10,集群节点达到了1024。中国移动的大云基于Hadoop的MapReduce实现了分布式计算,并利用了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并行数据挖掘工具集BC-PDM,以及并行数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了自己的BC-Hadoop版本。
中国移动主要在电信领域应用Hadoop,其规划的应用领域包括:
经分KPI集中运算。
经分系统ETL/DM。
结算系统。
信令系统。
云计算资源池系统。
物联网应用系统。
E-mail。
IDC服务等。
7盘古搜索
盘古搜索(目前已和即刻搜索合并为中国搜索)主要使用Hadoop集群作为搜索引擎的基础架构支撑系统,截至2013年年初,集群中机器数量总计超过380台,存储总量总计366PB,主要包括的应用如下。
网页存储。
网页解析。
建索引。
Pagerank计算。
日志统计分析。
推荐引擎等。
即刻搜索(人民搜索)
即刻搜索(目前已与盘古搜索合并为中国搜索)也使用Hadoop作为其搜索引擎的支撑系统,截至2013年,其Hadoop集群规模总计超过500台节点,配置为双路6核心CPU,48G内存,11×2T存储,集群总容量超过10PB,使用率在78%左右,每天处理读取的数据量约为500TB,峰值大于1P,平均约为300TB。
即刻搜索在搜索引擎中使用sstable格式存储网页并直接将sstable文件存储在HDFS上面,主要使用HadoopPipes编程接口进行后续处理,也使用Streaming接口处理数据,主要的应用包括:
网页存储。
解析。
建索引。
推荐引擎。
end
是一张表啊
image 指定一个GIF或JPEG或PNG 可选
用用用以与频道一起显示
表上面的最后一段话是:这下面的内容
122RSS20
与基于RDF的RSSIO复杂结构不同,RSS20力求简单,一个RSS20文档
只是一个MXL文档,与RDF没有任何关系。RSSZO的核心语法如下图表1一3,
图表1一4是一个RSS20文档例子。
一、信息采集技术
信息采集技术包括对象数据采集和元数据采集。
1)对象数据采集主要包括文本信息采集和图像信息采集,文本信息采集工作主要指将原来纸介质文献进行数字化。这仅仅依靠人工录入、人工校对是远远不够的,要完成大量文本信息的数字化,需要可靠的扫描技术和OCR(Optical Character Recognition,光学字符识别)识别技术。图像信息的采集需要应用扫描技术,重要的现场图像可以应用数码摄像机、数码照相机等工具进行采集,而原来存储在录像带等介质上的图像资料可以通过相应的技术完成数字化。当前文档一般都提供数字化版本,只要按集成化的数字图书馆系统的要求进行加工存储组织即可。
2)元数据就是关于数据的数据。元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。元数据采集技术指从数据库系统、文件系统、HTML文件中采集元数据,从而形成本地元数据库仓储的技术。
二、信息加工技术
信息加工技术包括对象数据加工技术和元数据加工技术。
(1)对象数据加工技术是指采集的为对象数据,则按元数据标准和著录规范进行标引、分类工作。
(2)元数据加工技术采集的为元数据,则按元数据标准和著录规范,对采集数据进行转换和清洗工作,即对元数据进行规范化与标准化,去除不合要求的元数据。
(3)自动标引、人工标引技术主要涉及主题标引和分类标引,是信息资源加工的一个重要环节。自动标引技术以主题词表和分类表为基础,为标引人员自动生成主题词与分类。
三、信息存储技术
目前图书馆的书目信息主要存储在各种不同环境的数据库中,由于异构数据库间并不兼容,往往需要编制一些转换程序,使得信息共享的效率大大降低。同时,为了开发网上对图书馆信息的快速和准确查询服务,现有图书馆的书目信息库已不能满足这一要求,必须增加其他内容的数字化信息。由于目录信息是非结构的信息,也不适宜用现有的数据库来表示。因此,图书馆中部分数字化信息可以使用XML来表达和存储。用户的检索请求通过Web服务器调用程序传送给相应的系统内部服务器,在系统内部,所有的信息处理工作都是围绕着XML文件系统进行的,当然其前提是将数据库中的信息转化成XML文档,将书的目录信息通过相应工具生成XML文档,传送到用户的浏览器中进行显示,或传送到其他的Web服务器实现信息共享。
信息的存储、信息的检索、信息的分析都要利用数据库技术。传统数据库技术经历了网状数据库、层次数据库和关系数据库三个阶段。建立在信息集成基础上的数字图书馆提供的信息资源不仅有普通的可以结构化的电子文本,还有图像、音频、视频、软件等等各种类型的信息,由于这种多媒体信息的存在和网络的发展,推动了数据库技术的发展。面向对象数据库技术、非结构化数据库技术、多媒体数据库技术日臻成熟。这种数据库的记录长度是不定的,可以储存各种类型的信息,因而可以轻松地处理多媒体信息。使得建立在信息集成基础上的数字图书馆系统的功能不仅仅提供一次信息,还提供经过处理的二次信息,还可以对信息资源进行处理并进行信息分析提供决策服务。因此,支持管理决策过程的、面向主题的、集成的、稳定的、随时间而变的数据存储技术也是建设数字图书馆不可缺少的技术之一。
四、信息检索技术
信息检索技术发展非常迅速,尤其是Web化的搜索方式正在成为普遍的检索模式并构成当今信息检索的基本方法,它集超文本技术、网络技术和多媒体技术为一体。万维网的浏览器/服务器模式具有优化的结构和强大的功能,Web化的搜索方式具体表现为各种SearchEngine(搜索引擎)的应用。SearchEngine(搜索引擎)是互联网上具有查询功能的网页的统称,目前已多达数百种,包括WebSearChEngine(万维网搜索引擎)、FTPSearehEngine(文件搜索引擎)、Email/WhitePageSearehEngine(电子函件/白页搜索引擎)、YellwPageSearehEngine(黄页搜索引擎)、UsenetsearehEngine(新闻论坛搜索引擎)、Meta-SearehEngine(元搜索引擎)等类型。万维网是互联网上最先进的网络信息检索系统,也是最受检索者喜爱的信息检索系统之一。
将人工智能领域的Agent技术,运用于互联网网络化智能信息检索中,给出了一种新的互联网智能检索技术。智能软件Agents是能为用户执行特定的任务,具有一定程度的智能以允许自主执行部分任务,并以一种合适的方式与环境相互作用的软件程序。Agent技术具有主动性、智能性、协作性、移动性,通过内在联系,建立模糊关系,学习用户个性化的思维,进行模糊推理,这就能为用户提供高效而完整的信息服务,将Agent技术与模糊信息处理两者结合应用于检索服务中,得到了一个解决信息检索问题更有效的途径。
五、信息服务技术
1)索引技术:一般有内容索引、结构索引和链索引。这些索引在建立时涉及索引的结构、索引的可扩展性和分布特点、索引生成的并行化等技术问题。
2)开放式URL连接系统:因为一个连接系统需要与多个源点数据库互通,所以必需规划连接系统与源点数据库通信的方法,被提议的标准称为开放式的URL,用在URL里传送元数据。和开放式URL有兼容性的连接系统叫做开放式URL连接系统。开放式连接为连接程序提供了一个独立的系统。连接系统从某一个源点收到元数据后,再根据自己数据库里的数据,决定提供给用户的目标数据。
3)数据挖掘技术:网络信息挖掘技术,也可以称为数据库中的知识发现,是从大量数据中抽取出先前未知的、完整的、可信的、新颖的、有效的信息的高级处理过程,它是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律来做关键的决策。信息挖掘包括数据挖掘((DataMining)和文本挖掘(TextMining)两种,它采用先进的技术来分析信息资源。
4)信息推送技术:信息推送技术是指一种按照用户指定的时间间隔或根据发生的事件把用户选定的数据自动推送给用户的计算机数据发布技术。推送技术的发展方向将是多点播送和多址发送的内容传递。RSS技术是信息推送技术中的一种,RSS是一种 XML(Extensible Markup Language,扩展标记语言)格式,用于为内容整合客户端提供选择性的、汇总过的网页内容,更确切地说,是基于XML,RDF的描述资源集合(特别是网络资源等)的轻便、可扩展的元数据集。RSS作为描述和同步网站内容的格式,是目前使用最广泛的XML应用。
5)多语种技术:可以通过多语言浏览功能,通过机器翻译功能为用户提供多种服务。
6)音频、视频播放技术:利用互联网播放MPEG,MP3,WAVE等高质量的音频文件和AVI等视频文件。
将ShowRecordowl文件存储到MySQL数据库中,数据库叫Jena,在Eclipse中创建工程OperaOntology,代码如下:importJavaio;importjavasqlSQLException;importcomhphpljenadb;importcomhphpljenaontologyOntClass;importcomhphpljenardfmodel;publicclassOperaOntology{publicstaticfinalStringstrDriver="commysqljdbcDriver";publicstaticfinalStringstrURL="jdbc:mysql://localhost:3306/jena";//localhost的后面要直接写冒号,再写3306;publicstaticfinalStringstrUser="root";publicstaticfinalStringstrPassword="root";publicstaticfinalStringstrDB="MySQL";publicstaticvoidmain(String[]args){try{DBConnectionconnection=newDBConnection(strURL,strUser,strPassword,strDB);Systemoutprintln(connection);//创建连接时,第四个参数需要指定所用的数据库类型;也就是说strDB的值应该是“MySQL”try{ClassforName("commysqljdbcDriver");Systemoutprintln("驱动程序已经安装。");}catch(ClassNotFoundExceptione){Systemoutprintln("ClassNotFoundException,Driverisnotavailable");}Systemoutprintln("数据库连接成功。");//从此处开始读入一个OWL文件并且存储到数据库中;ModelMakermaker=ModelFactorycreateModelRDBMaker(connection);//使用数据库连接参数创建一个模型制造器ModeldefModel=makercreateModel("ShowRecord");//创建一个默认模型,命名为CostumeModel,因为我要存入的OWL文件名是CostumeFileInputStreamread=null;try{Filefile=newFile("e:/ontologies/ShowRecordowl");read=newFileInputStream(file);}catch(FileNotFoundExceptione){eprintStackTrace();Systemoutprintln("未找到要存储的本体文件,请检查文件地址及名称");}Systemoutprintln("已将本体文件转换为字节流文件。");InputStreamReaderin=null;try{in=newInputStreamReader((FileInputStream)read,"UTF-8");}catch(UnsupportedEncodingExceptione){eprintStackTrace();Systemoutprintln("不支持上述字符集。");}Systemoutprintln("已将字节流文件转换为UTF-8编码。");defModelread(in,null);try{inclose();}catch(IOExceptione){eprintStackTrace();Systemoutprintln("无法关闭字节流文件。");}Systemoutprintln("已将字节流文件关闭。");defModelcommit();Systemoutprintln("数据转换执行完毕,已将本体文件存入数据库。");try{connectionclose();}catch(SQLExceptione){eprintStackTrace();Systemoutprintln("文件无法关闭。");}}catch(RDFRDBExceptione){eprintStackTrace();Systemoutprintln("出现异常");}Systemoutprintln("已将本体文件持久化到数据库中");}}以上步骤成功完成以后,我登录到MySQL的界面查询工具查看Jena数据库的表,点击“Catalogs“
本体论(ontology)是哲学概念,它是研究存在的本质的哲学问题。近几十年里,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中起到越来越重要的作用。
然而,到目前为止,对于本体论,还没有统一的定义和固定的应用领域。斯坦福大学的Gruber给出的定义得到了许多同行的认可,即本体论是对概念化的精确描述(Gruber,1995),本体论用于描述事物的本质。
在实现上,本体论是概念化的详细说明,一个ontology往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内的专业词汇以及他们之间的关系。这一系列的基本概念如同工程一座大厦的基石,为交流各方提供了一个统一的认识。在这一系列概念的支持下,知识的搜索、积累和共享的效率将大大提高,真正意义上的知识重用和共享也成为可能。就此意义而言,Web语言XML(Extensible Markup Language,可扩展标识语言)就是本体理论的一项典型应用;xml文档就是一个标签化的词汇表。
本体论可以分为四种类型:领域、通用、应用和表示。领域本体包含着特定类型领域(如电子、机械、医药、教学)等的相关知识,或者是某个学科、某门课程中的相关知识;通用本体则覆盖了若干个领域,通常也称为核心本体;应用本体包含特定领域建模所需的全部知识;表示本体不只局限于某个特定的领域,还提供了用于描述事物的实体,如“框架本体”,其中定义了框架、槽的概念。
可见,本体论的建立具有一定的层次性,在教学领域而言,如果说某门课程中的概念、术语及其关系看成是特定的应用本体,那么所有课程中的共同的概念和特征则具有一定的通用性。
Ontology 这个哲学范畴,被人工智能界赋予了新的定义,从而被引入信息科学中。然而信息科学界对 Ontology 的理解也是逐步发展才走向成熟的。1991 年 Neches 等人最早给出 Ontology 在信息科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义。”后来在信息系统、知识系统等领域,随着越来越多的人研究 Ontology,产生了不同的定义。1993 年 Gruber 定义 Ontology 为“概念模型的明确的规范说明”。1997 年 Borst 进一步完善为“共享概念模型的形式化规范说明”。Studer 等人对上述两个定义进行了深入研究,认为 Ontology 是共享概念模型的明确的形式化规范说明,这也是目前对 Ontology 概念的统一看法。
Studer 等人的 Ontology 定义包含四层含义:概念模型(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。“概念模型”是指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明确”是指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”是指 Ontology 是计算机可读的,也就是计算机可处理的;“共享”是指 Ontology 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。Ontology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。
尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于 Ontology 的认识是统一的,都把它当作是领域(领域的范围可以是特定应用中,也可以是更广的范围。)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互 *** 作、共享等)的一种语义基础,即由 Ontology 提供一种共识。而且Ontology提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论 Ontology,就要讨论如何表达共识,也就是概念的形式化问题。
Semantic Web 中的 Ontology
Ontology 研究热点的出现还与 Semantic Web 的提出和发展直接相关。
Semantic Web是Tim Berners-Lee提出的又一个概念。Tim Berners-Lee 认为,当前的 Web 是供人阅读和理解的,它作为一个越来越大的文件媒体,并不利于实现数据和信息的自动化处理。新一代的 Semantic Web 将不仅仅为人类而且能为计算机(信息代理)带来语义内容,使计算机(或信息代理)能够“理解”Web 内容,进而实现信息处理的自动化。他认为 Semantic Web 不是与当前 Web 隔离的另一个 Web,而是对当前 Web 的扩充,在 Semantic Web 中,信息的语义经过完好的定义,能够更好地促进计算机和人之间的相互合作。
为了实现 Semantic Web 的功能,需要提供一种计算机能够理解的、结构化的语义描述机制,以及一系列的推理规则以实现自动化推理。Semantic Web 的挑战在于提供一种语言,
它能够表述数据和在数据中进行推理的规则,而且需要这种语言能够将目前存在于知识表述系统之中的规则能够被应用到 Web 上。
在Tim Berners-Lee的Semantic Web 框架中,有几个关键的组成元素。它们分别是XML,RDF(S)和 Ontology。
XML 允许用户定义自己的文件类型,允许用户定义任意复杂的信息结构,但是 XML 只具有语法性,它不能说明所定义的结构的语义。XML 之所以在 Semantic Web 中处于重要的地位与 XML 是一种载体语言、XML 命名机制等有很大的关系。
在 Tim Berners-Lee 看来,语义的描述是通过 RDF 进行的。RDF 的两个特性对此有着特殊的贡献:
(1)RDF 是一种由资源、属性、属性值组成的三元结构。这种三元结构形似句子中的主语、谓语、宾语之间的关系。一个描述资源的 RDF 语句,就如同“某件事具有什么样的属性”这样的句子一样有效。它能够表明一种对事物存在状态的断言,可以表述大多数情况下计算机需要处理的知识。
(2)RDF 的另一个重要特点就是组成 RDF 的资源、属性、属性值这三个元素都必须是被 URI(统一资源标识)所标识的。由于 RDF 利用 URI 来对信息进行编码,它意味着被 RDF 所引用的任何资源、属性和属性值都是经过预先定义的、不具二意性的概念。
由于 RDF 能够表示陈述句,并且主语、谓语和宾语的三个组成元素都是通过URI所标识的,故它具有语义表述的特性。但 Semantic Web 的要求还远不止于此,Semantic Web还需要加入逻辑功能:Semantic Web需要能够利用规则进行推理、选择行动路线和回答相关问题。Ontology是Semantic Web实现逻辑推理的基础。
Semantic Web 研究者也认为,Ontology 是一个形式化定义语词关系的规范化文件。对于 Semantic Web 而言,最典型的 Ontology 具有一个分类体系和一系列的推理原则。其中,分类体系定义对象的类别和类目之间的关系。实体之间的类/子类关系对于 Web 应用具有重要的价值。在 Ontology 中,还可以为某个类添加属性来定义更多的类目关系。这些类目关系提供了的推理的基础。
借助 Ontology 中的推理规则,Semantic Web 应用系统可以提供更强的推理能力,例如可以在一个地理 Ontology 中加入这样一条规则,“如果一个城市代码与一个省代码相关,并且一个地址利用了城市代码,那么这个地址与就与相应的省代码相关”。通过这一规则,程序可以推理出中国科学院文献情报中心,在中关村,应当在北京市。
为了 Semantic Web 研究者为了实现对 Ontology 的描述,在 RDF 的基础之上,发展了 RDFS。RDFS 借助几个预先义的语词(如 rdfs:Resource, rdfs:Class, rdf:Property, rdfs:subClassOf, rdfs:subPropertyOf, rdfs:domain, rdfs:range)能够对概念之间的关系进行有限的描述。为了更方便全面地实现 Ontology 的描述,W3C 在 RDFS 的基础之上,借助了 DAML 和 OIL 的相关研究,正在积极推进 OWL(Web Ontology Language)的应用。自 2004 年 2 月 10 日,OWL 已经成为了一个 W3C 推荐的标准。
Gene Ontology
为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene Ontology (GO) 就是为了解决这种问题而发起的一个项目。
Gene Ontology 中最基本的概念是 term 。GO 里面的每一个 entry 都有一个唯一的数字标记,形如 GO:nnnnnnn,还有一个 term 名,比如 cell, fibroblast growth factor receptor binding,或者 signal transduction。每个 term 都属于一个 ontology,总共有三个ontology,它们分别是 molecular function, cellular component 和 biological process。
一个基因 product 可能会出现在不止一个 cellular component 里面,也可能会在很多 biological process 里面起作用,并且在其中发挥不同的 molecular function。比如,基因 product cytochrome c 用 molecular function term 描述是 oxidoreductase activity,而用 biological process term 描述就是 oxidative phosphorylation 和 induction of cell death,最后,它的 celluar component term 是 mitochondrial matrix 和 mitochondrial inner membrane。
Gene Ontology 中的 term 有两种相互关系,它们分别是 is_a 关系和 part_of 关系。is_a 关系是一种简单的包含关系,比如 A is_a B 表示 A 是 B 的一个子集。比如 nuclear chromosome is_a chromosome。part_of 关系要稍微复杂一点,C part_of_D 意味着如果 C 出现,那么它就肯定是 D 的一部分,但 C 不一定总会出现。比如 nucleus part_of cell,核肯定是细胞的一部分,但有的细胞没有核。
Gene Ontology 的结构是一个有向无环图,有点类似于分类树,不同点在于 Gene Ontology 的结构中一个 term 可以有不止一个 parent。比如 biological process term hexose biosynthesis 有两个 parents,它们分别是 hexose metabolism 和 monosaccharide biosynthesis,这是因为生物合成是代谢的一种,而己糖又是单糖的一种。
Gene Ontology 使用 Oxford Dictionary of Molecular Biology (1997) 中的定义,在分选时还要参考 SWISS-PROT, PIR, NCBI CGAP, EC…中的注释。建立起来的标准不是唯一的标准(这是GOC所一直强调的),自然也不规定每个研究者必须遵循这套控制字集系统。所采用的动态结构(dynamic structure)使用 DAGs(Directed Acyclic Graphs)方式的 network,将每一个ontology串连起来,形成树状结构(hierarchical tree),也就是由前面所说的“is a”和“part of”两种关系。
由于 GO 是一种整合性的分类系统,其下的 3 类主 ontology 我们前面说是独立的,但是无论是 GOC 原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个 ontology 在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件 (cellular component),其次就是此组分/元件在分子水平上所行使的功能 (molecular function),最后能够呈现出该分子功能所直接参与的生物过程 (biological process)。由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。
TAMBIS 计划是目前唯一实现了在概念和联系层次上集成信息源的系统。但是还有其他一些相关计划正在研究之中。
比如 BioKleisli(宾夕法尼亚大学计算机系),采用 Mediator(调节器)技术实现了若干数据源的集成,其后的 K2/Kleisli 系统还利用数据仓库实现了 OLAP(联机分析处理)。
DiscoveryLink (IBM 研究院),基于 Wrapper/ Mediator(包装器/调节器)实现了信息源集成,提出了查询的分解和基于代价的优化策略。
TAMBIS(曼彻斯特大学计算机系)基于Wrapper/ Mediator实现了信息源集成,借助 BioKleisli 中的CPL语言作为查询语言并给出了查询优化的方法。通过 TaO(TAMBIS Ontology)本体定义为用户浏览和查询处理提供领域知识。
TINet(GSK 公司和 IBM 研究院),基于多数据库中间件OPM(Object-Protocol Model,对象协议模型)定义数据源的对象视图,其CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构)服务器使各数据源 Wrapper(包装器)更易于扩充。
但是他们都存在一定的缺陷。BioKleisli 系统查询能力相对较弱,而且并未给出查询优化策略;TAMBIS系统和 DiscoveryLink 系统集成的数据源数量相对还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑;TINet 系统中的查询处理能力不强。
现在面临的突出问题是在数据库查询中尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力。而且现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备。因此这也将是GO未来发展和提升的一个重要方向。
以上就是关于计算机专业知识介绍全部的内容,包括:计算机专业知识介绍、国内外的Hadoop应用现状、如何使用cnki硕士论文数据库查询毕业论文等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)