一、大数据及其特点
大数据目前尚无明确定义。维基百科对大数据的定义是:大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理并整理成为帮助企业经营决策更积极目的的信息1。徐子沛在《大数据》一书中将大数据定义为:指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据2。《大数据时代》的作者维克·托迈尔·舍恩伯格认为,“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”38-9《人民日报》在采访他时,他曾说:“在我看来,大数据是一种价值观、方法论,我们面临的不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这是一场思维的大变革,更是一个互动的过程——你可以用不同的角度、不同的方式去做大数据,并得到不一样的结果与好处。”4据此,笔者认为:大数据是大规模数据中,可以通过有效技术手段快速获取、存储、管理并分析出可以推动社会发展的有价值的数据。
目前普遍认可大数据的四个基本特征,即4V特性:规模大(Volume)、来源广泛且类型多样(Variety)、获取及处理速度快(Velocity)、价值密度低(Value)。
数据规模大(Volume)。现代意义上的“数据”,范畴比信息还要大。进入信息时代,“数据”二字的内涵开始扩大:不仅指代“有根据的数字”,还统指一切保存在电脑中的信息,包括文本、、视频等。数据也逐渐成为“数字、文本、、视频”等的统称,也即“信息”的代名词。6256-257
数据来源广泛、类型多样(Variety)。信息时代,数据的获取途径不仅限于计算,还包括大记录,即人们通过手机、个人电脑、ipad等终端上传到网络的海量数据以及个人存储在手机、个人电脑等终端中的数据。数据的类型也不再局限于原始的计算数据、结构化数据,还包括人们在日常生活中随手记录、保存、上传至网络平台的、音频、视频等非结构化数据。
数据获取及处理速度快(Velocity)。数据来源的多样化致使数据日益公开化、社会化,数据获取更为方便、快捷、全面。伴随大数据发展而诞生的数据处理技术使得数据处理速度远远快于传统数据时代,数据处理日益规模化、软件化、智能化。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比,大数据本身的价值密度是相对较低的,需要对海量的数据进行挖掘分析才能得到真正有用的信息,形成用户价值。5基于海量数据基础上形成的某一领域或某一特定内容形成的信息,相关性更强、信息更为全面,效果更佳明显,价值高于传统小数据分析得出的结论。
二、依托大数据推动社会主义核心价值观建设的重要性
大数据已经融入到大学生日常生活中,大学生学习、生活、工作无处不体现大数据。一方面,大学生通过互联网获取学习资料、娱乐资讯、工作模板,成为大数据的享用者;另一方面,大学生搜索、下载学习资料留下数据痕迹,在微博等社交网络平台发表状态、上传生活照片以及工作过程中通过网络发布通知、活动内容,成为大数据的贡献者。大数据与大学生息息相关,透过大学生可以了解学生的思想动态,亦可推动社会主义核心价值观建设。
(一)大数据为社会主义核心价值观建设提供良好的环境。
徐子沛在《数据之巅:大数据革命,历史、现实与未来》中提到一个案例:2013年7月,有报道称,华东师范大学的一位女生收到校方的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?”这条温暖的短信也要归功于数据挖掘:校方通过挖掘校园饭卡的消费数据,发现其每顿的餐费都偏低,于是发出了关心的询问,但随后发现这是一个美丽的错误——该女生其实是在减肥。6275这个案例说明可以通过大数据了解实时了解学生状态,在当前东西方价值观激烈碰撞的环境下,通过分析数据可以了解并掌握学生思想动态,做到早发现、早处理,对于为社会主义核心价值观建设提供良好的环境有极为重要的意义。
(二)大数据为社会主义核心价值观建设提供更为行之有效的方法。
价值观教育并非一成不变、形式单一,目前高校社会主义核心价值观教育方式主要有课堂教学、主题班会、高校讲座、社会实践以及网络自主获取等形式。那么,这些方式哪些是学生更喜闻乐见、接受主动性更强的方式?有没有尚未发掘的、学生潜意识中更易于接受的价值观教育方式?以课堂教学为例,学生是更倾向于教师讲课学生听的形式还是互动教学形式?如果把视频教学纳入到课堂教学中,那么视频内容是什么样的,多长的视频最优化,以何种形式展现,等等,都是值得探讨的问题。问卷调查、抽样调查等方式获取的数据量小、不够全面、不完全具有代表性,且学生填写调查问卷具有自我意识,问卷结果未必是学生真实想法。大数据是通过高校大学生在网络上发布海量资讯中获取,如学生通过QQ、微信、飞信等沟通软件,人人网、新浪微博、大学生在线等网络社交平台以及邮箱、Dropbox等数据共享平台发布的数据。数据更公开、更广泛、更全面、更真实,通过分析得出的结论更具有说服力。通过分析高校大学生思想动态大数据,可以全面、时时了解学生接受价值观教育的趋向性方式。依据不同年级、不同专业、不同高校学生特点,采用不同形式进行价值观教育,真正做到“因材施教”。
(三)大数据有效掌握高校社会主义核心价值观建设动态情况。
社会主义核心价值观建设是一项艰巨的长期工程,其过程具有动态性、延展性,需要提前、时时把握价值观建设状态、发展动态、发展趋势,随时调整价值观建设的方法、形式、重点。基于网络数据的信息挖掘,不需要逐一调查,成本低廉,更重要的是,这种分析是实时的,没有滞后性6268。
三、依托大数据推动社会主义核心价值观建设的途径
(一)树立大数据观念
大数据绝不仅仅是科研的高端产品,大数据存在于我们的日常生活中。沃尔玛通过数据挖掘发现顾客潜在意识——父亲在买尿布时往往会顺便买啤酒——捆绑“啤酒和尿布”提高销量;亚马逊通过数据挖掘——分析顾客的购买规律——“预判发货”,即在网购时,顾客还没有下单,亚马逊就将包裹寄出;奈飞公司利用客户的网上点击记录,预测其喜欢观看的内容,实现精准营销。
在高校中,数据和数据分析的价值更是随处可以得到体现,高校思想政治教育工作已经具备了大数据的特征7。建设核心价值观,充分发挥大数据的价值,需要高校学生工作者强化大数据意识,提高对数据的敏感意识、前瞻意识,培养数据共享意识、动态意识,数据不是一成不变的,要不断接受新数据、挖掘新信息。根据对数据的分析,个性化推动社会主义核心价值观建设。
(二)建立大数据库
数据是大数据时代社会主义核心价值观建设的基础。建立大数据库的方式有两种:对内,汇总校园内通过高校信息网络中心的数据及学生在各平台发布的信息;对外,搜集政府、社会发布的与核心价值观建设相关的信息。学校电子网络信息、学生交流使用的网络电子平台、校园各单位为方便服务管理而统计保存的各种信息汇总以及校园安全服务网络使用的摄像头、门禁器等产生的信息数据。
(三)培养大数据工作队伍
光有数据没有分析人才,那么数据永远只是一堆数字,没有任何价值。大数据价值密度低的特点要求数据分析者设计能完成特定任务的软件或程序,智能分析海量数据。高校社会主义核心价值观建设工作人员主要以高校学生工作处、思政教师及辅导员为主,需要在这批人员中培养一批思想政治觉悟高、政治理论水平高人员专门从事该项事务,提高他们的大数据意识和大数据处理能力,适应大数据时代社会对大学生数据能力的需求。
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如前文提到的网络日志、视频、、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量
MySQL数据库MySQL(发音为"my ess cue el",不是"my sequel")是一种开放源代码的关系型数据库管理系统(RDBMS),MySQL数据库系统使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理。
由于MySQL是开放源代码的,因此任何人都可以在General Public License的许可下下载并根据个性化的需要对其进行修改。MySQL因为其速度、可靠性和适应性而备受关注。大多数人都认为在不需要事务化处理的情况下,MySQL是管理内容最好的选择。
MySQL关系型数据库于1998年1月发行第一个版本。它使用系统核心提供的多线程机制提供完全的多线程运行模式,提供了面向C、C++、Eiffel、Java、Perl、PHP、Python以及Tcl等编程语言的编程接口(APIs),支持多种字段类型并且提供了完整的 *** 作符支持查询中的SELECT和WHERE *** 作。
MySQL开发组计划于2001年中期公布MySQL40版本。在这个版本中将有以下新的特性被提供:新的表定义文件格式、高性能的数据复制功能、更加强大的全文搜索功能。在此之后,MySQL开发着希望提供安全的数据复制机制、在BeOS *** 作系统上的MySQL实现以及对延时关键字的定期刷新选项。随着时间的推进,MySQL将对ANSI 92/ANSI 99标准完全兼容。
时至今日 mysql 和 php 的结合绝对是完美很多大型的网站也用到mysql数据库mysql的发展前景是非常光明的!
摘 要:元数据作为存储数据的数据,在各种数据仓库教材中都涉及到元数据的管理知识,但是在实际应用中对于元数据的管理却使用的很少,大多数据仓库开发人员都了解元数据的重要性,但是在真正应用中却很少使用,或者说不知道如何构建元数据库,本文就针对元数据的管理以及在Sql Server 2005中的具体实现。
关键词:元数据 数据仓库 数据模型 程序设计
中图分类号:TP31113 文献标识码:A 文章编号:1672-3791(2012)05(c)-0034-01
元数据是整个数据仓库的核心,它描述了仓库中的各个数据对象,遍及仓库的各个方面,同时它在数据仓库的建造及运行中起着极其重要的作用。而元数据大致分为关于数据源的元数据,数据模型的元数据,数据仓库映射的元数据以及数据仓库使用的元数据的四个方面类型。
(1)数据源的元数据。关于数据源的元数据在利用这类元数据时对不同数据源平台上的物理结构和含义是现有系统业务数据源的描述信息。其具体有以下几点:①数据源中所有物理数据结构,包括所有的数据项及数据类型。②所有数据项的业务定义。③每个数据项更新的频率,以及由谁或哪个过程更新的说明。④每个数据项的有效值。⑤其他系统中具有相同业务含义的数据项清单。
(2)数据模型的元数据。关于数据模型的元数据是数据仓库管理的基础,同时描述了仓库中有说明数据以及数据之间的关系。当一些用户提出需要哪些表系统就能从中选出这个表,这就说明了元数据可以支持用户从数据仓库中获取数据。通过这种关系表用户就能获取很多希望数据。
描述数据仓库中的数据及数据之间的各种复杂关系,元数据要定义以下内容。数据仓库中描述数据及数据之间的各种复杂的关系,现定义以下内容:①I/O对象:元数据在描述I/O对象的定义、类型、状态以及存档周期都是支持数据仓库I/O *** 作的各个对象。②关系:两个I/O对象之间是关联的。这种关联有三种类型分别是一对一、一对多和多对多。③关系成员:描述每个关系中两个I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(一对一还是一对多)以及约束条件(必须满足还是可选关系)。④关系关键字:描述两个I/O对象如何建立关联。每个关系都是通过I/O对象的关键字来建立的,元数据要指明建立每个关系的相应对象的关键字。
(3)数据仓库映射的元数据。数据仓库映射的元数据是数据源与数据仓库数据之间的映射,当数据源的数据项与数据仓库建立映射关系时,就要记下这些数据项发生的一些转换、变换和加载的过程。就是用元数据反映数据仓库的数据项是从转换、变换和加载过程这些特定的数据源填充的。而转移元数据的数据到数据仓库的目标数据是一件复杂的工作,其工作量占整个数据仓库的80%。其主要涉及以下两方面:①抽取工作之间的复杂关系。②源数据与目标数据之间的映射。
(4)关于数据仓库使用的元数据,数据仓库使用的元数据时对数据仓库中信息使用情况的描述。数据仓库的用户最关心的是以下两类元数据。①元数据描述数据仓库中有什么数据,它们从哪里来,即如何按主题查看数据仓库的内容。②元数据提供已有的,可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。
1 元数据的管理
随着元数据越来越成为公司重要的资源,就越来越需要完善的元数据管理功能,包括:(1)支持企业范围内的体系结构。企业在开发应用程序、封装应用程序、决策支持数据库时,他们关心的是软件设计与开发、用户接口、 *** 作管理、应用程序内部的消息传递、数据的协同工作能力。所有这些都驱使开发人员去理解各种元数据目录,以及它们在企业范围内的体系结构的作用。(2)基于知识库的方法。元数据一般存储在其特定工具相关的属性知识库中。因此,企业可以要求提供一种机制,可以将其特定工具支持的元数据无缝地转移到一个共享的、公共的元数据知识库中。(3)配置管理。元数据知识库必须提供标准的配置管理能力,如注册、退出、版本控制等。还需要提供抽取、修改元数据的定义以及将其定义存到知识库中,此外,还必须具有在必要的时候将元数据恢复到某一个前版本的功能。(4)支持开放的元数据交换标准。企业内部和外部对元数据的访问导致了对开放的元数据交换标准支持的需求。至少企业元数据应该支持MDIS(元数据交换标准)。(5)动态交换和同步。企业应该采用MDIS标准,实现动态交换或同步,否则需要一个开放的元数据交换工具。
2 元数据在Sql Server 2005中的应用
21 概念
元数据描述OLTP中的表、数据仓库、数据集市和OLAP多维数据集等对象,还记录程序引用的对象。
22 具体实现和元数据的获取
在Sql Server 2005中一般由数据库系统本身产生元数据,或者在相应编程中产生元数据,不需要用户自己创建,当然用户也可以自己创建。例如在DotNet创建多维数据集时,自动产生XML格式的元数据。
下面介绍如何从Sql Server2005中获取元数据。
(1)使用系统提供的存储过程和系统函数访问元数据。
系统存储过程与系统函数在系统表和元数据之间提供了一个抽象层,使得我们不用直接查询系统表就能获得当前数据库对象的元数据。
存储过程如下。
sp_columns返回指定表或视图的列的详细信息。
Sp_databases返回当前服务器上的所有数据库的基本信息。
Sp_fkeys若参数为带有主键的表,则返回包含指向该表的外键的所有表;若参数为带有外键的表名,则返回所有同过主键/外键关系与该外键相关联的所有表。
Sp_pkeys返回指定表的主键信息。
Sp_server_info返回当前服务器的各种特性及其对应取值。
Sp_sproc_columns返回指定存储过程的输入、输出参数的信息。
Sp_statistics返回指定的表或索引视图上的所有索引以及统计的信息。
Sp_stored_procedures返回当前数据库的存储过程列表,包含系统存储过程。
Sp_tables返回当前数据库的所有表和视图,包含系统表。
(2)使用信息架构视图访问元数据。信息架构视图功能很强,它独立于系统视图,即便系统视图发生改变也不会更改信息架构视图。应用程序可以正常访问信心架构视图。
(3)使用系统表访问元数据。Sql Server中所有的对象信息都存在系统表中,可以通过系统表访问元数据。
3 结语
目前,元数据库的建立主要通过系统自动产生,然后由用户使用,用户很少自己创建元数据,但是随着数据量的增加和数据库设计的复杂性,以及程序设计的复杂性,尤其是数据仓库方面,越来越需要设计人员构建自己的数据仓库。
以上就是关于大学生怎么运用大数据建设社会主义全部的内容,包括:大学生怎么运用大数据建设社会主义、什么是大数据,大数据的典型案例有哪些、大型数据库mysql可以使用吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)