大数据热门词汇汇总

大数据热门词汇汇总,第1张

数据热门词汇汇总

可以说,大数据是如今IT行业最热门的趋势之一,它催生出了处理大数据的一批全新技术。而新技术带来了新的热门词汇:首字母缩略词、专业术语和产品名称等。连"大数据"这个短语本身都让人犯晕。许多人一听到"大数据",觉得是指"大量数据",而大数据的涵义绝不仅仅涉及数据量的多寡。

下面是我们认为你要熟悉的几个热门词汇,按字母顺序排列。

ACID

ACID的全称是原子性、一致性、隔离性和持久性,这其实是一组需求或属性:如果这四个方面都得到遵守,就能在处理过程中确保数据库事务的数据完整性。虽然ACID问世已有一段时日,但是事务数据量的急剧增长把更多的注意力投向在处理大数据时需要满足ACID的规定。

大数据三要素

如今的IT系统在生成数量、速度和种类都很"庞大"的数据。

数量:IDC公司估计,今年全球信息总量将达到2.7泽字节(这相当于27亿太字节),而且每两年就翻一番。

速度:让IT管理人员们头痛的不仅仅是数据数量,还有数据从金融系统、零售系统、网站、传感器、无线射频识别(RFID)芯片以及Facebook和推特等社交网络源源而来的速度越来越快。

种类:如果回到5年前或可能10年前,IT人员处理的主要是字母数字数据,它们很容易存储在关系数据库中整齐排列的行和列中。现在不再是这样了。如今,推特和Facebook上的帖子、各种文档及网页内容等非结构化数据都是大数据组合的一部分。

列式(或列型)数据库

一些新一代数据库(如开源Cassandra和惠普的Vertica数据库)被设计成了按列存储数据,而不是像传统的SQL数据库那样按行存储数据。这种设计提供了更快的磁盘访问速度,提高了处理大数据时的性能。对数据密集型业务分析应用系统而言,列式数据库尤其受到欢迎。

数据仓库

数据仓库这个概念存在至今已有大概25年了,具体指将数据从多个 *** 作IT系统复制到面向业务分析应用系统的辅助离线数据库

但是随着数据量急剧增长,数据仓库系统正在迅速改变。它们需要存储更多的数据以及更多种类的数据,因而数据仓库管理成为一大难题。10年或20年前,数据可能每周或每月复制到数据仓库系统中;而如今,数据仓库的更新要频繁得多,有的甚至实时更新。

ETL

将数据从一个数据库(比如支持银行应用事务处理系统的数据库)转移到另一个数据库(比如用于业务分析的数据仓库系统)时,就要用到提取、转换和加载(ETL)软件。数据从一个数据库传送到另一个数据库时,常常需要对数据进行重新格式化和清理 *** 作。

由于数据量急剧增长,数据处理速度大大加快,对ETL工具的性能要求也大大提高了。

Flume

Flume是属于Apache Hadoop大家族(其他技术包括HBase、Hive、Oozie、Pig和Whirr)的一项技术,这种框架用于为Hadoop填充数据。该技术使用散布于应用服务器、Web服务器、移动设备及其他系统上的软件代理,收集数据,并将数据传送到Hadoop系统。

比如说,公司可以使用在Web服务器上运行的Apache Flume,收集来自推特帖子的数据,以便分析。

地理空间分析

推动大数据潮流的一个趋势是,由如今的IT系统生成和收集的地理空间数据越来越多。常言道,一幅图片的信息量抵得上1000个单词;所以难怪越来越多的地图、图表、照片及其他基于地理位置的内容是导致如今大数据呈爆炸式增长的主要动因。

地理空间分析是一种特殊形式的数据可视化(参阅下面的"可视化"条目),在地理地图上覆盖数据,以帮助用户更清楚地理解大数据分析的结果。

Hadoop

Hadoop是一种开源平台,用于开发分布式、数据密集型的应用程序。它由Apache软件基金会控制。

Hadoop的发明者是雅虎公司的开发者道格o卡廷(Doug Cutting),他在谷歌实验室的MapReduce概念这个基础上开发出了Hadoop,以他儿子的玩具象命名。

另外,HBase是一种非关系数据库,它是作为Hadoop项目的一部分开发而成的。Hadoop分布式文件系统(HDFS)是Hadoop的一个关键组成部分。Hive则是建立在Hadoop基础上的数据仓库系统。

内存中数据库

计算机在处理事务或执行查询时,一般从磁盘驱动器获取数据。但是当IT系统处理大数据时,这个过程可能实在太慢。

内存中数据库系统利用计算机的主内存来存储经常使用的数据,因而大大缩短了处理时间。内存中数据库产品包括SAP HANA和甲骨文Times Ten内存中数据库。

Java

Java是一种编程语言,由现隶属甲骨文公司的Sun开发,于1995年发布。Hadoop和其他许多大数据技术都是使用Java开发而成的,它仍是大数据领域一种主要的开发技术。

Kafka

Kafka是一种高吞吐量的分布式消息传送系统,最初是在LinkedIn开发而成,用于管理该服务网站的活动流(关于网站使用情况的数据)和 *** 作数据处理流水线(关于服务器组件的性能)。

Kafka在处理大量流式数据时很有效,而流式数据是许多大数据计算环境的一个关键问题。由推特开发的Storm是另一种大行其道的流处理技术。

Apache软件基金会已将Kafka列为一个开源项目。所以,别以为这是有缺陷的软件。

延迟时间

延迟时间是指数据从一个点传送到另一个点过程中的延迟,或者是某个系统(如应用程序)响应另一个系统的延迟数量。

虽然延迟时间不是什么新术语,但是随着数据量不断增长,IT系统竭力跟上步伐,如今你更常听到这个术语。简单地说,"低延迟"是好事,"高延迟"是坏事。

映射/化简

映射/化简(Map/Reduce)这种方法是指把一个复杂的问题分解成多个较小的部分,然后将它们分发到多台计算机上,最后把它们重新组装成一个答案。

谷歌的搜索系统用到了映射/化简概念,这家公司有一个品牌名为MapReduce的框架。

谷歌在2004年发布的一份白皮书描述了它使用映射/化简的情况。Hadoop之父道格o卡廷充分认识到了其潜力,开发出了同样借用映射/化简概念的第一个版本的Hadoop。

NoSQL数据库

大多数主流的数据库(如甲骨文数据库和微软SQL Server)基于关系型体系结构,使用结构化查询语言(SQL)用于开发和数据管理。

但是名为"NoSQL"(有些人现在称NoSQL表示"不是只有SQL")的新一代数据库系统基于支持者们认为更适合处理大数据的体系结构。

一些NoSQL数据库是为提高可扩展性和灵活性设计的,另一些NoSQL数据库在处理文档及其他非结构化数据方面比较有效。典型的NoSQL数据库包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名开发商已推出了各自的NoSQL产品。

Oozie

Apache Oozie是一种开源工作流引擎,用于帮助管理面向Hadoop的处理工作。使用Oozie,一系列工作可以用多种语言(如Pig和MapReduce)来加以定义,然后彼此关联起来。比如说,一旦从 *** 作应用程序收集数据的作业已完成,程序员就可以启动数据分析查询任务。

Pig

Pig是Apache软件基金会的另一个项目,这个平台用于分析庞大的数据集。就其本质而言,Pig是一种编程语言,可用于开发在Hadoop上运行的并行计算查询。

定量数据分析

定量数据分析是指使用复杂的数学或统计模型,解释金融和商业行为,或者甚至预测未来的行为。

由于如今收集的数据量急剧增加,定量数据分析已变得更加复杂。但是如果公司知道如何利用海量数据,获得更好的可视性,深入了解公司业务,并且洞察市场发展趋势,那么更多的数据也有望在数据分析方面带来更多的机会。

一个问题是,拥有这种分析技能的人才严重匮乏。知名咨询公司麦肯锡表示,光美国就需要150万名拥有大数据分析技能的分析员和管理员。

关系数据库

关系数据库管理系统(RDBM)是如今使用最广泛的一种数据库,包括IBM的DB2、微软的SQL Server和甲骨文数据库。从银行应用系统、零售店的销售点系统到库存管理应用软件,大多数的企业事务处理系统都在RDBM上运行。

但有些人认为,关系数据库可能跟不上如今数据量和种类都呈爆炸式增长的形势。比如说,RDBM当初在设计时着眼于处理字母数字数据,处理非结构化数据时不是同样有效。

分片

随着数据库变得越来越庞大,处理起来也变得越来越困难。分片(sharding)是一种数据库分区技术,把数据库分成了更小、更容易管理的部分。具体来说,数据库被横向分区,以便单独管理数据库表中的不同行。

分片方法让庞大数据库的片段可以分布在多台服务器上,从而提高数据库的整体运行速度和性能。

另外,Sqoop是一种开源工具,用于将来自非Hadoop来源(如关系数据库)的数据转移到Hadoop环境。

文本分析

导致大数据问题的因素之一是,从推特和Facebook等社交媒体网站、外部新闻源,甚至公司内部收集而来以便分析的文本数量越来越多。由于文本是非结构化数据(不像通常存储在关系数据库中的结构化数据),主流的业务分析工具面对文本时常常束手无策。

文本分析采用了一系列方法(关键字搜索、统计分析法和语言研究法等),从基于文本的数据中获得洞察力。

非结构化数据

就在不久前,大部分数据还是结构化数据,这种字母数字信息(如来自销售交易的财务数据)很容易存储在关系数据库中,并由商业智能工具来分析。

但是如今共计2.7泽字节的存储数据中很大一部分是非结构化数据,比如基于文本的文档、推特消息、发布在Flickr上的照片、发布在YouTube上的视频,等等。(颇有意思的是,每分钟有长达35个小时的视频内容上传到YouTube。)处理、存储和分析所有这些凌乱的非结构化数据常常是如今的IT系统面临的难题。

可视化

随着数据量的增长,人们使用静态的图表和图形来理解数据越来越困难了。这就导致开发新一代的数据可视化和分析工具,能够以新的方式呈现数据,从而帮助人们理解海量信息。

这些工具包括:标以色码的热图,三维图形,显示一段时间内变化的动画可视化,以及在地理地图上覆盖数据的地理空间呈现。今天的先进数据可视化工具还具有更强的互动性,比如允许用户放大某个数据子集,进行更仔细的检查。

Whirr

Apache Whirr是一组Java类库,用于运行大数据云服务。更确切地说,它可以加快在亚马逊d性计算云(EC2)和Rackspace等虚拟基础设施上开发Hadoop集群的过程。

XML

可扩展标记语言(XML)用来传输和存储数据(别与HTML混为一谈,后者用来显示数据)。借助XML,程序员们就可以创建通用的数据格式,并通过互联网共享信息和格式。

由于XML文档可能非常庞大、复杂,它们往往被认为导致IT部门面临大数据挑战。

尧字节

尧字节(yottabyte)是一种数据存储度量指标,相当于1000泽字节。据知名调研机构IDC公司估计,今年全球存储的数据总量预计将达到2.7泽字节,比2011年增长48%。所以,我们离达到尧字节这个大关还有很长一段路,不过从目前大数据的增长速度来看,那一天的到来可能比我们想象的要快。

顺便说一下,1泽字节相当于1021字节的数据。它相当于1000艾字节(EB)、100万拍字节(PB)和10亿太字节(TB)。

ZooKeeper

ZooKeeper是由Apache软件基金会创建的一项服务,旨在帮助Hadoop用户管理和协调跨分布式网络的Hadoop节点。

ZooKeeper与HBase紧密集成,而HBase是与Hadoop有关的数据库。ZooKeeper是一项集中式服务,用于维护配置信息、命名服务、分布式同步及其他群组服务。IT管理人员用它来实现可靠的消息传递机制、同步流程执行及实施冗余服务。

下列是一些数据库中经常碰到的英文单词:

Access method(访问方法):此步骤包括从文件中存储和检索记录。

Alias(别名):某属性的另一个名字。在SQL中,可以用别名替换表名。

Alternate keys(备用键,ER/关系模型):在实体/表中没有被选为主健的候选键。

Anomalies(异常)参见更新异常(update anomalies)

Application design(应用程序设计):数据库应用程序生命周期的一个阶段,包括设计用户界面以及使用和处理数据库的应用程序。

Attribute(属性)(关系模型):属性是关系中命名的列。

Attribute(属性)(ER模型):实体或关系中的一个性质。

Attribute inheritance(属性继承):子类成员可以拥有其特有的属性,并且继承那些与超类有关的属性的过程。

Base table(基本表):一个命名的表,其记录物理的存储在数据库中。

Binary relationship(二元关系):一个ER术语,用于描述两个实体间的关系。例如,panch Has Staff。

Bottom-up approach(自底向上方法):用于数据库设计,一种设计方法学,他从标识每个设计组建开始,然后将这些组件聚合成一个大的单元。在数据库设计中,可以从表示属性开始底层设计,然后

将这些属性组合在一起构成代表实体和关系的表。

Business rules(业务规则):由用户或数据库的管理者指定的附加规则。

Candidate key(候选键,ER关系模型):仅包含唯一标识实体所必须得最小数量的属性/列的超键。

Cardinality(基数):描述每个参与实体的可能的关系数目。

Centralized approach(集中化方法,用于数据库设计):将每个用户试图的需求合并成新数据库应用程序的一个需求集合

Chasm trap(深坑陷阱):假设实体间存在一根,但某些实体间不存在通路。

Client(客户端):向一个或多个服务器请求服务的软件应用程序。

Clustering field(群集字段):记录总的任何用于群集(集合)航记录的非键字段,这些行在这个字段上有相同的值。

Clustering index(群集索引):在文件的群集字段上定义的索引。一个文件最多有一个主索引或一个群集索引。

Column(列):参加属性(attribute)。

Complex relationship(复杂关系):度数大于2的关系。

Composite attribute(复合属性):由多个简单组件组成的属性。

Composite key(复合键):包含多个列的主健。

Concurrency control(并发控制):在多用户环境下同时执行多个十五并保证数据完整性的一个DBMS服务。

Constraint(约束):数据库不允许包含错误数据的一致性规则。

Data conversion and loading(数据转换和加载):数据库应用生命周期重的一个阶段,包括转换现有数据到新数据库中以及酱下耨应用程序转换到新的数据库上运行。

Data dictionary(数据字典):参见系统目录(system catalog)。

Data independence(数据独立性):使用数据的应用程序的数据描述部分。这意味着,如果将新的数据结构添加到数据库中,或者数据库中现有的结构被修改了,那么使用此数据库的就会受到影响,除

非应用程序不直接依赖于被修改的部分。

Data model(数据模型):描述数据、数据间关系以及数据的约束的概念的一个集成的集合。

Data redundancy(数据冗余):参见冗余数据(redundant data)。

Data security(数据安全):包括对数据库对象(如表和视图)的访问和使用以及用户可以在这些对象上实施的 *** 作。

Database(数据库):是逻辑上相关的数据(以及这些数据的描述)的一个共享的集合,用于解决公司对信息的需求。

Database design(数据库设计):数据库应用生命周期中的一个阶段,包括创建一个支持公司的 *** 作和目标的数据库的设计。

Database integrity(数据库完整性):指存储数据的正确定和一致性。完整性通常用约束来表达。

Database Management System,DBMS(数据库管理系统):一个能够让用户定义、创建和维护数据库并控制对数据库的访问的软件系统。

Database planning(数据库规划):能尽可能有效的实现数据库应用的各阶段的管理活动。

Database server(数据库服务器):同服务器。

DBMS engine(DBMS引擎):同服务器。

DBMS selection(DBMS选择):数据库应用生命周期中的一个阶段,包括选择一个合适的DBMS来支持数据库应用。

Degree of a relationship(关系的度):一个关系中参与的实体的个数。

Denormalization(反规范化):形式上,这个术语指的是对基本表结构的修改,这样新的表比原始的表的规范化程度要低。但也可以用此属于更宽泛地形容将两个表和并成一个新表的情形,而这个新表

与原来的表具有相同的范式,但比原表包含更多的空值。

Derived attribute(派生属性):表示其值可以从一个相关属性和属性集的值派生得到的属性,这个属性在实体中不是必须的。

Design methodology(设计方法学):一种结构化的方法,它使用过程、工具和文档来支持和简化设计过程。

Disjoint constraint(无连接约束):描述子类的成员间的关系,并指明超类某个成员是否有可能成为一个或多个子类的成员。

Domain(域):一个或多个属性的取值范围。

Entity(实体):具有相同性质的对象的集合,它是由用户或公司标识并可独立存在的。

Entity integrity(实体完整性):在一个基本表中,主健列的值不能为空。

Entity occurrence(实体出现):实体中的一个唯一可标识的对象。

Entity-Relationship model(实体关系模型):公司的实体、属性和关系的详细逻辑表示。

Fact-finding(事实发现):使用诸如面谈和提问等技术收集关于系统的事实、需求和性能的形式化过程。

Fan trap(扇形陷阱):但从第三个实体扇出的两个实体有1:*关系时出现扇形陷阱,但这两个实体在他们之间应该有直接关系以提供必要的信息

Field(字段):同元组(Tuple)。

File(文件):存储在副主存储器中的相关记录的一个命名集合。

File-based system(基于文件的系统):一个文件集合,用来管理(创建、插入、删除、更新和检索)一个或多个文件中的数据,并产生基于这些文件中的数据的应用(通常是报表)。

File organization(文件组织):当文件存储在磁盘上时,对文件中的记录的安排方式。

First normal form(1NF,第一范式):表中的每个列的交叉处以及记录包含切进包含一个值的表。

Foreign key(外健):一个表中的一个列或者多个列的集合,这些列匹配某些其他(也可能是同一个)表中的候选键。

4GL, Fourth-Generation Language(第四代语言):一种非过程化语言,比如SQL,他只需要用户定义必须完成什么 *** 作,4GL负责将所进行的 *** 作翻译成如何实现这些 *** 作。

Full functional dependency(完全函数依赖):一个列在功能上依赖于复合主健,但不依赖于主健的任何一个子集的条件。

Functional dependency(函数依赖):描述表中列之间的关系。

Generalization(泛化):通过标识实体间的公共特征使实体间差别最小化的过程。

Generalization hierarchy(泛化层次结构):同类型层次(type hierarchy)。

Global data model(全局数据模型):代表整个公司(和被模型化的公司的一部分)的数据模型。

Implementation(实现):数据库应用生命周期中的一个阶段,包括数据库和应用程序设计的物理实现。

Index(索引):一种允许DBMS将特定的记录更快的放置到文件中,从而加快对用户查询的响应的数据结构。

Infomation system(信息系统):能够在整个公司范围内收集、管理、控制和分发数据/信息的资源。

Inheritance(继承):参见属性继承(attribute inheritance)。

Integrity constaints(完整性约束):防止出现数据库中的数据不一致的约束。

IS-A hierarchy(IS-A层次结构):同类型层次结构(type hierarchy)。

Local logical data model(局部逻辑数据模型):代表特定用户视图或用户视图的组合的数据模型。

Logical database design(逻辑数据库设计):基于特定的数据模型构建公司的数据的模型的过程,但不依赖于特定的DBMS以及其他的物理条件。

Meta-data(元数据):关于数据的数据,参见系统目录(system catalog)。

Mision objective(使命目标):标识数据库必须支持的特定任务。

Mission statement(使命语句):定义数据库应用程序的主要目标。

Multiplicity(多样性):定义与某个相关实体的一次出现有关的实体的出现数目。

Multi-valued attribute(多值属性):为一个实体的出现保存多个值的属性。

Nonkey attribute/column(非键属性/列):不是键的一部分的属性/列。

Normal forms(范式):规范化过程的一个阶段。前三个范式分别为第一范式(1NF)、第二范式(2NF)、第三范式(3NF)。

Normalization(规范化):一种产生带有需要的特性的技术,这种特性能支持用户和公司的需求。

差不多就是这些了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9902451.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存