大数据平台提供的最基本的两个功能是什么

大数据平台提供的最基本的两个功能是什么,第1张

最基本的两个功能是:一数据收集;二数据分析归纳。

扩展:

一、它必须容纳海量数据

如果大数据分析平台无法扩展以存储或管理海量数据,那么仅仅提高速度所带来的作用相当有限。大数据分析平台必须能够容纳海量数据。

大规模并行处理是用于扩展分析处理的理想技术,因为它同时利用计算机群集的存储和计算能力。它不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。

此外,被设计为用于处理结构化数据的大数据平台使用MPP,可进一步加速处理 *** 作,这是因为已针对分析程序优化了结构化数据,并减少了回答查询所需执行的搜索量。结构化数据库能够更好地了解数据在数据海洋中的位置,并且可以精确地存取数据。

一般来说,非结构化数据库难以扩展到采用列式设计的结构化数据库所能达到的级别。但是,大数据分析平台可能整合有能够提高非结构化数据库的可扩展性和性能的功能。

二、它必须非常快

简单来说,数字时代下,用户不希望在运行查询时长时间地等待结果。他们期望即时得到满足,获得即时结果,而对其他工作负载没有影响。这意味着大数据分析平台必须增强现有应用程序的性能,允许您开发具有挑战性的新分析方法,并提供合理、可预测和经济的横向扩展策略。

从技术角度来看,要满足这些期望,必须结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术或者说MPP。

理由在于:列式设计可最大限度地减少I/O争用,后者是导致分析处理发生延迟的主要原因。列式设计还可提供极高的压缩率,相比于行式数据库,通常可将压缩率提高四倍或五倍。MPP数据仓库通常按比例线性扩展,这意味着如果您将双节点MPP仓库的空间翻倍,那么可有效将其性能提高一倍。

列式设计和MPP的结合不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制,例如针对每TB的模型而非传统的针对每处理器、每节点、每用户的定价方案。最终结果:性能呈指数级增长,同时大数据分析处理过程的总成本大幅降低。

三、它必须兼容传统工具

如果您的大数据分析平台依赖于“提取、转换、加载”(ETL)工具(如Attunity、Informatica、Syncsort、Talend或Pentaho)或基于SQL的可视化工具(如Logi

Analytics、Looker、MicroStrategy、Qlik、Tableau和Talena),请确保该平台已经过认证,可与所有这些工具而不仅仅是主要供应商的工具搭配使用。此外,确保您使用的所有工具和扩展技术符合最新版本的ANSI

SQL标准(SQL2011)。

四、它必须为数据科学家提供支持

数据科学家在企业IT中拥有着更高的影响力和重要性,因此大数据分析平台应在下述两个关键方面支持数据科学家。首先,新一代数据科学家采用Java、Python和R等工具来执行预测式分析。底层分析数据库应支持和加速创新型预测分析的创建过程。

其次,此平台应有助于将数据科学家的工作与业务目标联系起来。如今,数据科学家的角色常常从统计学家演变而来,后者相对而言更具学术意味,而且通常并不熟悉宏观业务目标。在某些情况下,会导致数据科学家得出的结论可能不完整、不准确或与业务成果无关。同时,商业人士常常乐于让统计学家在封闭的环境中工作,只在需要他们支招时才去找他们。

快速、高效、易于使用和广泛部署的大数据分析平台可以帮助拉近商业人士和技术专家之间的距离。

五、它应提供高级分析功能

根据您的特定使用情况,可能有必要深入查看由大数据分析引擎提供的内置SQL分析功能。您必须从底层查看,以了解究竟提供了何种SQL分析,而不用对该数据执行分析。例如,如果要对从设备获得的数据执行分析(如在物联网中),则需要诸如“时间序列分析”和“差距分析”等分析功能。如果没有这些功能,您可能需要花费时间整理数据或编写自定义代码。

数据库管理系统的主要功能有:数据定义功能、数据 *** 纵功能、数据库的运行管理、数据库信息的接口和数据库的建立和维护功能。

1、数据定义功能:DBMS提供数据定义语言(Data Definition Language,DDL),用户通过它可以方便地对数据库中的数据对象进行定义。

2、数据 *** 纵功能:DBMS还提供数据 *** 纵语言(Data Manipulation Language,DML),用户可以使用DML *** 作数据,实现对数据库的基本 *** 作,如查询、插入、删除和修改等。

3、数据库的运行管理:数据库在建立、运用和维护时由数据库管理系统统一管理、统一控制,以保证数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复。

4、提供方便、有效地存取数据库信息的接口和工具:编程人员可通过编程语言与数据库之间的接口进行数据库应用程序的开发。数据库管理员(Database Administrator,DBA)可通过提供的工具对数据库进行管理。

5、数据库的建立和维护功能:数据库功能包括数据库初始数据的输入、转换功能,数据库的转储、恢复功能,数据库的重组织功能和性能监控、分析功能等。这些功能通常是由一些程序来完成。

数据库管理系统的结构

1、外部层(External Level)或称观点层(View Level):包括数个外部纲要(External Schema)或用户观点(User Views),每个外部纲要描述了特定族群有兴趣的部分数据库并对该族群隐藏剩下的部分,如同概念层,每个外部纲要一般使用表达性资料模型(Representational Data Model)实现。

2、概念层(Conceptual Level):包含了概念纲要(Conceptual Schema),概念纲要描述了整个用户社群的数据库结构,其隐藏了实际存储资料的结构并专注于描述实体(Entity)、资料类型(Data Type)、关系(Relationships)、用户 *** 作(User Operations)以及限制(Constraints)。通常数据库系统被实现时,表达性资料模型也被用于描述概念纲要。

3、内部层(Internal Level):内有内部纲要(Internal Schema),内部纲要描述的是实际存储资料的结构,其使用实体资料模型(Physical Data Model)并详细描述数据库的资料存储(Data Storage)及访问路径(Access Path)。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/10814018.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存