①数据采集->②数据归整->③数据存储->④数据处理->⑤数据呈现
大数据技术-
数据采集与预处理:联机分析处理(OLAP)与实时处理分析
数据存储和管理:对结构、非结构、半结构等海量数据进行存储(关系数据库、非关系数据库、数
据仓库、分布式文件系统) 数据处理与分析:利用 MapReduce 等结合着机器学习和数据挖掘算法实现数据分析和处理 数据安全和隐私保护:构建出隐私数据保护体系和数据安全体系,保护个人隐私和数据安全。
-
Hadoop 是用于处理(运算分析)海量数据的技术平台,且是采用分布式集群的方式。
功能
①、存储:提供海量数据的存储服务;
②、计算:提供分析海量数据的编程框架及运行平台; 三大核心组件:
①、HDFS:hadoop 分布式文件系统海量数据的存储(集群服务)
②、MapReduce:分布式运算框架(编程框架)(导 jar 包程序)
③、Yarn:资源调度管理集群
-
MapReduce 是 Hadoop 核心技术之一。
MapReduce 框架的核心步骤主要分两部分:Map 和 Reduce。
为分布式计算的程序设计提供了良好的编程接口,并且屏蔽了底层通信原理,使得程序员只需关心业务逻辑本事,就可轻
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)