海量数据,具有高增长率,数据类型多样化,一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合
大数据的4V特征:巨大的数据量,数据类型多样化,数据增长速度快,价值密度低(经过处理,解析等得到商业价值比较高的数据),商业价值高
记录已经发生的一切,描述正在发生的一切,预测将要发生的一切
nameNode有且仅有一个,是用来维护集群的目录数结构及对外提供服务的
dataNode是用来存储数据的
3.5.1 启动集群
3)jps查看进程
合并下载:就是把多个文件中的数据合并下载到一个文件中,下图中file文件中的数据是file1,file2,file3三个文件中的全部内容
移动文件和重命名文件
改之前
改之后
HDFS不适合存储小文件
MapReduce1.x已经过时了
重点关注yarn
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)