Hadoop学习

Hadoop学习,第1张

Hadoop学习



关于集群,分布式集群,节点等概念
戳我

HDFS,是一个分布式文件系统
数据(比如岛国资料)存储在多个服务器上
数据都存储在什么位置:NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
每台服务器,又叫DataNode:用于具体存储数据:在本地文件系统存储文件块数据,以及块数据的校验和。
2NN 一个类似秘书的角色:每隔一段时间对NameNode元数据备份。


主要记住:整个集群资源的老大:ResourseManager,单节点服务器资源的老大:NodeManager
一台性能好的服务器可以虚拟出多个container(d幕提到docker),一个container默认1-8g内存


图中涉及的技术名词解释如下:
1)Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL)
间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进
到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,
Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;
4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数
据进行计算。
5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。
7)Hbase:Hbase 是一个分布式的、面向列的开源数据库。Hbase 不同于一般的关系数据库,
它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张
数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运
行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开
发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、
名字服务、分布式同步、组服务等。

虚拟机配置

!!!千万不要卸载原来的重装,后患无穷只能说。
Linux系统配置过程中:
swap:内存不够时,硬盘里抽出一部分当作内存用。
kdump:系统奔溃时,保留一部分内存
ctrl+滚轮,调节窗口显示大小

win10的安全保护更严格,很多 *** 作都要这么来

ctrl+c停止ping网络

ctrl+l或者clear清空屏幕(本质是向后翻了一页)

使用vim /etc/sudoers修改权限找不到root ALL:一直回车,他就会往下拉.(yy复制,p粘贴:噢,是vim的命令)

更改权限:

卸载jdk:


Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
➢ 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。数据储存在linux本地.
➢ 伪分布式模式:也是单机运行,但是具备 Hadoop 集群的所有功能,一台服务器模
拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。数据储存在HDFS.
➢ 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

拷贝jdk,hadoop等文件到另外的服务器上(使用scp(第一次使用),rcync(后面进行更改))



配置环境变量的作用:任何目录下都可以用

集群配置


vim一般模式下用u撤销


执行wordcount程序报错
戳我

kill -9 xxxx命令: 强制杀死端口为xxxx的命令

集群崩溃处理方法:看硅谷视频32集

关于hadoopweb界面的一些解读:
戳我

更改完yarn(集群内容)设置后,一定要重启yarn(集群)相关进程:(后面编写了相应脚本)



第二行那个是hdfs NameNode 对外端口
2、常用的配置文件
3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves


对应集群崩溃处理方法那一节

HDFS





HDFS 的 Shell *** 作

hadoop fs 具体命令 OR hdfs dfs 具体命令
两个是完全相同的。

和linux命令差不多,基本上都要会的
1.moveFromLocal: 原文件move走了就没有了,去了新文件夹里



注意集群里的文件位置和本地文件位置不同 !

2.3.4直接 *** 作

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5700132.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存