- 低端配置
1个处理器,2个内核;1024MB内存;30GB硬盘;一个低版本iso文件
- 高端安装
2个处理器,2个内核;2048内存;50GB硬盘;一个新版本iso文件
- 顶配 越高越好
我选择第一种。除了上述说的配置之外,还有注意稍后安装 *** 作系统,其余一路点击确定即可。
Ubuntu
- 选择中文
- 什么都不要勾
- 分区设置
- swap 2GB
- / 28GB 逻辑 ext4
- 时区
- 用户名 密码123456(怕忘了)
- 等待安装
输入法切换 直接按shift即可
复制粘贴 加上shift即可
FileZilla
在Windows安装好
然后看些教程
$ sudo apt-get install vsftpd $ sudo vim /etc/vsftpd.conf #找到 local_enable=YES write_enable=YES $ sudo /etc/init.d/vsftpd restart
#ifconfig命令不起作用 $ sudo apt install net-tools $ ifconfig #查IP地址 然后连接Windows的FileZilla
Hadoop
版本2.7.1
创建hadoop用户$ sudo useradd -m hadoop -s /bin/bash #这里是用户user创建add $ sudo passwd hadoop #输入两次密码 $ sudo adduser hadoop sudo #添加add用户user hadoop 的权限sudo #然后注销换hadoop上场
更新apt
$ sudo apt-get update $ sudo apt-get install vim $ sudo apt-get install gedit #比vim更友好
免密登录
$ sudo apt-get install openssh-server #安装ssh $ ssh localhost #登录本机 #每次都要输入密码 $ exit #先退出登录 $ cd ~/.ssh #执行了一次ssh localhost就有 $ ssh-keygen -t rsa #生成密钥 #id_rsa是私钥,id_rsa.pub是公钥 $ cat ./id_rsa.pub >> ./authorized_keys #给大哥公钥 $ ssh localhost
安装Java环境
$ sudo tar -zxvf java包名 -C /usr/lib/jvm #事先创建 $ vim ~/.bashrc export JAVA_HOME= #pwd export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH $ source ~/.bashrc $ java -version
安装Hadoop2.7.1
$ sudo tar -zxvf 包名 -C /usr/local $ sudo mv /usr/local/包名 /usr/local/hadoop $ sudo chown -R hadoop ./hadoop #修改文件权限 $ ./bin/hadoop version
单机模式
需要建立input文件夹放入文件
然后直接运行例子 输出到output文件夹
下次运行前需要删掉output
伪分布式模式
需要配置xml文件
- /usr/local/hadoop/etc/hadoop/core-site.xml
hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories. fs.defaultFS hdfs://localhost:9000
- /usr/local/hadoop/etc/hadoop/hdfs-site.xml
dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data
问:文件的意义?
$ hdfs namenode -format $ start-dfs.sh
关于下一次重启hdfs
$ stop-dfs.sh $ cd /usr/local/hadoop $ rm -rf tmp/ $ hdfs namenode -format $ start-dfs.sh # 打开http://192.168.10.131:50070
遇到的问题
hostname 主机名称
hosts 加一下IP地址和主机名称
Spark
版本2.4.0 without hadoop
解压缩 改名 授权$ sudo tar -zxvf 包名 -C /usr/local/ $ cd /usr/local $ sudo mv 文件夹名 spark $ sudo chown -R hadoop:hadoop ./spark
配置相关文件
$ vim ~/.bashrc export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162 #要更改 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=$PATH:${JAVA_HOME}/bin:/usr/local/hbase/bin export HADOOP_HOME=/usr/local/hadoop export SPARK_HOME=/usr/local/spark export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH #注意数字 export PYSPARK_PYTHON=python3 export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH $ source ~/.bashrc
验证Spark是否安装成功
$ cd /usr/local/spark $ ./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
没有输出
$ ./bin/run-example SparkPi Error...
原因:没启动Hadoop HDFS,没有配置环境变量
$ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-env.sh export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
Spark与Hadoop交互
#先启动Hadoop $ cd /usr/local/hadoop $ ./sbin/start-dfs.sh
伪分布式Spark只会用到HDFS读写文件
pyspark Python3
之前装CentOS需要自己装
Ubuntu好像自带,那没事了
启动
$ cd /usr/local/spark $ ./bin/pyspark --master local[*]
Error…
还是没有启动HDFS
启动之后就可以进入spark-shell
然后输入jps发现多了个SparkSubmit
Hbase 安装
$ tar -zxvf 包名 -C /usr/local $ sudo mv 文件夹名 hbase $ vim ~/.bashrc export PATH=$PATH:/usr/local/hbase/bin $ source ~/.bashrc $ sudo chown -R hadoop ./hbase $ hbase/bin/hbase version伪分布式配置
$ vim /usr/local/hbase/conf/hbase-env.sh export JAVA_HOME=#pwd export Hbase_CLASSPATH=/usr/local/hadoop/conf export Hbase_MANAGES_ZK=true
$ vim /usr/local/hbase/conf/hbase-site.xmlhbase.rootdir hdfs://localhost:9000/hbase hbase.cluster.distributed true
$ start-hbase.sh $ jps $ stop-hbase.sh
MySQL
安装
$ sudo apt-get update $ sudo apt-get install mysql-server启动和关闭
$ service mysql start $ sudo netstat -tap | grep mysql #LISTEN $ mysql -u root -p $ service mysql restart $ service mysql stop
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)