如何检测hadoop中gz压缩文件是否损坏_教程

执租耐行hive任务的时候，进好亮入到8088的map详细进度列表，即是RUNNING MAP attempts in job_1456816082333_1354，查看最后出错的map是哪个节点或者在页面直接点击logs进入详细log日志查看，或者进入到节点的Hadoop的logs/userlogs目录

根据jobid找到对应的目录弊袜春： application_1456816082333_1354，里面有错误的文件id，然后删除掉hdfs的对应的损坏文件。

1、要想使用Hive首先需要启动hadoop，因为hive的使用是依赖于hadoop的hdfs文件系统以及MapReduce计算的，下图是启动hadoop，如下图。

2、然后打开hadoop集群的master主机，然后使用【ifconfig】命令来看一下本机的改坦悄ip地址，这个在SecureCRT软件的时候要使用，如下图。

3、然后打开SecureCRT软件，输入命令【rz】准备上传hive的安装包。

4、选中已经下载的hive安装包，然后点击【添加】，然后点击【确定】开始文件的上传，如下图。

5、然后在软件中观察文件上传的进度，上传核渣结束后如下图。

6、进入到hadoop集群的master的终端中输入【ll】命令查看上传的hive安装包，红色表示压缩包。

7、然后输入信弊【chmod +x ./hive-0.11.0.tar.gz】命令，给文件赋权。

导入数据

设置HADOOP_HOME

$ HADOOP_HOME=/path/to/some/hadoop sqoop import --arguments...

下载合适的Sqoop并解压到硬念睁盘指高并，所谓合适即Sqoop的版本应该和Hadoop的版本相匹配。笔者的Hadoop版本是1.03，下载的Sqoop是版本1.4.2。

$ tar zvxf sqoop-1.4.2.bin__hadoop-1.0.0.tar.gz

下载合适的JDBC驱动，将下载的JDBC的驱动放到Sqoop的lib文件夹下。

导入数据

$ sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.56.111:1521:DBNAME --username USERNAME --password PASSWORD --verbose -m 1 --table TABLENAME

DBNAME：数据库名

USERNAME：用户名

PASSWORD：密码

TABLENAME：表名

-m：导入数据的进程的并发数，默认是4。如果导入的数据不大的话，不妨设置成1，这样导入更快。一般来说Sqoop会使用主键来平均地分割数据。并发导入的时候可以设置相关的分割列等等，具体的做法参考官方的文档。

如果Oracle是安装在远程的电脑上，要确保Sqoop可以ping通Oracle所在的电脑。例如如果Oracle安装在Win7上面，可唯迹能需要关闭Win7的防火墙。另外，需要将Oracle配置成可以远程访问的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12294317.html

如何检测hadoop中gz压缩文件是否损坏

发表评论

评论列表（0条）