如何检测hadoop中gz压缩文件是否损坏

如何检测hadoop中gz压缩文件是否损坏,第1张

执租耐行hive任务的时候,进好亮入到8088的map详细进度列表,即是RUNNING MAP attempts in job_1456816082333_1354,查看最后出错的map是哪个节点或者在页面直接点击logs进入详细log日志查看,或者进入到节点的Hadoop的logs/userlogs目录

根据jobid找到对应的目录弊袜春: application_1456816082333_1354,里面有错误的文件id,然后删除掉hdfs的对应的损坏文件。

1、要想使用Hive首先需要启动hadoop,因为hive的使用是依赖于hadoop的hdfs文件系统以及MapReduce计算的,下图是启动hadoop,如下图

2、然后打开hadoop集群的master主机,然后使用【ifconfig】命令来看一下本机的改坦悄ip地址,这个在SecureCRT软件的时候要使用 ,如下图。

3、然后打开SecureCRT软件,输入命令【rz】准备上传hive的安装包。

4、选中已经下载的hive安装包,然后点击【添加】,然后点击【确定】开始文件的上传,如下图。

5、然后在软件中观察文件上传的进度,上传核渣结束后如下图。

6、进入到hadoop集群的master的终端中输入【ll】命令查看上传的hive安装包,红色表示压缩包。

7、然后输入信弊【chmod +x ./hive-0.11.0.tar.gz】命令,给文件赋权。

导入数据

设置HADOOP_HOME

$ HADOOP_HOME=/path/to/some/hadoop sqoop import --arguments...

下载合适的Sqoop并解压到硬念睁盘指高并,所谓合适即Sqoop的版本应该和Hadoop的版本相匹配。笔者的Hadoop版本是1.03,下载的Sqoop是版本1.4.2。

$ tar zvxf sqoop-1.4.2.bin__hadoop-1.0.0.tar.gz

下载合适的JDBC驱动,将下载的JDBC的驱动放到Sqoop的lib文件夹下。

导入数据

$ sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.56.111:1521:DBNAME --username USERNAME --password PASSWORD --verbose -m 1 --table TABLENAME

DBNAME:数据库名

USERNAME:用户名

PASSWORD:密码

TABLENAME:表名

-m:导入数据的进程的并发数,默认是4。如果导入的数据不大的话,不妨设置成1,这样导入更快。一般来说Sqoop会使用主键来平均地分割数据。并发导入的时候可以设置相关的分割列等等,具体的做法参考官方的文档。

如果Oracle是安装在远程的电脑上,要确保Sqoop可以ping通Oracle所在的电脑。例如如果Oracle安装在Win7上面,可唯迹能需要关闭Win7的防火墙。另外,需要将Oracle配置成可以远程访问的。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12294317.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存