根据jobid找到对应的目录弊袜春: application_1456816082333_1354,里面有错误的文件id,然后删除掉hdfs的对应的损坏文件。
1、要想使用Hive首先需要启动hadoop,因为hive的使用是依赖于hadoop的hdfs文件系统以及MapReduce计算的,下图是启动hadoop,如下图。
2、然后打开hadoop集群的master主机,然后使用【ifconfig】命令来看一下本机的改坦悄ip地址,这个在SecureCRT软件的时候要使用 ,如下图。
3、然后打开SecureCRT软件,输入命令【rz】准备上传hive的安装包。
4、选中已经下载的hive安装包,然后点击【添加】,然后点击【确定】开始文件的上传,如下图。
5、然后在软件中观察文件上传的进度,上传核渣结束后如下图。
6、进入到hadoop集群的master的终端中输入【ll】命令查看上传的hive安装包,红色表示压缩包。
7、然后输入信弊【chmod +x ./hive-0.11.0.tar.gz】命令,给文件赋权。
导入数据设置HADOOP_HOME
$ HADOOP_HOME=/path/to/some/hadoop sqoop import --arguments...
下载合适的Sqoop并解压到硬念睁盘指高并,所谓合适即Sqoop的版本应该和Hadoop的版本相匹配。笔者的Hadoop版本是1.03,下载的Sqoop是版本1.4.2。
$ tar zvxf sqoop-1.4.2.bin__hadoop-1.0.0.tar.gz
下载合适的JDBC驱动,将下载的JDBC的驱动放到Sqoop的lib文件夹下。
导入数据
$ sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.56.111:1521:DBNAME --username USERNAME --password PASSWORD --verbose -m 1 --table TABLENAME
DBNAME:数据库名
USERNAME:用户名
PASSWORD:密码
TABLENAME:表名
-m:导入数据的进程的并发数,默认是4。如果导入的数据不大的话,不妨设置成1,这样导入更快。一般来说Sqoop会使用主键来平均地分割数据。并发导入的时候可以设置相关的分割列等等,具体的做法参考官方的文档。
如果Oracle是安装在远程的电脑上,要确保Sqoop可以ping通Oracle所在的电脑。例如如果Oracle安装在Win7上面,可唯迹能需要关闭Win7的防火墙。另外,需要将Oracle配置成可以远程访问的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)