示例1(通过–table、 --hive-table):
sqoop import \
--connect jdbc:db2://5.19.6.xx:50000/tkdb \
--username dbname\
--password dbpwd \
--outdir '/tmp/' \
--delete-target-dir \
--table EPLAT.contract_csc \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--target-dir '/user/hive/csv/hdfs/contract_csc' \
--fields-terminated-by '&&&' \
--hive-drop-import-delims \
--null-string '\N'
--null-non-string '\N'
示例2(通过 --query)
sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb \
--username dbname\
--password dbpwd \
--outdir '/tmp/test/' \
--query "select * from EPLAT.contract_csc where \$CONDITIONS limit 10 " \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--map-column-java CONTENT=String \
--target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \
--delete-target-dir \
--fields-terminated-by '$' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--null-string '\N' \
--null-non-string '\N'
示例3(通过 --query):
sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb \
--username lifeuser --password T@ikanglifeuser \
--outdir '/tmp/sqoop/' \
--query "select * from CSC.rtrnpf_table where \$CONDITIONS and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'" \
--hive-import \
--hive-table rs_tklaissdb.rtrnpf_csv \
--num-mappers 1 \
--target-dir '/user/hive/csv/RTRNPF_CSV' \
--delete-target-dir \
--fields-terminated-by '--1' \
'\n'lines-terminated-by -- \
import-delimshive-drop-
sqoop参数解释:
-
–connect :数据库连接串 jdbc:db2://5.19.6.108:50000/tklodsdb
-
–username:数据库用户名
-
–password:数据库用户密码
-
–query:SQL语句
-
–map-column-java:数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java
content=String,sid=Integer -
–class-name:设定生成的Java文件指定的名称
-
-outdir:生成的java文件存放路径
-
–target-dir:指定hdfs路径
-
–delete-target-dir:如果hdfs目录存在会把目录删除
-
–fields-terminated-by:设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如’|',示例如:–fields-terminated-by ‘|’
-
–hive-drop-import-delims:在导入数据到hive中时,去掉数据中\n,\r和\01这样的字符
-
–input-null-string :可选参数,如果没有指定,则字符串null将被使用
-
–null-string:为字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null
-
–null-non-string:为非字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null
-
-m:表明需要使用几个map任务并发执行,默认4个,最好不要将数字设置为高于集群的节点数
-
–as-parquetfile:保存为parquet格式文件
-
-split-by : 表的列名,一般后面跟主键id
-
-columns ‘name’ #指定导入的列
使用过程中也碰到一些问题:
例如:
–query “select trim(glsign) as name,substr(batccoy,1,8) as batccoy from EPLAT.contract_csc where $CONDITIONS limit 10”
hive表字段 name string,batccoy string
本人测试了下是报错,不能导入hive的。有知道的大佬,还望告知,拜谢。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)