dataX基础教程_随笔

dataX基础教程

分享大佬细做：

https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md

从hive中的表中将数据导入到PolarDB，使用的工具是dataX

hive表中的数据存储在hdfs文件系统：

1.根据上面连接分析可知: 如果hive表创建时，文件存储格式如果设置
为parquet是不能够进行导入成功的。
--亲测不行


2.将hive表的存储文件设置为其他格式，如orc格式
  --待测试

下面是hive建表语句(将表文件存储在hdfs文件存储系统)：

暂时没有传成功

---parquet的文件存储格式---

CREATE EXTERNAL TABLE if not exists `dws_qy_middle_bookid_rank_test_parquet`(
  `book_id` int COMMENT '书籍ID', 
  `admin_id` int COMMENT '渠道ID', 
  `book_name` string COMMENT '书籍名称', 
  `book_category_name` string COMMENT '书籍类型', 
  `yesterday_money` double COMMENT '昨日书籍订单数(充值金额)', 
  `week_money` double COMMENT '7日以来书籍订单数(充值金额)', 
  `month_money` double COMMENT '30日以来书籍订单数(充值金额)', 
  `yesterday_consumes` int COMMENT '昨日书籍订阅数量(消费书币数量)', 
  `week_consumes` int COMMENT '7日以来书籍订阅数量(消费书币数量)', 
  `month_consumes` int COMMENT '30日以来书籍订阅数量(消费书币数量)', 
  `yesterday_readers` int COMMENT '昨日书籍的浏览量(uv)', 
  `week_readers` int COMMENT '7日书籍的浏览量(uv)', 
  `month_readers` int COMMENT '30日书籍的浏览量(uv)', 
  `date_day` string COMMENT '关联获取数据时间', 
  `vipid` int COMMENT 'vipID', 
  `business_id` int COMMENT '商务ID')
  PARTITIonED BY ( 
  `dt` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
'hdfs://nameservice1/user/hive/warehouse/prod/data_qiyue/middle/dws/test_parquet_dws_qy_middle_bookid_rank'
TBLPROPERTIES ( 'orc.compress'='snappy');


--orc格式存储文件---

CREATE  TABLE `test_orc`(
`advertiser_id` string, 
`ad_plan_id` string, 
`cnt` bigint)
PARTITIonED BY ( 
`day` string, 
`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', 
`hour` tinyint)
ROW FORMAT DELIMITED 
NULL DEFINED AS '' 
STORED AS INPUTFORMAT 
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
'hdfs://namenode/hivedata/warehouse/pmp.db/test_orc'
TBLPROPERTIES (
'transient_lastDdlTime'='1465992916')

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5705793.html

dataX基础教程

发表评论

评论列表（0条）