分享大佬细做:
https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md
从hive中的表中将数据导入到PolarDB,使用的工具是dataX
hive表中的数据存储在hdfs文件系统:
1.根据上面连接分析可知: 如果hive表创建时,文件存储格式如果设置 为parquet是不能够进行导入成功的。 --亲测不行 2.将hive表的存储文件设置为其他格式,如orc格式 --待测试
下面是hive建表语句(将表文件存储在hdfs文件存储系统):
暂时没有传成功
---parquet的文件存储格式--- CREATE EXTERNAL TABLE if not exists `dws_qy_middle_bookid_rank_test_parquet`( `book_id` int COMMENT '书籍ID', `admin_id` int COMMENT '渠道ID', `book_name` string COMMENT '书籍名称', `book_category_name` string COMMENT '书籍类型', `yesterday_money` double COMMENT '昨日书籍订单数(充值金额)', `week_money` double COMMENT '7日以来书籍订单数(充值金额)', `month_money` double COMMENT '30日以来书籍订单数(充值金额)', `yesterday_consumes` int COMMENT '昨日书籍订阅数量(消费书币数量)', `week_consumes` int COMMENT '7日以来书籍订阅数量(消费书币数量)', `month_consumes` int COMMENT '30日以来书籍订阅数量(消费书币数量)', `yesterday_readers` int COMMENT '昨日书籍的浏览量(uv)', `week_readers` int COMMENT '7日书籍的浏览量(uv)', `month_readers` int COMMENT '30日书籍的浏览量(uv)', `date_day` string COMMENT '关联获取数据时间', `vipid` int COMMENT 'vipID', `business_id` int COMMENT '商务ID') PARTITIonED BY ( `dt` string) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 'hdfs://nameservice1/user/hive/warehouse/prod/data_qiyue/middle/dws/test_parquet_dws_qy_middle_bookid_rank' TBLPROPERTIES ( 'orc.compress'='snappy'); --orc格式存储文件--- CREATE TABLE `test_orc`( `advertiser_id` string, `ad_plan_id` string, `cnt` bigint) PARTITIonED BY ( `day` string, `type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint) ROW FORMAT DELIMITED NULL DEFINED AS '' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat' LOCATION 'hdfs://namenode/hivedata/warehouse/pmp.db/test_orc' TBLPROPERTIES ( 'transient_lastDdlTime'='1465992916')
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)