1 ,可以参考文件 详解hive的列分隔符和行分隔符的使"og:type" content="webpage">1 ,可以参考文件 详解hive的列分隔符和行分隔符的使" /> 1 ,可以参考文件 详解hive的列分隔符和行分隔符的使"> hive导入到clickhouse的几种方式总结_安全_内存溢出

阅读 21

hive导入到clickhouse的几种方式总结,第1张

在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式

,以及一些坑与大家分享; 选择合适的分隔符;大部分情况

下,会选择逗号或者hive的默认分隔符\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用

情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理

特别注意

列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;

情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理

​ 情况三:因为hive导出之后,原来的bigint,会出现100的情况,在有些情况下,需要进行截断

​ 情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验

​ Float-->bigInt出现错误

​ int8--->Uint8之间转换错误;

csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记

方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用

方式二:

常见错误:

show create table 表名;

如果是这个表有分区的话,可以看到显示的内容里有partition,partition里面跟的就是分区列名
python执行该命令即可
由FaceBook开发,贡献给APache。

Hive是基于Hadoop的一个 数据仓库 工具,依赖HDFS完成数据存储,依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言,称为 HQL,通过编写HiveQL语句,运行具体的MapReduce任务。

1)采用批处理方式处理海量数据。

2)提供了ETL工具。

 Hive的体系结构可以分为以下几部分:
Hive 对外提供了三种服务模式,即 Hive 命令行模式(CLI),Hive 的 Web 模式(WUI),Hive 的远程服务(Client)。Hive 远程服务通过 JDBC 等访问来连接 Hive ,这是日常中最需要的方式。 

元数据存储在Mysql或Derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

由Cloudera公司开发的新型查询系统。

 Impala元数据存储在Hive中,不能独立运行,依赖Hive元数据。

Impala执行查询时,不需要转换成MapReduce任务,可以直接与HDFS或HBase进行交互查询,查询效率远远高于Hive。

Impala采用与Hive相同的SQL语法,ODBC驱动程序和用户接口。

Impala主要由Impalad, State Store和CLI组成,执行查询的时候分布在多个节点上进行。

Impalad:负责协调客户端提交变得查询的执行,与HDFS的数据节点运行在同一节点上。

State Store:负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。

CLI: 提供给用户查询使用的命令行工具(Impala Shell使用python实现),同时Impala还提供了Hue,JDBC, ODBC使用接口。

DBeaver中配置的使用JDBC来访问。

其具体执行过程如下:
1、试用场景:

Hive:跑批

Impala:实时交互

2、计算方式:

Hive:依赖于MapReduce框架

Impala:直接分发执行计划到各个Impalad执行查询

3、资源使用情况:

Hive执行过程中,若内存放不下所有数据则会使用外存。


Impala只用内存。

欢迎分享,转载请注明来源:

内存溢出

原文地址:

https://outofmemory.cn/yw/13370528.html
分隔符
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
血凝仪 血凝仪 一级用户组
我支付宝有绑定的yhk,为什么不能付款
上一篇
2023-07-23
面试怎么问问题
2023-07-23

发表评论
请登录后评论... 登录
提交

    评论列表(0条)
保存
{label} {label}