Apache Kudu 入门（伪分布式）_系统运维

地址： http://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/5/RPMS/x86_64/

集群中所有主机必须保持时间同步，如果时间相差较大会引起各种问题。具体思路如下：

master节点作为ntp服务器与外界对时中心同步时间，随后对所有datanode节点提供时间同步服务。

所有datanode节点以master节点为基础同步时间。

所有节点安装相关组件： yum install ntp

启动服务： systemctl start ntpd

配置开机启动： systemctl enable ntpd

在配置之前，先使用ntpdate手动同步一下时间，免得本机与对时中心时间差距太大，使得ntpd不能正常同步。这里选用65.55.56.206作为对时中心,

ntpdate -u ntp1.aliyun.com

编辑配置文件名命令：

ntp服务只有一个配置文件，配置好了就OK。

这里只给出有用的配置，不需要的配置都用#注掉，这里就不在给出：

配置文件完成，保存退出，启动服务，执行如下命令： service ntpd start

检查是否成功，用 ntpstat

命令查看同步状态，出现以下状态代表启动成功：

如果出现异常请等待几分钟，一般等待5-10分钟才能同步。

ok保存退出，请求服务器前，请先使用ntpdate手动同步一下时间：ntpdate -u masterHostName (主节点ntp服务器).

注意：需要在所有的节点上执行，因为涉及到的端口太多了，临时关闭防火墙是为了安装起来更方便，安装完毕后可以根据需要设置防火墙策略，保证集群安全。

关闭防火墙并关闭自启动：

关闭SELINUX（实际安装过程中发现没有关闭也是可以的，不知道会不会有问题，还需进一步进行验证）:

修改 /etc/selinux/config 下的 SELINUX=disabled （重启后永久生效）

转自

kudu启动报错：

报错一：

报错分析：

至少需要配置两个master，但是只配置了一个

报错处理：

kudu-master支持多master备份机制，所以配置时需注意；

该参数配置为master节点以及ip列表，不指定默认为单master节点；如果指定了该配置，但是只有一个master节点就会报错；

报错二：

报错分析：

报错三：

报错分析：

kudu在启动之前必须保证各个服务器ntp一致，当各个table server不一致时会导致此报错；

解决办法：

查看ntpd服务是否开启：service ntpd status

查看ntpd服务是否已经同步：ntpstat

报错四：

报错分析：

经过分析报错可以得出：/soft/kudu/master/data/目录下没有创建文件的权限，同时kudu在启动的时候默认是使用kudu用户进行创建，所以要确定kudu用户能够对该文件夹下面的所有目录进行管理

报错处理：

在没有权限的目录下面执行： chown -R kudu:kudu ./* ,改变用户组和用户为kudu即可解决

报错五：

报错分析：

报错处理：

这个报错是因为tserver配置文件中没有指定master地址造成的；

可以通过映射表方式实现。下面说得略细，需要耐心看并做参考：

首先要知道目前（2017.05.04）kudu没有timestamp与decimal类型，需要用其它类型代替，比如timestamp可以用长bigint代替，decimal可以用double型代替。

如果想在kudu中创建一个新表，并将数据导入到这个新表中，那么比较简单的方式是通过impala建立kudo的内部映射表，因为建立内部映射表过程会同时建立一个kudu新表并在impala中建立一个内部映射表，建立方法如下:

首先保证kudu正确安装并且master与tserver服务都正常运行，然后在impala shell中输入

create table table_name (

column1 type primary key ...,

column2 type,

...

)

partition by hash(column1) partitions n stored as kudu

这样就在kudu中建立好表了，下一步就可以通过impala的映射表向这个kudu表中导入数据了（table_name要用自己取的表名代替，columnN也要用自己取的列名代替。）（如果建立列集主键，方式为primary key(column1, column2, column3)，具体如何建立这里就不细说了）（顺便说一下：这样建立的kudu中的表名为：impala::database_name.table_name）。

如果kudu中已经存在一个现有表，您想将impala表中数据导入到这个现有kudu表中，那么需要在impala中建立外部映射表，方法是：

create external table table_name

stored as kudu

tblproperties('kudu.table_name' = 'kudu中的table_name')

这样就建立完成了。

在impala shell 中执行：

insert into table_name select * from 你的impala表

就可以将你的表数据导入到新表了。

最后提及：kudu表必须有主键或者列集主键，可能你的表没有主键或列集主键，而你的表第一列或对应列集的前几列又有重复数据，这种情况下你的表导入后会有数据丢失，比较简单的解决方法是：

在建立kudu表时增加一个专门的主键，放在第一列。然后：

insert into table_name select row_number() over(order by 你的impala表中任意一列名), * from 你的impala表

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8898686.html

Apache Kudu 入门（伪分布式）

发表评论

评论列表（0条）