如何安装和配置Cassandra_教程

Cassandra安装方法：

首先确保安装了JDK。

然后，修改配置文件，cassandra-0.7.6-2的conf下有以下几个配置文件：

(1) access.properties：设置每个数据库或者表的访问权限

(2) cassandra.yaml：主配置文件，包括日志路径，数据存放路径，各种参数配置等

(3) cassandra-topology.properties：配置网络的拓扑结构

(4) log4j-server.properties：log4j的配置选项

(5) passwd.properties：配置用户密码，与access.properties配合使用

对于简单的使用，只需配置cassandra.yaml文件:

(1) 集群名称cluster_name：同一个集群中的集群名称应该一样。

(2) 数据存放路径data_file_directories：可以根据情况配置一个有写权限的路径

(3) commit log路径commitlog_directory：同上

(4) saved cache路径saved_caches_directory：同上

(5) 日志文件路径log4j.appender.R.File：同上（这个选项在log4j-server.properties文件中）

此外，还需要修改服务监听的地址和thrift访问地址，即ListenAddress和ThriftAddress，配置文件默认监听的都是localhost：

经过上面的配置就可以启动节点了：

进入bin目录，直接执行：./cassandra。

安装完成。

Cassandra缩写命令的设置步骤如下：

1.从Cassandra的安装目录中打开bin文件夹，找到cqlsh.py文件；

2.在cqlsh.py文件中添加一行：cql_alias = {"缩写命令": "完整命令"}，例如：cql_alias = {"sel": "SELECT"}；

3.保存文件，重新启动Cassandra；

4.使用缩写命令，例如：sel * from table_name；

5.如果需要删除缩写命令，可以在cqlsh.py文件中删除对应的行。

Cassandra的配置文件可以对Cassandra中的数据进行配置。cassandra.yaml 中关于存放数据信息的配置如下：

数据信息一共分为以下3类：

在data目录下，Cassandra 会将每一个 Keyspace 中的数据存储在不同的文件目录下，并且 Keyspace 文件

目录的名称与 Keyspace 名称相同。

假设有两个 Keyspace，分别为 ks1 和 ks2，但在 data目录下，将看到3个不同的目录：ks1，ks2和 system。其中 ks1 和 ks2 用于存储系统定义的两个 Keyspace 的数据，另外一个 system 目录是 Cassandra 系统默认的一个 Keyspace，叫做 system，它用来存储 Cassandra 系统的相关元数据信息以及 HINT 数据信息。

当 Cassandra 有数据需要更新时，第一个记录这个更新的地方就是 Commitlog。

Commitlog由如下两个部分构成：

CommitLog - xxx.log 、 CommitLog - xxx.log.header 。

在 CommitLog - xxx.log 文件中，保存了每一次更新 *** 作的值。

在 CommitLog - xxx.log.header 文件中，记录了哪些数据已经从 memtable 中写入 SSTable 中。

通过log. header文件中记录的元数据信息, Cassandra 可以及时删除不必要的Commitlog文件，减少磁盘的占用量，并在Cassandra重启时,加快从Commitlog中恢复数据的速度。

Commitlog文件的大小可以在配置文件中指定，默认是128MB。

当一个Commitlog文件大小超过设置的阈值后，将会新建一个Commitlog,并将更新数据写人这个新的文件中。

Cassandra提供了两种记录Commitlog的方式:周期记录( periodic)和批量记录( batch)。如果使用周期记录的方式，需要在配置文件进行如下配置:

Cassandra会每次更新信息将写人 Commitlog 中，并且每隔一定的时间间隔( commitlog-sync_ period in ms )调用 org apache. cassandra. io. util. BufferedRandomAccessFile. syne() 同步 Commitlog 文件。

如果使用批量记录的方式，需要在配置文件进行如下配置:

Cassandra会缓存每次更新信息，每隔一定的时间间隔( commitlog sync_ batch _window_in_ ms )调用 org. apache. cassandra. io. util. BuferedRandomAccessFile. syne () 同步Commitlog 文件，最后将之前缓存的更新信息写人Commitlog中。

如果不允许数据丢失，可以使用周期的方式记录 Commitlog。如果写入数据量非常大，同时可以承担由于机器可能宕机导致的数据丢失的风险，则使用批量记录的方式记录 Commitlog。

在实际的使用中，可以根据情况来选用合适的 Commitlog记录方式。

数据写入 Commitlog 后，将缓存在 Memtable 中。

Cassandra 中每一个 Memetable 只为一个 ColumnFamily 提供服务。

当下面3个条件中任意个满足后，会将Memtable中缓存的数据写入磁盘，形成一个SSTable文件。

上面提到的3个参数都可以在配置文件中进行设置，Cassandra 为每一个ColumnFamily提供单独的配置。

每当有数据进人 Memtable 中时，会将数据保存到成员变量 ColumnFarmilies 中，并解析这个数据，排除重复或者是已经过期的数据。具体实现如下:

当Cassandra需要将Memtable中缓存的数据写人磁盘时，会按照内存中Key的顺序写人SSTable中。

使用 Memtable 的优势在于：将随机 IO 写变为顺序 IO 写，降低大量的写 *** 作对存储系统的压力。

Cassandra 中的 Memtable 会缓存客户端写入的数据，当Memtable中缓存的某一个ColumnFamily中的数据量( 对应配置文件中的 memtable_ throughput_ in mb 和 memtable_ operations_in_ millions 或者超过上一次生成SSTable的时间(对应配置文件中的 memtable flush_ after_mins )后，Cassandra 会将Memtable中对应的ColumnFamily的数据持久化到磁盘中，生成一个SSTable文件。

如ColumnFamily名称为Cfl的一个SSTable文件由如下文件组成:

其中，“Cf1”为ColumnFamily的名称“e” 为版本的标识(这个标识在0.7之前的版本中是没有的)“1”代表这是名称为Cfl的ColumnFamily的第一个SSTable,这个数字会随着新的SSTable文件的生成不断增加“Data”、“Filter”、 “Index"和“Statistics" 分别代表 SSTable 4个不同组成部分，它们的作用各不相同。

在Cassandra中，除了用户自己定义的 Keyspace 之外，还有一个特殊的 Keyspace :名称为system的系统表空间。

用户不能在 Cassandra 中创建名为 system 的 Keyspace,只能由 Cassandra 系统自动创建。系统表空间的主要有以下两个作用:

如果系统首次启动，Cassandra 将会自动在data目录下创建系统表空间，并将系统元数据信息存放在系统表空间中。以后启动的过程中，Cassandra 将会直接从系统表空间中读取系统元数据信息。

如果 Cassandra 发现某一个节点宕机，就会将发送给宕机节点的数据以 HINT 的形式发送给另外台 Cassandra 服务器。接收到 HINT 数据的 Cassandra 服务器将数据缓存到系统表空间中，当其发现宕机的 Cassandra 恢复后，将缓存 HINT 数据发送给恢复的服务器，完成数据传输后，将缓存的 HINT 数据从系统表空间中删除。

本章从原理上分析和讲解了 Cassandra 的内部数据存储结构Commitlog、Memtable、SSTable和构成SSTable的4个子文件。了解Cassandra的内部数据存储构造有利于为基于Cassandra的应用程序设计合理的数据模型，以及找出造成读写瓶颈的原因。另外还介绍了Cassandra的系统表空间，了解了整个系统元数据管理的机制。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/11562719.html

如何安装和配置Cassandra

发表评论

评论列表（0条）