Hbase相关 *** 作

Hbase相关 *** 作,第1张

Hbase相关 *** 作

 

数据模型的基本概念

Hbase 中的数据被存储在表中,具有行和列,是一个多维的映射结构。本节将对与 Hbase 数据模型相关的基本概念进行统一介绍。,

1. 表(Table)

Hbase采用表来组织数据,表由许多行和列组成,列划分为多个列族。

2. 行(Row)

在表里面,每一行代表着一个数据对象。每一行都是由一个行键(Row Key)和一个或者多个列组成的。行键是行的唯一标识,行键并没有什么特定的数据类型,以二进制的字节来存储,按字母顺序排序。

因为表的行是按照行键顺序来进行存储的,所以行键的设计相当重要。设计行键的一个重要原则就是相关的行键要存储在接近的位置,例如,设计记录网站的表时,行键需要将域名反转(例如,org.apache.www、org.apache.mail、org.apache.jira),这样的设计能使与 apache 相关的域名在表中存储的位置非常接近。

访问表中的行只有 3 种方式:通过单个行键获取单行数据;通过一个行键的区间来访问给定区间的多行数据;全表扫描。

3. 列(Column)

列由列族(Column Family)和列限定符(Column Qualifier)联合标识,由“:”进行间隔,如 family:qualifiero

4. 列族(Column Family)

在定义 Hbase 表的时候需要提前设置好列族,表中所有的列都需要组织在列族里面。列族一旦确定后,就不能轻易修改,因为它会影响到 Hbase 真实的物理存储结构,但是列族中的列限定符及其对应的值可以动态增删。

表中的每一行都有相同的列族,但是不需要每一行的列族里都有一致的列限定符,所以说是一种稀疏的表结构,这样可以在一定程度上避免数据的冗余。

Hbase 中的列族是一些列的集合。一个列族的所有列成员都有着相同的前缀,例如,courses:history 和 courses:math 都是列族 courses 的成员。“:”是列族的分隔符,用来区分前缀和列名。列族必须在表建立的时候声明,列随时可以新建。

5. 列限定符(Column Qualifier)

列族中的数据通过列限定符来进行映射。列限定符不需要事先定义,也不需要在不同行之间保持一致。列限定符没有特定的数据类型,以二进制字节来存储。

6. 单元(Cell)

行键、列族和列限定符一起标识一个单元,存储在单元里的数据称为单元数据,没有特定的数据类型,以二进制字节来存储。

7. 时间戳(Timestamp)

默认情况下,每一个单元中的数据插入时都会用时间戳来进行版本标识。

读取单元数据时,如果时间戳没有被指定,则默认返回最新的数据;写入新的单元数据时,如果没有设置时间戳,则默认使用当前时间。每一个列族的单元数据的版本数量都被 Hbase 单独维护,默认情况下,Hbase 保留 3 个版本数据。

1.进入shell

hbase(main):003:0>hbase shell

2.查看所有表

hbase(main):003:0> list

3.根据rowKey查询某个记录

hbase(main):003:0>get '表名','rowKey'

4.常用过滤

  

过滤方式是通过value过滤,匹配出value含7259的数据。

scan 'buss_surface', FILTER=>"ValueFilter(=,'substring:7259')"

过滤方式是通过rowkey过滤,匹配出rowkey含7259098的数据。
scan 'buss_surface', FILTER=>"RowFilter(=,'substring:7259098')"

过滤方式是通过rowkey过滤,匹配出rowkey等于7259098168305156_4的数
scan 'buss_surface', FILTER=>"RowFilter(=,'binary:7259098168305156_4')"

过滤方式是通过rowkey过滤,匹配出rowkey小于等于7259098168305156的数据。

scan 'buss_surface', FILTER=>"RowFilter(<=,'binary:7259098168305156')"

过滤方式是通过rowkey过滤,匹配出rowkey为7259098开头的
scan '匹配出rowkey', FILTER => "PrefixFilter ('7259098')"

过滤方式是通过rowkey过滤,从rowkey的7259098168305156开始,找到所有的rowkey以7259098168305156_1开头的记录
scan 'buss_surface', {STARTROW=>'7259098168305156', FILTER => "PrefixFilter ('7259098168305156_1')"}

过滤方式是通过rowkey过滤,从rowkey的5655625207749390_3_20211213164715开始,找到所有的到rowkey以7259098168305156开头之前的记录
scan 'buss_tra_record_history_tmp', {STARTROW=>'5655625207749390_3_20211213164715', STOPROW=>'7259098168305156'}

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5706320.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存