**
一般操作:
-----
**
hbase(main)> status
hbase(main)> version
创建命名空间: namespace指的是一个 表的逻辑分组 ,同一组中的表有类似的用途,相当于关系型数据库中的database。
hbase(main):060:0> create_namespace 'test1'
drop_namespace
创建该命名空间的表:
hbase(main):061:0> create 'test1:test','f1','f2'
create 'scores',{NAME=>'course',VERSIONS=>2}
1)查看有哪些表 list describe
hbase(main)> list
hbase(main)> describe 'member'
2)创建表 create 只创建列族就可,put数据时直接
# 语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}
# 例如:创建表t1,有两个family name:f1,f2,且版本数均为2
hbase(main)> create 't1',{NAME => 'f1', VERSIONS => 2},{NAME => 'f2', VERSIONS => 2}
3)删除表
分两步:首先disable,然后drop
例如:删除表t1
hbase(main)> disable 't1'
hbase(main)> drop 't1'
4)查看表的结构
# 语法:describe <table>
# 例如:查看表t1的结构
hbase(main)> describe 't1'
5)修改表结构 alter
修改表结构必须先disable
alter 't1', {NAME => 'f1', VERSIONS => 5}
# 语法:alter 't1', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'}
# 例如:修改表test1的cf的TTL为180天
hbase(main)> disable 'test1'
hbase(main)> alter 'test1',{NAME=>'body',TTL=>'15552000'},{NAME=>'meta', TTL=>'15552000'}
hbase(main)> enable 'test1'
6)添加数据 put
# 语法:put <table>,<rowkey>,<family:column>,<value>,<timestamp>
# 例如:给表t1的添加一行记录:rowkey是rowkey001,family name:f1,column name:col1,value:value01,timestamp:系统默认
hbase(main)> put 't1','rowkey001','f1:col1','value01'
用法比较单一。
7)查询数据
a)查询某行记录 get
# 语法:get <table>,<rowkey>,[<family:column>,....]
查询rowkey001一行下的所有列值:
hbase(main)> get 't1','rowkey001'
# 例如:查询表t1,rowkey001行,f1:col1列
hbase(main)> get 't1','rowkey001', 'f1:col1'
# 或者:
hbase(main)> get 't1','rowkey001', {COLUMN=>'f1:col1'}
b)扫描表
# 语法:scan <table>, {COLUMNS => [ <family:column>,.... ], LIMIT => num}
# 另外,还可以添加STARTROW、TIMERANGE和FITLER等高级功能
# 例如:扫描表t1的前5条数据
hbase(main)> scan 't1',{LIMIT=>5}
test1空间下的test表的columns=f1的所有行
hbase(main)> scan 'test1:test',{COLUMNS=>'f1'}
test1空间下的test表的columns=f1的第1行
hbase(main)> scan 'test1:test',{COLUMNS=>'f1',LIMIT=>1}
scan 'scores',{VERSIONS=>2} version<=2
scan 'scores',{TIMERANGE=>[1394097631386,1394097651029],VERSIONS=>2}
c)查询表中的数据行数 count
# 语法:count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}
# INTERVAL设置多少行显示一次及对应的rowkey,默认1000;CACHE每次去取的缓存区大小,默认是10,调整该参数可提高查询速度
# 例如,查询表t1中的行数,每100条显示一次,缓存区为500
hbase(main)> count 't1', {INTERVAL => 100, CACHE => 500}
8)删除数据
a )删除行中的某个列值 delete
# 语法:delete <table>, <rowkey>, <family:column> , <timestamp>,必须指定列名
# 例如:删除表t1,rowkey001中的f1:col1的数据
hbase(main)> delete 't1','rowkey001','f1:col1'
注:将删除改行f1:col1列所有版本的数据
b )删除行 deleteall
# 语法:deleteall <table>, <rowkey>, <family:column> , <timestamp>,可以不指定列名,删除整行数据
# 例如:删除表t1,rowk001的数据
hbase(main)> deleteall 't1','rowkey001'
c)删除表中的所有数据 truncate
# 语法: truncate <table>
# 其具体过程是:disable table -> drop table -> create table
# 例如:删除表t1的所有数据
hbase(main)> truncate 't1'
9)检查表是否存在 exists
hbase(main):019:0> exists 't1'
10)查看表是否可用 is_enabled
hbase(main):036:0> is_enabled 't1'
help
hbase(main)> create help
11).判断表是否enable
hbase(main):034:0>is_enabled 'member'
**过滤器:**
--------
0.所有的过滤器都在服务端生效
1.显示所有过滤器
hbase(main):010:0> show_filters
2.只返回key及其他关键部分
scan 'airline',{ FILTER => "KeyOnlyFilter()"}
3.只返回每一行的第一个值
scan 'airline',{ FILTER => "FirstKeyOnlyFilter()"}
4.过滤rowkey 需要输入rowkey的前缀
scan 'airline', {FILTER => "(PrefixFilter ('row2'))"}
5.过虑qualifier,需要输入qualifier前缀
scan 'airline', {FILTER => "(PrefixFilter ('row2')) AND ColumnPrefixFilter('destination')"}
6.多重过滤qualifier,需要输入qualifier前缀
scan 'airline',{FILTER =>"MultipleColumnPrefixFilter('source','destination','date')"}
7.返回该表中相应的qualifier数
scan 'airline',{FILTER =>"ColumnCountGetFilter(2)"}
8.返回多少行
scan 'airline',{FILTER => "PageFilter(1)"}
9.扫描到哪一行停止
scan 'airline',{FILTER =>"InclusiveStopFilter('row1')"}
10.只返回有指定Qualifier的数据
scan 'airline',{ FILTER =>"QualifierFilter(=,'binary:flightno')"} > = <来替换‘=’
11.返回满足条件(某一列的值)的数据
scan 'airline', { COLUMNS =>'flightbetween:source', LIMIT => 4, FILTER => "ValueFilter( =, 'binaryprefix:hyd' )" } > = <来替换‘=’
行的最大版本是通过 HColumnDescriptor定义在每一个列族的,默认的最大版本号是1
不推荐设置 最大版本号 为很大的值(数百甚至更多),除非旧的数据对你而言十分重要。因为太多的版本会使 StoreFile 很大。
hbase org.apache.hadoop.hbase.mapreduce.Driver import apply_info /user/data_temp/apply_info hdfs路径 hbase表