HBase 数据源

最近更新时间:2024-05-15 18:13:51

我的收藏

HBase 离线单表读取节点配置




参数
说明
数据来源
可用的 HBase 数据源
命名空间
选择该数据源下可用的空间
支持选择、或者手动输入需读取的表名称
读取模式
支持横表读取模式, 将 Hbase 表当成普通二维表(横表)进行读取,读取最新版本数据
支持竖表读取模式,将 Hbase 表当成竖表进行读取
maxVersion
需指定读取的版本数,取值只能为-1或大于1的数字,-1表示读取所有版本,不填默认为-1
说明:
当读取模式为竖表时需配置maxVersion
编码
读取文件的编码配置。支持 utf8 和 gbk 两种编码。
Start RowKey
需指定开始 RowKey。
Stop RowKey
需指定结束 RowKey。
Scan Cache Size
支持输入每次从 HBase 中读取的行数,不填默认为256。
Scan Batch Size
支持输入每次从 HBase 中读取的列数,不填默认为100。

HBase 离线单表写入节点配置




参数
说明
数据去向
需要写入的 HBase 数据源。
命名空间
支持选择、或者手动输入需写入的空间。
支持选择、或者手动输入需写入的表名称:
当数据源网络不联通导致无法直接拉取表信息时,可手动输入表名称。在数据集成网络连通的情况下,仍可进行数据同步。
写入列
HBase 支持两种方式写入列:
固定列(指定列族与列名称)。
动态列(列族与列名随来源字段值变化),需要手动配置列内容、列族连接符、列名连接符和 value 连接符(可选:' \\u001 ' 、 ' | ' 、 ' :' 、 ' , ' )。
rowKey规则
配置HBase表rowkey生成规则
写入列内容
选择动态列(列族与列名随来源字段值变化)时,需要手动配置列内容、列族连接符、列名连接符和 value 连接符(可选:' \\u001 ' 、 ' | ' 、 ' :' 、 ' , ' )。
值版本号
指定写入 HBase 的时间戳。支持当前时间、指定时间列或指定时间 (三者选一),如果不配置则表示用当前时间:
index:指定对应 Reader 端 column 的索引,从0开始,需保证能转换为 LONG。
type:如果是 Date 类型,会尝试用 yyyy-MM-dd HH:mm:ss 和 yyyy-MM-dd HH:mm:ssSss 解析。如果是指定时间,则index为-1。
value:指定时间的值,LONG 类型。

数据类型转换支持

读取

HBase 读取支持的数据类型及转换对应关系如下(在处理 HBase 时,会先将 HBase 数据源的数据类型和数据处理引擎的数据类型做映射):
HBase 数据类型
内部类型
int, short ,long
Long
float, double
Double
string,binary string
String
date
Date
boolean
Boolean

写入

HBase 读取支持的数据类型及转换对应关系如下:
内部类型
HBase 数据类型
Long
int, short ,long
Double
float, double
String
string,binary string
Date
date
Boolean
boolean