FileSystem 数据源

最近更新时间:2025-06-03 10:45:21

我的收藏

使用限制

支持 SMB 共享文件系统:一种基于 SMB(Server Message Block,服务器消息块协议) 的网络文件共享机制。

FileSystem 离线单表读取节点配置


参数
说明
数据来源
选择当前项目中可用的 FileSystem 数据源。
同步方式
FileSystem 支持两种同步方式:
数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。
文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。
注意:
文件传输仅支持来源端、目标端均为文件类型(COS/HDFS/SFTP/FTP/Azure Blob/FileSystem/S3/Http)的数据源,且来源端、目标端同步方式均需要为文件传。
文件路径
FileSystem 文件系统的路径,支持使用 * 通配符(通配符只支持出现在路径的最后一级,例如:/a/b/c/file*)。
文件类型
FileSystem 支持三种文件类型:TXT、CSV、JSON。
TXT:表示 TextFile 文件格式。
CSV:表示普通 HDFS 文件格式(逻辑二维表)。
JSON:表示 JSON 文件格式。
字段分隔符
在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的字段分隔符,默认填写(,)。
注意:
不支持 ${} 作为分隔符,${a} 将被识别为配置的参数 a。
行分割符(选填)
在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的行分割符。最多支持输入3个值, 输入的多个值均作为行分割符。若不填写,linux 默认是 \\n , windows 默认是 \\r\\n。
注意:
1. 设置多个行分割符会影响读取性能;
2. 不支持 ${} 作为分割符,${a} 将被识别为配置的参数 a。
编码
读取文件的编码配置。支持 utf8 和 gbk 两种编码。
空值转换
读取时,将指定字符串转为 NULL,NULL 表示一个未知或者不适用的值,不同于0、空字符串或其他数值。
注意:
不支持 ${} 作为指定字符串,${a} 将被识别为配置的参数 a。
压缩格式
目前支持:none、deflate、gzip、bzip2、lz4、snappy。
由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的:
hadoop-snappy(hadoop 上的 snappy stream format)
framing-snappy(google 建议的 snappy stream format)
Quote character
无配置:来源端按照数据原内容进行读取
双引号("):来源端将双引号(")内的值作为数据内容进行读取。
注意:若数据格式不规范,读取时可能导致 OOM。
单引号('):来源端将单引号(')内的值作为数据内容进行读取。
注意:若数据格式不规范,读取时可能导致 OOM。
跳过表头
否:读取时,不跳过表头。
是:读取时,跳过表头。

数据类型转换支持

读取

FileSystem 读取支持的数据类型及转换对应关系如下:
FileSystem 数据类型
内部类型
INTEGER、LONG
LONG
FLOAT、DOUBLE
DOUBLE
STRING
STRING
BOOL
BOOLEAN
DATE,TIMESTAMP
DATE