使用限制
支持 SMB 共享文件系统:一种基于 SMB(Server Message Block,服务器消息块协议) 的网络文件共享机制。
FileSystem 离线单表读取节点配置

参数 | 说明 |
数据来源 | 选择当前项目中可用的 FileSystem 数据源。 |
同步方式 | FileSystem 支持两种同步方式: 数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。 文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。 注意: 文件传输仅支持来源端、目标端均为文件类型(COS/HDFS/SFTP/FTP/Azure Blob/FileSystem/S3/Http)的数据源,且来源端、目标端同步方式均需要为文件传。 |
文件路径 | FileSystem 文件系统的路径,支持使用 * 通配符(通配符只支持出现在路径的最后一级,例如:/a/b/c/file*)。 |
文件类型 | FileSystem 支持三种文件类型:TXT、CSV、JSON。 TXT:表示 TextFile 文件格式。 CSV:表示普通 HDFS 文件格式(逻辑二维表)。 JSON:表示 JSON 文件格式。 |
字段分隔符 | 在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的字段分隔符,默认填写(,)。 注意: 不支持 ${} 作为分隔符,${a} 将被识别为配置的参数 a。 |
行分割符(选填) | 在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的行分割符。最多支持输入3个值, 输入的多个值均作为行分割符。若不填写,linux 默认是 \\n , windows 默认是 \\r\\n。 注意: 1. 设置多个行分割符会影响读取性能; 2. 不支持 ${} 作为分割符,${a} 将被识别为配置的参数 a。 |
编码 | 读取文件的编码配置。支持 utf8 和 gbk 两种编码。 |
空值转换 | 读取时,将指定字符串转为 NULL,NULL 表示一个未知或者不适用的值,不同于0、空字符串或其他数值。 注意: 不支持 ${} 作为指定字符串,${a} 将被识别为配置的参数 a。 |
压缩格式 | 目前支持:none、deflate、gzip、bzip2、lz4、snappy。 由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的: hadoop-snappy(hadoop 上的 snappy stream format) framing-snappy(google 建议的 snappy stream format) |
Quote character | 无配置:来源端按照数据原内容进行读取 双引号("):来源端将双引号(")内的值作为数据内容进行读取。 注意:若数据格式不规范,读取时可能导致 OOM。 单引号('):来源端将单引号(')内的值作为数据内容进行读取。 注意:若数据格式不规范,读取时可能导致 OOM。 |
跳过表头 | 否:读取时,不跳过表头。 是:读取时,跳过表头。 |
数据类型转换支持
读取
FileSystem 读取支持的数据类型及转换对应关系如下:
FileSystem 数据类型 | 内部类型 |
INTEGER、LONG | LONG |
FLOAT、DOUBLE | DOUBLE |
STRING | STRING |
BOOL | BOOLEAN |
DATE,TIMESTAMP | DATE |