有奖捉虫:办公协同&微信生态&物联网文档专题 HOT



参数
说明
数据源
选择当前项目中可用的 HDFS 数据源。
文件路径
文件系统的路径信息。路径支持使用‘*’作为通配符,指定通配符后将遍历多个文件信息。例如指定/代表读取/目录下所有的文件,指定 /bazhen/ 代表读取 bazhen 目录下游所有的文件。HDFS 目前只支持*和?作为文件通配符,语法类似于通常的 Linux 命令行文件通配符。
文件类型
HDFS 支持四种文件类型:txt 、orc 、parquet 、csv。
txt:表示 TextFile 文件格式。
orc:表示 ORCFile 文件格式。
parquet:表示普通 Parquet 文件格式。
csv:表示普通 HDFS 文件格式(逻辑二维表)。
压缩格式
当 fileType(文件类型)为 csv 下的文件压缩方式,目前仅支持:none、deflate、gzip、bzip2、lz4、snappy。
由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的 hadoop-snappy(hadoop 上的 snappy stream format)和 framing-snappy(google 建议的 snappy stream format)。
ORC 文件类型下无需填写。
字段分隔符
读取的字段分隔符,HDFS 在读取 TextFile 数据时,需要指定字段分隔符,如果不指定默认为逗号(,)。HDFS 在读取 ORC File时,您无需指定字段分隔符。
其他可用分隔符:' \\t ' 、' \\u001 ' 、' | '、' 空格 ' 、 ' ;' ' , '。
如果您想将每一行作为目的端的一列,分隔符请使用行内容不存在的字符。例如,不可见字符\\u0001。
编码
读取文件的编码配置。支持 utf8 和 gbk 两种编码。