有奖捉虫:办公协同&微信生态&物联网文档专题 HOT




参数
说明
数据源
选择当前项目中可用的 HDFS 数据源。
同步方式
HDFS 支持两种同步方式:
数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。
文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。
文件路径
文件系统的路径信息。路径支持使用‘*’作为通配符,指定通配符后将遍历多个文件信息。
写入模式
HDFS 支持三种写入模式:
append:写入前不做任何处理,直接使用 filename 写入,保证文件名不冲突
nonConflict:文件名重复时报错
overwrite:写入前清理以文件名为前缀的所有文件,例如,"fileName": "abc",将清理对应目录所有 abc 开头的文件。
文件类型
HDFS支持四种文件类型:txt 、orc 、parquet 、csv。 txt:表示 TextFile 文件格式。 orc:表示 ORCFile 文件格式。 parquet:表示普通 Parquet 文件格式。 csv:表示普通 HDFS 文件格式(逻辑二维表)。
压缩格式
当 fileType(文件类型)为 csv 下的文件压缩方式,目前仅支持:none、deflate、gzip、bzip2、lz4、snappy。 由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的 hadoop-snappy(hadoop 上的 snappy stream format)和 framing-snappy(google 建议的 snappy stream format)。 ORC 文件类型下无需填写。
字段分隔符
HDFS 写入时的字段分隔符,需要您保证与创建的 HDFS 表的字段分隔符一致,否则无法在 HDFS 表中查到数据。可选:' \\t ' 、' \\u001 ' 、' | '、' 空格 ' 、 ' ;' ' , '。
高级设置(选填)
可根据业务需求配置参数。