有奖捉虫:办公协同&微信生态&物联网文档专题 HOT



参数
说明
数据源
选择当前项目中可用的 FTP 数据源。
同步方式
FTP 支持两种同步方式:
数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。
文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。
文件路径
远程 FTP 文件系统的路径和文件名信息,需要填写包含路径和文件后缀的完整文件路径和文件名。这里可以支持填写多个路径。
当指定单个远程 FTP 文件,FTP 暂时只能使用单线程进行数据抽取。后期会在非压缩文件情况下针对单个 File 进行多线程并发读取。
当指定多个远程 FTP 文件,FTP 支持使用多线程进行数据抽取。线程并发数通过通道数指定。
当指定通配符,FTP 尝试遍历出多个文件信息。例如,指定/代表读取/目录下所有的文件,指定 /bazhen/ 代表读取 bazhen 目录下所有的文件。FTP 目前仅支持星号(*)作为文件通配符,并支持使用调度参数配合调度,灵活配置文件名与文件路径。
文件类型
FTP 支持四种文件类型:txt 、orc 、parquet 、csv。
txt:表示 TextFile 文件格式。
orc:表示 ORCFile 文件格式。
parquet:表示普通 Parquet 文件格式。
csv:表示普通 HDFS 文件格式(逻辑二维表)。
字段分隔符
读取的字段分隔符,FTP 在读取数据时,需要指定字段分隔符,如果不指定会默认为(,),界面配置也会默认填写(,)。
编码
读取文件的编码配置。支持 utf8 和 gbk 两种编码。
空值转换
读取时,将指定字符串转为null。
关于文件路径说明:
通常不建议您使用星号(*),易导致任务运行报 JVM 内存溢出的错误。
数据同步会将一个作业下同步的所有 Text File 视作同一张数据表。您必须自己保证所有的File能够适配同一套 Schema 信息。
您必须保证读取文件为类 CSV 格式,并且提供给数据同步系统权限可读。
如果Path指定的路径下没有符合匹配的文件抽取,同步任务将报错。