Azure Blob 离线单表读取节点配置

参数 | 说明 |
数据来源 | 选择当前项目中可用的 Azure Blob 数据源。 |
同步方式 | Azure Blob 支持两种同步方式: 数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。 文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。 注意: 文件传输仅支持来源端、目标端均为文件类型(COS/HDFS/SFTP/FTP/Azure Blob/S3/Http)的数据源,且来源端、目标端同步方式均需要为文件传输。 |
文件路径 | Azure Blob 文件系统的路径,支持使用 * 通配符。 Azure Blob 文件路径需带上容器名称,例如:Container_name/Directory/ |
文件类型 | Azure Blob 支持五种文件类型:TXT、ORC、PARQUET、CSV、JSON。 TXT:表示 TextFile 文件格式。 ORC:表示 ORCFile 文件格式。 PARQUET:表示普通 Parquet 文件格式。 CSV:表示普通 HDFS 文件格式(逻辑二维表)。 JSON:表示 JSON 文件格式。 |
字段分隔符 | 在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的字段分隔符,默认填写(,)。 注意: 不支持 ${} 作为分隔符,${a} 将被识别为配置的参数 a。 |
行分割符(选填) | 在 TXT/CSV 文件类型下,以数据同步的方式读取时设置的行分割符。最多支持输入3个值, 输入的多个值均作为行分割符。若不填写,linux 默认是 \\n , windows 默认是 \\r\\n。 注意: 1. 设置多个行分割符会影响读取性能。 2. 不支持${}作为分割符,${a}将被识别为配置的参数a。 |
编码 | 读取文件的编码配置。支持 utf8 和 gbk 两种编码。 |
空值转换 | 读取时,将指定字符串转为NULL,NULL表示一个未知或者不适用的值,不同于0、空字符串或其他数值。 注意: 不支持 ${} 作为指定字符串,${a} 将被识别为配置的参数 a。 |
压缩格式 | 目前支持:none、deflate、gzip、bzip2、lz4、snappy。 由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的: hadoop-snappy(hadoop 上的 snappy stream format) framing-snappy(google 建议的 snappy stream format) |
Quote character | 无配置:来源端按照数据原内容进行读取 双引号("):来源端将双引号(")内的值作为数据内容进行读取。 注意:若数据格式不规范,读取时可能导致 OOM。 单引号('):来源端将单引号(')内的值作为数据内容进行读取。 注意:若数据格式不规范,读取时可能导致 OOM。 |
跳过表头 | 否:读取时,不跳过表头。 是:读取时,跳过表头。 |
Azure Blob 离线单表写入节点配置

参数 | 说明 |
数据来源 | 选择当前项目中可用的 Azure Blob 数据源。 |
同步方式 | Azure Blob 支持两种同步方式: 数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。 文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。 注意: 文件传输仅支持来源端、目标端均为文件类型(COS/HDFS/SFTP/FTP/Azure Blob/S3/Http)的数据源,且来源端、目标端同步方式均需要为文件传输。 |
文件路径 | 写入 Azure Blob 文件系统的明确路径。 Azure Blob 文件路径需带上容器名称,例如:Container_name/Directory/。 |
文件名称 | 写入的文件名称。文件名称支持使用内置大小写转换函数: toLower('<text>'):通过该函数可返回小写格式的字符串。如果字符串中的字符没有对应的小写版本,则该字符在返回的字符串中保持不变。 toUpper('<text>'):通过该函数可返回大写格式的字符串。如果字符串中的字符没有对应的大写版本,则该字符在返回的字符串中保持不变。 |
写入模式 | overwrite:写入前清理以文件名为前缀的所有文件。 append:写入前不做任何处理,保证文件名不冲突。 nonConflict:文件名重复时报错。 |
文件类型 | Azure Blob 支持四种文件类型:TXT、ORC、PARQUET、CSV。 TXT:表示 TextFile 文件格式。 ORC:表示 ORCFile 文件格式。 PARQUET:表示普通 Parquet 文件格式。 CSV:表示普通 HDFS 文件格式(逻辑二维表)。 |
字段分隔符 | 在 TXT/CSV 文件类型下,以数据同步的方式写入时设置的字段分隔符,默认填写(,)。 注意: 不支持 ${} 作为分隔符,${a} 将被识别为配置的参数 a。 |
行分割符(选填) | 在 TXT/CSV 文件类型下,以数据同步的方式写入时设置的行分割符。输入的多个值均作为行分割符。若不填写,linux 默认是 \\n , windows 默认是 \\r\\n。手动填写时,支持输入一个值作为目标端行分割符写入数据。 注意: 不支持 ${} 作为分割符,${a} 将被识别为配置的参数 a。 |
编码 | 写入文件的编码配置。支持 utf8 和 gbk 两种编码。 |
空值转换 | 写入时,将 NULL 转为指定字符串。NULL 代表未知或不适用的值,不同于0、空字符串或其他数值。 注意: 不支持 ${} 作为指定字符串,${a} 将被识别为配置的参数 a。 |
压缩格式 | 目前支持:none、deflate、gzip、bzip2、lz4、snappy。 由于 snappy 目前没有统一的 stream format,数据集成目前仅支持最主流的: hadoop-snappy(hadoop 上的 snappy stream format) framing-snappy(google 建议的 snappy stream format) |
Quote character | 无配置:目标端写入数据时不进行引号添加操作,值与来源端一致。 双引号("):目标端写入数据时为每个值自动添加双引号",如"123"。 单引号('):标端写入数据时为每个值自动添加单引号',如'123'。 |
是否包含表头 | 否:写入时,不包含表头。 是:写入时,包含表头。 |
数据类型转换支持
读取
Azure Blob 读取支持的数据类型及转换对应关系如下:
Azure Blob 数据类型 | 内部类型 |
INT | LONG |
DOUBLE | DOUBLE |
STRING,CHAR | STRING |
DECIMAL | DECIMAL |
BOOLEAN | BOOLEAN |
DATE,TIMESTAMP | DATE |
写入
Azure Blob 写入支持的数据类型及转换对应关系如下:
内部类型 | Azure Blob 数据类型 |
LONG | INT |
DOUBLE | DOUBLE |
STRING | STRING,CHAR |
DECIMAL | DECIMAL |
BOOLEAN | BOOLEAN |
DATE | DATE,TIMESTAMP |