COS 数据接入

最近更新时间:2019-09-19 16:33:21

本节将为您介绍 COS 数据接入方法。更多关于 COS 的信息请参见 COS 产品介绍

操作步骤

登录 Sparkling 控制台,在左侧导航单击【数据】进入数据接入页面,按以下操作步骤完成 COS 数据接入:

1. 数据源配置

  • 数据类型:选择【COS】数据类型

  • 地域:选择 COS 存储桶所在地域。

  • 授权方式:选择用户密钥授权。

  • SecretID/SecretKey:填写您已生成的密钥,可在 API 密钥管理 中生成并查看。

  • 存储桶:填写您在 COS 中已生成的存储桶名称和您的 APPID,单击【浏览存储桶】查看当前存储桶下的数据并选择要导入的数据文件。数据文件导入方式支持【文件夹导入】和【文件导入】两种方式。

    说明:

    存储桶名称需要按<目标存储桶名称-APPID>格式填写,例如:sparkling-12334513,桶名和 APPID 可在账户信息中查看。

  • 导入方式:

    1. 文件夹导入方式:单击所选文件夹,左下角显示所选文件夹所包含文件个数及大小,确认信息无误后单击【确认】。
    2. 文件导入方式:单击所选文件,左下角显示所选文件名称及大小,确认信息无误后单击【确认】。
  • 文件格式:支持 CSV、TSV、PARQUET、ORC、AVRO、JSON 及其他自定义分隔符日志的文件。

    说明:

    COS 导入 JSON 文件时要求将 JSON 文件的每条记录必须用换行符分割。

  • 字段分隔符:选择是否将第一行作为表头字段名。

2. 数据预览

确认信息无误后,单击【下一步】进行数据预览,本页默认显示前五行数据。

3. 目标配置

支持【新建表】和【导入已有目标表】两种方式。

  • 新建表方式
    a. 选择【新建表】并填写【标题】和【描述】。
    c. 选择格式类型,支持【ORCFILE】和【PARQUET】两种格式。
    d. 确认无误后,单击【下一步】完成新建表方式目标配置操作。

  • 导入已有表格式
    导入已有目标表方式需要集群中已经包含该目标表,其中目标表包括数据导入时创建的表及在工作区中自建的表。
    a. 选择【导入已有目标表】后选择目标表名。
    b. 设置目标分区。选择【依据例行任务导入动态分区】将会根据您的例行任务配置信息写入对应的分区文件;选择【自定义分区】请按照分区字段明确分区命名。
    c. 单击【字段映射】进行字段匹配。若【下一步】处于置灰状态,说明字段映射未成功,请确认目标表与待导入数据源表字段可以匹配。
    d. 确认无误后,单击【下一步】完成导入已有目标表方式目标配置操作。

    说明:

    使用导入已有目标表方式的前提是已经建立了可以与新导入数据实现字段映射的数据表。

4. 抽取任务配置

支持【单次】和【例行】两种调度方式。

  • 单次方式
    COS 单次调度任务支持【整表全量导入/覆盖】方式。
  • 例行方式
    目前支持【增量追加】和【整表全量导入/覆盖】两种方式。
    • 增量追加
      a. 调度周期选择【例行】。
      b. 数据加载方式选择【增量追加】。
      c. 设置例行时间长,即任务持续时间,支持一周、一个月、三个月、一年、永久。

      d. 确认无误后,单击【下一步】完成单次抽取任务配置操作。
    • 整表全量导入/覆盖
      a. 调度周期选择【例行】。
      b. 设置间隔周期,支持每天、每周、每月、每小时,例如选择:每天0时0分,即每日0点0分自动开始执行任务。
      c. 设置例行时长,即任务持续时间,支持一周、一个月、三个月、一年、永久。
      d. 数据清理规则可选择【写入前清理已有数据(Insert Overwrite)】或【写入前保留已有数据(Insert)】。

      e. 确认无误后,单击【下一步】完成例行抽取任务配置操作。

5. 预览

任务预览无误后单击【完成】即可。