数据源

最近更新时间:2019-08-22 20:28:50

智能钛机器学习平台提供两种数据源途径:本地数据COS 数据集
您可在左侧导航栏的【输入】>【数据源】下,选择需要的数据源。

本地数据

您可以将轻量本地文件(不超过256MB)上传到目标 COS 路径,为下游算法提供输入数据。

  • 您需要有上传目标目录的写权限。
  • 目标 COS 路径自动生成,如需自定义可修改输入指定路径。

COS 数据集

COS 数据集为下游算法提供输入数据,指定 COS 数据路径即可通过数据流自动传递。

注意:

使用 COS 数据集的前提是必须要开通 COS 服务,相关详细入门指引请参考 COS 入门
COS 服务提供一定的免费额度,超出额度部分将按服务价目表进行收费。详情请参见 COS 免费额度COS 定价

1. 通过 COS 数据集上传文件的方式:

方式一:通过控制台上传数据文件(适合轻量文件上传)

  1. 登录 COS 控制台
  2. 在左侧导航栏处,单击【存储桶列表】。
  3. 在存储桶列表页,单击左上角【创建存储桶】。详情请参见 创建存储桶
  4. 上传文件或文件夹。详情请参见 上传对象

方式二:通过客户端上传数据文件(适合大文件上传,支持批量上传下载)

  1. 前往 COSBrowser 工具 下载 COS 客户端。
  2. 使用云 API 密钥 SecretId 和 SecretKey 登录 COS 客户端。
    云 API 密钥可在 访问管理控制台 获取,登录后会保留登录信息。
  3. 创建存储桶,并上传文件。

方式三:其他上传方式
COS 提供更多开发者上传工具,支持将数据从其他分布式存储迁移至 COS。您可以在 COS 工具概览 中选择合适的上传工具,并按照对应的说明文档进行操作。

2. COS 路径命名规则

  • 工作流画布节点路径(如本地上传COS 数据源和其他算法的 IO 路径中)
    不需要填写存储桶名称,示例:${cos}/data/train.txt
  • 通过代码访问 COS 数据文件(如 PySpark 等组件中)
    当用户通过代码访问 COS 上的文件时,需要加前缀/cos_person/ ,与 Spark 相关路径需加前缀file:///cos_person/。例如,在 Python 中读取上例中的 train.txt 文件:
  with open("/cos_person/data/forrest/demo/in/train.txt") as f:
      for line in f:
          print(line)

在 PySpark 代码中访问 train.txt 文件:

train_data = sc.textFile("file:///cos_person/data/forrest/demo/in/train.txt")

3. 数据格式

数据格式总体分为 DenseLibsvm 两种,您需将数据文件转化为对应的 txt 格式。

Dense

Dense 数据格式每行对应一个样本,每列对应一个特征,在 COS 中每行样本的各列以空格连接,如下:

10.2 12.8 3.67 ...
25.9 55.9 29.0 ...
7.89 0.89 14.5 ...

Libsvm

Libsvm 数据格式是数据的一种稀疏表达方式,仅支持标准的 Libsvm 数据格式。Libsvm 数据格式作为输入数据时无需刻意指明,系统通过模式匹配自动识别数据是 Dense 还是 Libsvm 格式。每行中的元素以空格连接,如下:

1 1:0.5 3:3.1 7:1.0
0 2:0.1 3:2.3 5:2.0
2 4:0.2 7:1.1 9:0.0
  • 标准 Libsvm 数据格式要求:数据中的 index 必须是从1开始计数,且以升序排列。
  • 特征数目:稀疏表达的数据需要指定特征数,特征列参数中指定"1-featureSize"。如“1 - 19”表示特征数有19维。若不确定参数数目,可以参数选择列为空。