数据转换说明

最近更新时间:2019-08-22 20:33:18

图像数据切分

算法说明

  • 数据切分组件,将已有的数据集切分为训练集和验证集。
  • 组件支持用于图像识别和图像检测两种任务的数据切分。当分类 or 检测任务参数为 Classification 时,表明是图像识别任务,此时图像存储路径参数路径下需按类别将各个图像放在不同文件夹下(至少需要两个文件夹,也即至少需要两类),文件夹名字即为类别名。组件会在输出路径参数下生成 train.txt、valid.txt 和 label_map.txt,分别表示训练集集合,验证集集合和标签类别映射文件。
  • 当分类 or 检测任务参数为 Detection 时,表明是图像检测任务。此时图像存储路径目录下直接为各个图片(不像图像识别那样需按类别存放到不同文件夹),图像检测所需的标签文件(xml文件)需另外准备。
  • 组件根据图像存储路径参数获得该路径下的所有图片信息,然后按验证集比例参数随机选取其中一部分作为验证集,另一部分为训练集,分别用 valid.txt 和 train.txt 表示。这些 txt 文件可传给图片格式转换节点,用于生成训练集和验证集的 tfrecord 文件。

参数设置

输入参数

  • 图像存储路径:存储图像文件的路径,格式见算法说明部分。

输出参数

  • 输出路径:存放 train.txt,valid.txt 和 label_map.txt 文件的路径

算法参数

  • 分类 or 检测任务:Classification 为分类任务,Detection 为检测任务。
  • 验证集比例:切分为验证集的数据比例。

实例生成

  1. 使用数据节点,上传图片数据,数据格式见上文【输入数据】部分。
  2. 将数据节点连接到图像数据切分节点,配置好输出数据路径,任务类别和验证集比例,单击【运行】开始。

图片格式转换(分类)

算法说明

  • 将原始的jpg或png图像转换为tfrecord格式,可作为算法节点的输入。同时支持有标签和无标签数据的转换。

  • 标签数据输入参数可以是一个文件夹或一份单独的文件,当为一个文件夹目录时,该目录下需包含 train.txt 和 valid.txt 两份文件,分别按行记录了属于训练集和验证集的图像集合,每行表示一个样本 eg. image.jpg __label__ 1 其中 image.jpg 是图像名,__label__ 是图像名和标签之间的分隔符,1是该样本所属标签。当标签不存在时(可以理解为需要预测的样本),只保留图像名。组件根据 train.txt 和 valid.txt 中记录的图像集合分别将其转成两份 tfrecord 文件,分别对应组件的第一个和第二个输出点。在数据量较大的情况下,每份 tfrecord 下可能包含多个文件分片,具体由 images/split 参数控制,表示每个分片包含的图像个数。

  • 当标签数据输入参数是一份文件时(文件格式需与 train.txt 或 valid.txt 相同),表示单独对这一份文件中的图像做转换,输出为组件的第一个输出点。

参数设置

输入参数

  • 标签数据输入:存放 train.txt 和 valid.txt 文件的路径(一般是图像数据切分组件的输出)。
  • 图像存储路径:存储图像文件的路径,格式见算法说明部分。

输出参数

  • tfrecord 输出:存放训练集 tfrecord 的目录。
  • (验证集)tfrecord 输出:存放验证集 tfrecord 的目录。

算法参数

  • images/split:每份 tfrecord 文件中的样本数。
  • 分隔符:txt 文件中分隔图片名和标签的分隔符。

实例生成

  1. 使用数据节点,上传图片数据,数据格式见图像数据切分节点【输入数据】部分。
  2. 将图片数据连接到图像数据切分节点,进行切分。
  3. 图片数据和图像数据切分节点的输出分别连接到图片格式转换节点的两个输入桩,配置好输出数据路径,单击【运行】开始。

图片格式转换(检测)

算法说明

  • 将原始的 jpeg 或 png 图像转换为 tfrecord 格式,可作为算法节点的输入。
  • 图像列表路径参数需是一个目录,存在 train.txt 和 valid.txt 文件,分别按行存放训练集和验证集图像名称,每行一个样本。标签路径参数下存放各图像的 xml 标签文件,文件名需与图像名相同,方便组件按照图像名获得其对应的标签信息。
  • 组件有两个输出,根据 train.txt 和 valid.txt 分别输出训练集和验证集 tfrecord。
  • 类别标签映射文件表示各个检测框的类别名与数字标签的映射,需要提前根据数据集手动生成,格式参考 tensorflow models/research/objectdetection 模块下的 pascallabel_map.pbtxt。

参数设置

输入参数

  • 图像列表路径:存储 train.txt 和 valid.txt 文件的目录。
  • 图像路径:图像存储路径,该目录下需要保存所有的图像。
  • 标签路径:存放 xml 标签文件的路径。

输出参数

  • 训练集输出:存放训练集 tfrecord 的目录。
  • 验证集输出:存放验证集 tfrecord 的目录。

算法参数

类别映射文件:从字符串类型的类别映射到整数类型的文件,可参考 object_detection 下的 pascal_label_map.pbtxt。

实例生成

  1. 使用数据节点,上传图片数据和标签数据,数据格式见图像数据切分节点【输入数据】部分。
  2. 将标签数据连接到图像数据切分节点,进行切分。
  3. 将标签数据,图片数据和图像数据切分节点的输出分别连接到图片格式转换节点的两个输入桩,配置好输出数据路径,单击【运行】开始。