论文地址:http://arxiv.org/pdf/1901.01703v7.pdf 代码:https://github.com/tencent/tencent-ml-images. 来源:腾讯人工智能实验室 论文名称:Tencent ML-Images: A Large-Scale Multi-Label Image Database forVisual Representation Learning 原文作者:Baoyuan Wu
在现有的基于视觉学习任务中,深度卷积神经网络(CNN)通常是针对带有单个标签的图像进行训练的,例如ImageNet。然而,当单个标签的数据往往不能完整的描述图像的所有重要内容,并且一些关键的视觉信息可能在训练过程中被浪费。本文中,建议对带有多个标签的图像进行训练,以提高训练后的 CNN 模型的视觉表示质量。
为此,腾讯AI lab构建了一个大规模的多标签图像数据库,其中包含 1800万个图像和 1.1万个类别,我们称之为Tencent ML-Images。本文基于大规模分布式深度学习框架TFplus,在Tencent ML-Images 上高效训练ResNet-101多标签输出模型,耗时 90 小时共训练了 60 个epoch。通过对比 ImageNet 和Caltech-256 上的单标签图像分类、PASCAL VOC 2007 上的对象检测、PASCAL VOC 2012 上的语义分割三个迁移学习任务,验证了 TencentML-Images checkpoint 的视觉具有良好的结果。
下面是论文具体框架结构以及实验结果:









声明:
文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除