如何系统性掌握深度学习中的数据使用

数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派。

今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升。

文/编辑 | 言有三

1 需要掌握哪些内容

在公司实战项目做久了的同学,应该都有这个感慨。吾本欲在算法领域大展拳脚,奈何清洗和增加数据就可以让模型性能突飞猛进。我们确实会花费很多的时间去折腾数据,总的来说包括:

(1) 获取数据。

(2) 整理数据。

(3) 分析数据。

(4) 使用数据。

(5) 迭代数据。

所谓获取数据,包括公开数据集的搜索和下载,使用爬虫等工具从零建立数据集。

所谓整理数据,包括格式化,重命名,去重,标注等。

所谓分析数据,包括数据的统计和可视化分析等。

所谓使用数据,包括在开源框架中数据集的接口定义,数据增强策略的使用等。

所谓数据迭代,主要就是针对自己的任务不断调整数据以优化模型等。

2 有三AI已经做了什么

作为这么重要的一个课题,我们当然已经分享过很多的内容了,下面汇总一下。

2.1 数据获取

关于数据获取问题,我们给大家介绍过许多领域的数据集以及数据集对深度学习的影响,相关文章如下:

也多次介绍过爬虫算法,推荐过不少好的项目,相关文章如下:

2.2 数据整理

关于数据整理问题,我们在开源GitHub项目yousan.ai中提供了整套的python和shell脚本,覆盖图像遍历,重命名,随机打乱,去重等功能。

2.3 数据分析

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190811A02Z8K00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券