首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深度学习的鲁棒性问题探讨

以深度学习为代表的机器学习方法已经在计算机视觉、语音识别、医学影像分析、电子竞技等领域得到了成功的应用,其发展引发了学术界、工业界甚至政界的广泛关注。然而,现有深度学习方法的有效性依赖于对训练数据集的高质量要求,当训练集呈现蕴含显著复杂噪声、异常点入侵、类别不均衡等问题时,其有效性往往无法得以保证,这被称之为深度学习的鲁棒性问题。

以计算机视觉为例,其代表性任务主要包括底层视觉与高层视觉两类。底层视觉任务主要指在像素级别的图像处理任务,例如图像去噪、图像超分辨、图像去模糊等。其处理方法主要分为传统模型驱动方法与现代数据驱动方法。模型驱动方法大多需要针对问题构建优化模型进行求解,优化目标中通常包括误差与正则两项,分别对图像噪声与图像结构两部分的先验信息进行建模。通过对该优化模型进行算法设计和最优化求解,可收敛得到预期的复原图像。数据驱动方法采用更为简单直接的策略,首先收集模拟问题输入与输出的图片对(如对于去噪问题,需要预先分别收集蕴含噪声图片以及相应干净图片的数据对),然后输入一个预先构建的深度网络,通过调用网络参数优化的算法工具包(如随机梯度下降(SGD)等),获得对噪声图片能够直接输出干净图片的深度网络预测函数。

高层视觉任务主要面对的是语义级别的图像分析任务,例如目标识别、目标检测等。与底层视觉的用法相似,深度学习在此类任务上的应用同样依赖于一个预先标记的数据集,包括大量模拟网络输入及其预期输出的数据对。以最为普遍的目标识别问题为例,一个网络能够被有效训练的前提,是需要预先对大量蕴含某类目标的图片标记其目标信息,然后将获得的图片一标记数据集置于网络中进行参数训练与学习,从而获得能够对测试图片进行有效标记预测的深度网络函数。

以上任务尽管已经取得了可喜的进展以及令人鼓舞的实验效果(对于绝大部分底层及高层视觉任务,深度学习方法均已成为目前表现最好的方法),但是均面临极为严峻的鲁棒性学习问题。对底层视觉问题而言,无论是模型驱动还是数据驱动的方法,均对蕴含复杂形态,特别是非独立同分布(independent and identically distributed,i.i.d.)噪声的图像缺乏足够的处理精度与应用推广性。其本质原因在于:模型驱动的方法需要预先设定误差函数形式,如L2或L1范数的损失函数等,从贝叶斯的角度理解,这种设定可解释为将图像噪声分布假设为i.i.d.的高斯分布或者拉普拉斯分布,而现实图像中的噪声通常既不是这种相对简单的分布形式,也不是i.i.d.的分布形态(如图像噪声通常呈现显著的空间相关特性)。这种偏离于实际的假设偏差往往导致对应优化问题对于蕴含复杂噪声的实际图片性能不佳,从而出现鲁棒性学习问题。而对于数据驱动的方法,需要预先收集大量的“带噪图片-干净图片对”供网络进行参数学习。即使设计海量的带噪图片类型,其所模拟的噪声仍然是人为设定与产生的,远远无法涵盖现实噪声的多样性与复杂性。因此所训练的网络仍然倾向于过拟合,对于蕴含于训练数据中偏差较大噪声的实际图片表现不佳。

而对于高层视觉问题而言,类似的鲁棒性学习问题在近年来同样引起了领域的广泛关注。其主要的问题体现在训练数据中标记的偏差,最具代表性的是噪声标记和类不均衡问题。噪声标记问题指训练样本标记中出现了大量错误标记,致使网络训练出现偏差。这一情况是极为常见的,如:为了在较小代价下获取有监督的标记数据,通常使用众包的方法将标记的任务以自愿或廉价的方式外包给大量志愿者执行,志愿者的不确定性、专长领域的多样性导致标记噪声,特别是对于极其需要领域知识的标记任务(如医学图像的病灶标注)。类不均衡问题特指训练数据中,不同类别的样本数目存在极大差异的现象。这是常见的鲁棒机器学习问题,在计算机视觉领域得到了更为普遍的关注与研究。引起这一问题的原因,一方面是不同类别的图片具有不同的获取难度,例如猫、狗等常见的类别比史前或濒危动物更易获取。事实上,对于目前绝大部分著名的目标识别数据集,均存在类不均衡的“厚尾分布”现象。另一方面,当我们针对某一类别收集正负类样本时,相比领域知识确定的正类样本,负类数据的收集具有更大的自由度与多样性,从而导致正负类不均衡的现象。而在这些负类样本中,学者认为仅有位于分类面附近的边缘样本具有更为显著的信息量,大量的负类样本对于分类没有实质性作用,反而容易引起干扰,这一现象常被称为“难负样本挖掘(hard negative mining)”问题。这一问题也会对深度学习产生极大的干扰,从而产生鲁棒学习的需求。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200104A0EVIT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券