DARPA拟百万倍减少深度学习所需数据量

文章来源：企鹅号 - 网信科技前沿

来源：国防科技信息网；作者：王巍（工业和信息化部电子第一研究所）DARPA计划将机器学习对标记数据的依赖程度降低百万倍，以实现更有效的系统开发和自适应性。

目前，机器学习(ML)系统通过实例学习，吸收了被人类分析员分别标记的大量数据，以生成想要的输出。随着这些系统的发展，深度神经网络(DNN)已经成为机器学习模型中最先进的模型。深度神经网络能够以更高的准确度完成机器翻译、语音识别或目标识别等任务。然而，训练深度神经网络需要大量的标记数据——通常需要109或1010个训练实例。积累和标记大量信息的过程不但费时而且成本不菲。

除了积累标记数据的挑战之外，大多数机器学习模型都很脆弱，即使工作环境发生微小变化，也会导致崩溃。例如，如果一个房间的声音或麦克风传感器发生变化，语音识别或扬声器识别系统可能需要利用全新的数据集重新训练。因此，调整或修改模型所花费的时间和精力几乎和从头创建模型一样多。

为了减少训练和调整机器学习模型的成本和时间，DARPA将启动一个名为“使用更少标签学习”(LwLL)的新项目。通过该项目，DARPA将研究新的学习算法，显著减少训练或升级所需的信息量。

DARPA信息创新办公室(I2O)领导LwLL项目的主管韦德沈（Wade Shen）表示：“在‘使用更少标签学习’项目下，我们将使从头开始构建一个模型所需的数据量减少上百万倍。也就是说，今天训练一个系统需要100万张图像，未来只需要一张图像，或者未来改造一个系统只需要大约100个标记例子，而不是象目前这样需要数百万个例子。”

为了实现项目目标，该项目的研究人员将探索两个技术领域。第一个领域重点是建立能够高效学习和具备自适应性的学习算法。研究人员将研究和开发算法，这些算法能够在不牺牲系统性能的前提下，通过已建立的程序指标减少所需的标记示例数量。沈表示：“我们鼓励研究人员在元学习、转移学习、主动学习、k样本学习以及有监督/无监督自适应等技术领域创造新的方法来解决这一挑战性难题。”

第二个技术领域要求研究团队描述机器学习问题的特征，包括它们的决策难度和用于决策数据的复杂性。沈表示：“今天，我们很难理解在构建机器学习系统时，我们能有多高效，或者很难理解模型的精确性存在什么样的根本限制。在‘使用更少标签学习’项目下，我们希望找到在机器学习中可能存在的理论极限，并利用这个理论来突破系统开发与系统能力的边界。

发表于: 2018-07-162018-07-16 20:00:23
原文链接：https://kuaibao.qq.com/s/20180716B1L2TP00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DARPA拟百万倍减少深度学习所需数据量

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐