DARPA拟百万倍减少深度学习所需数据量

来源:国防科技信息网;作者:王巍(工业和信息化部电子第一研究所)DARPA计划将机器学习对标记数据的依赖程度降低百万倍,以实现更有效的系统开发和自适应性。

目前,机器学习(ML)系统通过实例学习,吸收了被人类分析员分别标记的大量数据,以生成想要的输出。随着这些系统的发展,深度神经网络(DNN)已经成为机器学习模型中最先进的模型。深度神经网络能够以更高的准确度完成机器翻译、语音识别或目标识别等任务。然而,训练深度神经网络需要大量的标记数据——通常需要109或1010个训练实例。积累和标记大量信息的过程不但费时而且成本不菲。

除了积累标记数据的挑战之外,大多数机器学习模型都很脆弱,即使工作环境发生微小变化,也会导致崩溃。例如,如果一个房间的声音或麦克风传感器发生变化,语音识别或扬声器识别系统可能需要利用全新的数据集重新训练。因此,调整或修改模型所花费的时间和精力几乎和从头创建模型一样多。

为了减少训练和调整机器学习模型的成本和时间,DARPA将启动一个名为“使用更少标签学习”(LwLL)的新项目。通过该项目,DARPA将研究新的学习算法,显著减少训练或升级所需的信息量。

DARPA信息创新办公室(I2O)领导LwLL项目的主管韦德沈(Wade Shen)表示:“在‘使用更少标签学习’项目下,我们将使从头开始构建一个模型所需的数据量减少上百万倍。也就是说,今天训练一个系统需要100万张图像,未来只需要一张图像,或者未来改造一个系统只需要大约100个标记例子,而不是象目前这样需要数百万个例子。”

为了实现项目目标,该项目的研究人员将探索两个技术领域。第一个领域重点是建立能够高效学习和具备自适应性的学习算法。研究人员将研究和开发算法,这些算法能够在不牺牲系统性能的前提下,通过已建立的程序指标减少所需的标记示例数量。沈表示:“我们鼓励研究人员在元学习、转移学习、主动学习、k样本学习以及有监督/无监督自适应等技术领域创造新的方法来解决这一挑战性难题。”

第二个技术领域要求研究团队描述机器学习问题的特征,包括它们的决策难度和用于决策数据的复杂性。沈表示:“今天,我们很难理解在构建机器学习系统时,我们能有多高效,或者很难理解模型的精确性存在什么样的根本限制。在‘使用更少标签学习’项目下,我们希望找到在机器学习中可能存在的理论极限,并利用这个理论来突破系统开发与系统能力的边界。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716B1L2TP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券