机器学习网络技术概述及展望

面对日益复杂的任务和计算,大规模机器学习被认为是必然的发展趋势,成为工业界和学术界的研究热点。作为网络领域的研究人员,如何将机器学习和网络相结合,开展跨学科跨领域的研究工作,是一个值得探索和思考的问题。基于业界目前的研究现状,“机器学习+网络”的研究工作大致可以分为两个方向。

利用机器学习技术进行网络系统的优化(Network by Machine Learning)

在网络领域存在众多复杂的优化问题,传统的优化手段(如线性优化算法、贪心式启发策略)求解质量和求解效率不高,无法适应复杂变化的网络场景。众多的机器学习算法为这些问题的求解提供了新的思路,可以取得明显优于传统优化方法的效果。此外,网络运维等也往往需要过多的人工参与,才能保证系统的可靠性,这又耗费繁重的人力。通过机器学习模型进行故障的发现、定位和诊断,可以大大减轻运维人员的操作负担,节约生产管理成本。

利用网络领域的新技术加速机器学习的模型训练(Network for Machine Learning)

大规模机器学习需要巨大的算力来进行复杂任务的求解运算。特别是对于深度学习,需要运用梯度下降算法对巨大的深度神经网络进行权值参数的迭代调整。这种类型的大规模机器学习任务仅靠单台计算机是无法完成的,必须进行多台机器参与的分布式计算。然而,机器之间的通信开销巨大,会严重影响模型训练的速度。近年来,随着高性能硬件(如GPU、TPU)的突破性进展,单台机器的计算能力已经得到显著提升,相比之下,通信开销就成为了制约大规模机器学习性能的主要瓶颈。为了提高机器学习的训练速度,需要利用网络领域的知识和技术,对大规模分布式机器学习的通信进行优化改良,消除分布式机器学习系统的性能瓶颈,对整个分布式机器学习任务进行加速。

对比“Network by Machine Learning”和“Network for Machine Learning”两个方向,前者专注于机器学习知识,对于网络系统知识依赖较少,一般需要首先将网络中的问题和场景进行抽象,然后套用合适的机器学习模型进行求解。后者需要研究者不仅要了解机器学习的领域知识,还要对网络系统有深入理解。但是,目前这方面的研究工作相对匮乏。本文主要对后一种的主要研究问题和方法进行讨论。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181113A1EGQH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券