人工智能电信领域落地之路(3)·始于发现异常止于发现近邻

点击“人工智能园地”关注我们~

人工智能落地七原则

前两期絮絮叨叨了这么多,有很多东西也没有写的特别细,我就是为了说出自己的体会,只要能够引起各位领导和专家的思考就够了 ,我说的对或者不对都没有大的关系。我最后说一下我认为的人工智能落地要注意的问题吧。这里面有的技术方面的,有的是项目运作方面的,我这两个方面都不怎么样,可能说的都不对。总体上,我们最好遵循下面的七个原则:

第一,我们的目的是解决问题,人工智能只是我解决这个问题的百宝箱中的一个普通工具,榔头不比斧头牛逼,不能到处都用榔头;搞算法的数据科学家不能只懂人工智能,还需要有较强的数学素养,针对不同的问题能够进行合理的数学建模、数学抽象并且求解;

第二,考虑采用人工智能来解决这个问题的时候,我们先看看已有的解决方案是不是最优的,这个问题还有没有提升空间;人工智能并不意味着不需要人,不要业务逻辑与规则,也并不意味着过去的经验和规则都很low;相反,业务工程师的历史经验和规则决定了人工智能项目的价值变现;

第三,该业务问题是否有大量有效数据,业务诉求清晰,容错性能良好并且试错代价较小;

第四,领导、业务、算法人员对人工智能技术的期望不要过高,人工智能项目的成效是迭代式的上升的过程,有了成果不要吹牛逼过度;

第五,项目从开始到结束,业务和算法要密切配合,共同讨论技术方案,单独的一方都搞不定,双方要上到一条贼船上,搞算法研究和设计的数据科学家要成为业务的“二把刀”,什么意思呢就是说搞算法的要对业务有较为深入的理解,要深入到业务当中去,成为一个业务方面的“二手科学家”;业务人员要勇于“辞旧迎新,开放务实”,算法人员要“放低身段,降低品味”。

第六,人工智能项目的实施要从小碎步到大跨越,多尝试摸索。另外,在项目实施的过程当中,要结合管理来解决问题。当我们面对一个问题时,它的解决方案无非是从管理或者技术两个方面来解决,要看用管理手段来解决好还是技术手段来解决爽,或者二者的配合。

第七,快速上线,通过使用AI解决相应的业务问题,逐步积累经验和数据,在使用的过程中根据用户的反馈,快速迭代修正算法,提升系统效果。

那么典型领域人工智能落地具体上会采用什么样的技术方法?通过我们过去的实践,我们认为在当前的网络架构和运维模式下最重要的两个技术是异常检测与近邻查找;至于未来随着网络架构的演进,则需要能够支撑进行智能决策的约束优化和强化学习算法。

以问题处理为例,工程师处理问题的过程就是观测网络设备产生的各类数据,查找这些数据中的异常,把各类数据当中的异常,通过时间和空间进行关联分析,最后根据所掌握的网络背景知识得出网络产生故障的真正原因,并且制定相应的解决方案。同样的,工程师在做网络优化的过程也基本是相同的,首先查看与用户体验相关的KPI,找出异常的KPI,异常的日志等信息,最后利用相关的背景知识对网络进行调整优化。在电信网络领域,如何有效的查找系统产生的各类数据的异常,并且把这些异常的时空关联关系呈现出来,就能够大幅度的提高工程师的工作效率,所以我们说电信网络的人工智能落地始于异常检测。这个异常检测主要对付的时序数据(注意不是单纯的时间序列,包括离散的时序数据),需要研究的时序数据异常检测算法包括:单变量/多变量时序数据的异常点、异常时间段检测,单变量/多变量时序数据预测、分割、分类、聚类算法。

异常检测能够辅助工程师在电信网络故障诊断、网络优化等方面的工作效率,通过时空关联呈现异常信息,帮助工程师快速查看各类异常信息,最后的决策是工程师根据自己的背景知识和当前的异常信息进行判断。更近一步,如果我们期望人工智能帮助工程师进行决策,除了展示相关的异常信息作为证据,并且根据已有的数据给出最后的故障根因,可能需要我们采用近邻查找的方法来实现(注意这里我说的是可能)。我们也解释一下为什么是近邻查找。这个问题只要学习过机器学习的人都会说这是一个分类问题,我们可以训练一个分类模型,或者说利用贝叶斯网络,进行故障根因推断。这种有监督学习分类的方法基本不可行,因为样本数太少了。我们的网络设备其实可靠性非常非常高,同样的网络设备故障重复出现的次数在全球范围内都基本上不会超过10次,别说是深度神经网络这样需要海量样本的模型,就算是简单的线性分类模型,我们的样本数都远远不够,或者说我们的样本在一定意义上就不能说他有统计规律,那么采用基于统计学习方法的各种模型基本是都是不靠谱的。至于贝叶斯网络,还有一个重要的问题就是贝叶斯网络结构的问题,贝叶斯网络的结构我们基本上没有办法画出来,而贝叶斯网络结构的学习基本不靠谱,没有办法用。这个时候,查找近邻的方法可能是我们的一条可行技术路线。对于电信网络数据的查找近邻算法上的挑战可能是序列数据的匹配准则学习问题,Sequential Data Metric Learning。

上面讨论的是在现有的网络架构和运维模式下人工智能在电信网络领域落地需要解决的两个方面的技术问题,那么随着网络架构的演进,未来如果想实现智能管理的网络,那么就需要相关的智能决策支撑理论和技术。我们认为核心的技术能力就是优化决策理论:From Linear Programming to ReinforcementLearning。任何复杂系统的管理目的就是在寻找一个最优化的策略,从网络的流量调度,到云数据中心资源的智能调度以及网络参数的优化配置等等都是再找一个约束条件下的优化策略。解决这样的问题,需要的技术就包括约束优化与强化学习。约束优化已经广泛的应用于各个工业工程领域,强化学习也逐步迈向数据中心调度,基站流量调度的应用,例如,下图利用强化学习进行Cluster的计算资源调度问题。

实现智能网络AI核心能力

为了实现网络的智能化管理和控制,我们需要积累包含但不局限于以下几个方面的技术能力:

1) Spatial-Temporal Sequentialdata anomaly detection, prediction, classification

2) Spatial-Temporal Sequentialdata metric learning , meta-learning

3) Spatial-Temporal Sequentialdata decision making: From linear programing to reinforcement learning

—————— 完 ——————

下期精彩内容,敬请期待!

关注我们

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180816G0N9M800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券