编辑 | 陈彩娴
“化繁为简、大巧不工”是机器学习的初衷之一。费米曾讲述一个故事,冯·诺依曼告诉他,用四个参数就可以拟合出一头大象,用五个参数就可以让大象鼻子动起来,这就是“四个参数画大象”的故事。但AI模型规模不断剧增已是不争的事实。2017年,Transformer结构的提出使深度学习模型参数突破了1亿。随后,BERT、DALL-E、GPT-3、Switch Transformer在国际上相继出现, M6、Alicemind、悟道、盘古等国内大模型也相继获得成功,模型参数增长至百亿、千亿、万亿甚至十万亿,大模型在算力推动下演变为人工智能领域一场新的“军备竞赛”。这种竞赛很大程度推动了人工智能的发展,但随之而来的能耗和端侧部署问题限制了大模型应用落地。2022达摩院十大科技趋势指出,“大模型参数竞赛正进入冷静期,大小模型将在云边端协同进化”——大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效。1月24日,业界首个“大小模型协同进化”实践来了!在 “中国工程院院刊:信息领域青年学术前沿论坛”上,阿里达摩院、浙大高等研究院、上海人工智能实验室联合发布“洛犀”端云协同平台。该平台提供一站式的端云协同模型训练、部署、通信能力,致力于促进大小模型协同进化,构建充分利用大模型应用潜力的新一代人工智能体系。“洛犀”一名取自宇宙中大小星体间永恒的洛希吸引力,并含强大、坚韧之意,寓意大小模型珠联璧合。
洛犀平台背后还有一层深意:“须弥藏芥子,芥子纳须弥。”据传,唐朝江州刺史李渤曾问禅师:“佛经上所讲的未免太离奇了,小小的一粒种子怎么可能容纳那么大的一座须弥山?”禅师微笑反问:“人家说你读书破万卷,可你的头颅只有一粒椰子那么大,怎么可能装得下万卷书呢?”大模型能迁移到小模型的秘诀,也在于取其精髓、化繁为简。大模型通过高精度压缩,约简为终端可用的小模型,小模型的实践向大模型汇聚累积起来,将不断提升云端大模型的认知推理能力,最终实现“集众智者无畏于圣人”。端云协同是让这一联合进化机制成为可能的关键技术。据介绍,达摩院智能计算实验室与浙江大学人工智能研究所、浙江大学上海高等研究院联合进行了长期研究,在端云协同领域取得了多项研究成果。同时,在上海人工智能实验室支持下,三方联合团队正在进行端云协同平台研制。完成主要工作如下:
下面,将为大家详述联合团队在端云协同领域的工作。1
端云协同范式介绍历史上计算形态经历了几次重要变化。当本地计算成本低于通信成本时,计算模式由分时共享机制迅速转变为本地计算完成方式;当网络技术进步使得通信成本远低于计算成本时,开始出现由本地计算向云计算的过渡。随着硬件成本降低、计算能力提升、通信带宽飞跃、传感器感知能力进化等技术进步持续发生,传统计算长久以“算力为王”的模式来部署完成,即任务汇聚到大型机上集中处理,而后分散到用户终端设备处理,再然后相当一部分的计算任务重新汇聚到云计算中心处理。随着以苹果手机为代表的智能手机的快速发展迭代,以及以3G/4G为代表的移动通信技术的普及,云计算模式得到了进一步强化,尤其是5G/6G通信技术的出现和萌芽,将进一步大幅降低通信成本。然而,随着物联网技术的爆发,本地计算需求指数级持续涌现,将全部的计算和数据均交由集中式的云计算中心来处理并不现实,更合理的是既充分发挥云计算优势、又调动端计算敏捷性,形成端云协同的新计算模式。卡内基-梅隆大学的Mahadev Satyanarayanan教授曾经指出:“没有边缘计算的5G大规模部署是没有意义的”。
网络计算形态的发展历程
在万物智联的趋势下,端云协同计算会带来下一代计算范式的突破。然而在人工智能领域,充分借助这样的计算优势,构建“端云协同”智能服务的相关实践却少之又少。到目前为止,业界较为知名的“端云协同”算法实践是微众银行推出的联邦学习平台及其社区,但适合端云协同的算法远不止于此。
2021年,达摩院联合浙江大学完成了业内第一个端云协同调研,定义了三种“端云协同”的范式,为端云协同研究者提供参考。
-当以云侧为中心进行模型汇聚,端侧仅提供分布式训练的数据、计算中间结果和轻量计算资源时,称之为“云侧中心化协同”,代表性的工作是联邦学习;
-当以端侧为中心进行模型个性化,云侧仅仅提供模型校正的数据和巨大算力时,称之为“端侧中心化协同;-当云侧有泛化模型、端侧有个性化模型,且两个模型相互协作学习和推理时,称之为“端云双向协同”,代表性方向可参考达摩院十大趋势中提到的大小模型协同演进。详细可参考论文:Edge-Cloud Polarization and Collaboration: A Comprehensive Survey [arXiv:2111.06061]更进一步,端云协同技术也将推动全新的AI范式形成:云端大模型将作为超级大脑,拥有庞大的先验知识,能进行深入的“慢思考”;而端侧小模型作为四肢,能完成高效的“快思考”和有力执行。两者共同进化,让AI向具有认知力和接近人类水平的智能迈进。
2
洛犀平台设计总体介绍洛犀平台致力于将端云两侧的最佳实践以文档、算法组件、平台服务的形式沉淀下来,为开发者提供一站式的端云协同模型训练、部署、通信能力,以减少新业务实现端云协同智能的成本。洛犀平台可拆解为端侧、云侧、端云链路三部分。其中,平台在端侧以python/js package的形式提供服务,称为Luoxi-lite,包含表征、文本理解、图计算等能力;在端云链路侧,平台提供实现端云协同关键的通信能力,包括方案分发链路、数据通信链路;端云协同的模型训练沉淀在云端,称为Luoxi-cloud,包含端模型训练等。
洛犀平台设计总览1月12日,洛犀平台中云上大模型核心技术 “超大规模高性能图神经网络计算平台及其应用”获2021年电子学会科学技术进步奖一等奖。由院士专家组成的鉴定委员会认为“项目研制难度大、创新性强,整体技术处于国际先进水平”。
3
洛犀平台算法包介绍1、端云协同推理在移动端部署排序模型,目前主流的做法是模型压缩、蒸馏或者量化或参数共享,得到一个小模型进行服务。但这种做法通常会损失很大的精度,有时会得不偿失。团队发现把云上排序大模型拆分后部署,可形成小于10KB的端侧精细轻量化子模型,既保证了端侧推理精度无损失,同时实现了轻量级应用端侧资源。团队将这种方式叫作端云协同推理。案例:团队在阿里的应用场景下构建了端重排模型,实践了上述协同推理机制,模型结构如下图所示。通过排序模型,结合表征矩阵压缩、云端排序打分作为特征、实时序列等技术和信息,技术试点部署在支付宝搜索、淘宝相关应用中,取得了较为显著的效果提升。
端重排模型 案例:传统排序系统在长尾分布下,对热门用户和冷门用户提供交互服务的质量存在差距。这本质上是因为单模范式缺乏个性化所带来的问题,目前学术界内尚无有效方案能够保证不牺牲热门用户服务体验的同时,最大化冷门用户的服务体验。团队设计出基于共享特征表征层的百模模型架构:模型共享底层参数,仅最上层的全连接(FC)层参数不同。在该架构基础上,团队探索了基于用户兴趣和基于时空维度“用户分组”机制下百模算法效能。
百模模型设计2、端+M6近年来,预训练大模型+下游任务微调(finetuning)模式在众多单模态或多模态任务上取得了显著成效。包含10万亿参数的M6是目前业界最大的多模态预训练模型,在完成云上任务方面取得较为显著的进展,且做到了业内极致的低碳高效。相比去年发布的GPT-3,M6同等参数模型能耗仅为其1%,降低了大模型实现门槛,推动了普惠AI的发展。然而,云上M6参数过大,无法直接部署在端上,实现端云协同是推进大模型落地应用的重要手段,让大模型优秀的理解和创造能力帮助支撑各类核心应用。 目前,团队探索了通过模型压缩方法,让自研多模态预训练大模型M6赋能端上服务,取得了如下进展:•通过蒸馏压缩和参数共享等技术手段,将3.4亿参数的M6压缩到百万参数,以大模型1/30的规模,保证了90%以上的性能;•压缩后端上10M 大小的M6小模型相比开源的16M ALBERT-zh小模型,在体积减少近40%的情况下效果更优;•已试点部署到支付宝搜索引擎,成为业界首个落地的端上预训练模型。
3、端+GNN近年来图神经网络(GNN)因其高性能受到了学术界及工业界的广泛关注,但现有方法仍存在一系列问题,比如云侧计算负载大、推断实时性差、过拟合导致个性化不好等。结合端侧实时性高、个性化强的优点,有望从端云协同的视角来克服上述GNN的缺陷。团队结合云侧资源充足、中心化聚合的特点以及端侧本地化实时决策、个性化推理和保护隐私等优势,在业界首次实现端云协同构建图模型,并试点落地到支付宝搜索引擎。4、端+RL强化学习(RL)在游戏和路径规划上有广泛应用,但在工业场景的搜索、推荐等方面难以取得理想效果。其中一个重要原因是用户实时交互无法及时反馈给RL模型,导致模型估算的收益不准确。端+RL的组合从理论上应该能实现二者的优势互补,但目前业界的相关研究还很少。团队在端云协同框架下,应用大规模在线RL学习机制,抽象出如下在线端云协同RL部署新范式。
端云协同RL范式
3
结语端云协同是未来AI产业服务的重要形态,给各种业务算法带来了新的机遇。本次达摩院、浙大上海高等研究院、上海人工智能实验室分享了合作研究团队在端云协同领域所做的系统调研、端云协同平台洛犀以及各种前沿技术探索。未来,团队将进一步探索端云协同框架下端模型和云模型的协同机理,并完善算法方案和业务实践。