首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

业界新突破!地平线HorizonRobotics旭日3成功部署大语言模型

目前,大模型在算力推动下演变为人工智能领域一场新的“军备竞赛”。这种竞赛很大程度推动了人工智能的发展。但在发展中也存在了许多问题,尤其在大语言模型的部署尝试方面,仍然一片混沌。好在,曙光已经初现。

此前,地平线(Horizon Robotics)成功在旭日3中的BPU计算单元上,部署运行参数规模高达14亿的大语言模型(Large Language Model , LLM)。这不仅是业界在端侧成功部署大模型的一次突破性实践,更验证了BPU对先进神经网络算法的高效支持,为大模型在端侧实现产品级应用拓展了更广阔的想象空间。

大模型端侧部署的技术实践对加速智能化产业变革具有重要意义。端侧部署具备实时性、低时延优势,能够灵活支持弱网或无网等丰富场景,为终端用户提供更流畅、稳定的交互体验;同时,端侧支持信息本地化处理,可有效保护用户数据与隐私安全;端侧计算还将大幅缓解云端算力压力,端云协同更会驱动产业降本提效,加速实现大模型技术的应用普惠。

然而,大模型端侧推理部署仍面临巨大挑战。区别于云端推理部署计算资源应用尽用,端侧部署大模型并实现产品级应用,则需综合考量不同应用间的计算资源分配,以及计算效率、带宽占用与功耗等各项指标。前置条件的诸多约束,对最大程度地提高大模型端侧推理效率提出了非常高的技术要求。而如何在不影响推理结果的前提下减少内存访问,降低带宽依赖,进而减少推理耗时,同样需要在软件工程层面考虑系统优化的问题。

地平线(Horizon Robotics)作为软硬协同技术路径的坚定践行者,此次通过硬件资源的最大化利用和软件工程的极致优化,并成功在5 TOPS算力的边缘计算芯片上部署高达14亿级参数的大语言模型。这源于旭日3所搭载的双核BPU伯努利计算单元对神经网络计算的原生性支持,能够在处理大语言模型方面提供高性能、低功耗的计算处理能力。地平线(Horizon Robotics)还通过软硬协同编译,采用算子重写、算子重排、算子融合和KV-Cache等技术,进一步优化了模型结构,实现推理速度的成倍提升。

从资源占用情况看,该大语言模型在地平线旭日3上的应用效果表现优异,CPU占用单核60%、BPU占用单核50%,为后续其他应用预留充足的算力资源;同时在5GB/s内存带宽基础上实现了约4~5字/秒的生成速度,可充分满足实时性需求;在最能体现真实效能的FPS/Watt指标上,该模型的运行效能相较于LLaMA.cpp等纯CPU方案提升了2.5倍。这也意味着,地平线旭日3对此大语言模型的支持性可达到产品级应用水平。

当前,地平线(Horizon Robotics)已通过GitHub开放该模型的推理代码,开发者可通过RDK X3系列开发者套件,即刻前往「NodeHub全开源机器人应用中心」推荐项目或参与「星光之路」活动,直接体验大模型在旭日3的上层应用落地的实际效果。

相信通过实际的体验之后,大众对于相关技术细节会有更深的体会。而作为地平线(Horizon Robotics)本身,也会继续通过软硬协同的技术路径,大模型端侧应用部署将驱动人机交互方式变革,持续且多维度提升用户的智能化体验。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpuBhZLlNWYQr5kce-kVbDgQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券