前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云异构计算平台全面支持Llama 3,助力一键部署、性能翻倍

腾讯云异构计算平台全面支持Llama 3,助力一键部署、性能翻倍

作者头像
腾讯云计算产品团队
发布2024-04-25 16:08:51
2980
发布2024-04-25 16:08:51
举报

近日,号称史上最强大的开源模型——Meta Llama 3 正式发布。伴随着日新月异的模型生态,腾讯云异构计算平台作为覆盖90%+大模型客户的AI底座,现已做好充足的准备,围绕Llama 3系列模型,提供从基础设施到编排调度的智算产品矩阵,为企业及开发者提供更快部署、更强性能和更高吞吐的全链路解决方案。

更快部署

通过 HAI 创建 Llama 3 仅需 3 分钟

随着大模型时代的到来,应用有望生长出更大价值。如何取得先发优势、优质的模型能力是构建AI应用核心竞争力的关键。为了解决中小企业及开发者在AI应用上担心的敏捷部署、成本效益、数据安全等难题,我们推出了全新的即插即用的 GPU 应用服务产品——高性能应用服务 HAI 。不仅提供即插即用的便捷性,还支持 AI 模型在云端的私有化部署,确保在有丰富模型选择的同时,数据安全也能得到严格保护。

在 Meta 发布 Llama 3 后,腾讯云 HAI 第一时间支持了 Llama 3 的一键部署。通过 HAI 仅需 3 分钟,中小企业及开发者可以轻松实现基于 Llama 3 的应用创作与开发,将其应用于各种场景,如智能客服、内容创作、文本分析等,提升产品竞争力或企业运营效率。

HAI 应用中心已支持 Llama 3

腾讯云 HAI 提供一键即得的澎湃算力与常见环境,助力中小企业及开发者快速部署 LLM、AI 作画、数据科学等高性能应用,原生集成配套的开发工具与组件,大幅提高应用层的开发生产效率。此前已支持 ChatGLM 系列、Stable Diffusion、Llama 2 等丰富主流模型,同时支持 Notebook、WebUI 等多种图形化算力交互模式,以应用为核心降低云原生 AI 应用落地门槛。

HAI 将继续拓展支持更多高性能应用模板,为中小企业及开发者提供更丰富的资源和工具,真正实现“再小的个体,也能实现自己的 AI 想法”

Llama 3 在 HAI 上的运行效果

更强性能

全新实例 Llama 3 推理性能提高 2-10 倍

在硬件层面,腾讯云推出的最新一代异构计算 GPU 实例 PNV5b,围绕 Llama 3 等大模型场景,将AI推理部署性价比提升至新的高度。

Llama 3的模型特点与 Llama 2 十分类似,支持 GQA 机制降低大模型推理过程中的 KV cache 显存开销。PNV5b实例采用最新一代 GPU,单卡搭配 48GB 显存,在算力和显存匹配上做到了更好的平衡,为大模型推理提供了更优的性价比。同时,PNV5b 实例在整机架构设计上支持最大单机 8 颗 GPU 高效扩展,大幅提升分布式推理性能。

在 Llama 3 的推理部署测试中,在典型业务请求压力条件下,PNV5b 的推理吞吐对比上一代 PNV4 可提升 2-3 倍;而在极端请求压力测试下,性能可进一步提升至 10 倍。这意味着,PNV5b 实例能提供更好的性能扩展能力,让用户在面对大模型的业务洪峰时更加游刃有余。

Llama 3 推理部署性能对比

除此之外,PNV5b 通过星星海服务器搭配最新一代 AMD CPU 平台,提供多种实例规格,可灵活匹配大模型推理、大模型精调、推荐系统等多种场景的实例规格需求。将为广大用户带来更贴合业务的AI模型训练和推理体验,为企业和开发者创造更多的价值。

更快部署

TACO 加速引擎全新升级,现已支持 Llama 3

在软件层面,腾讯云 TACO Kit 计算加速全新升级,推出 TACO-LLM 大语言模型推理加速引擎,用于提高大语言模型的推理效能。通过充分利用计算资源的并行能力,TACO-LLM 能够同时处理更多语言模型推理请求,已成功为多家客户提供了兼顾高吞吐和低时延的优化方案

随着大模型的广泛使用,开源社区涌现出多个优秀的大模型推理框架,如 vLLM,Text-Generation-Inference (TGI),LightLLM 等。各个大模型推理框架设计理念各具特色,可谓百花齐放,各领风骚。而在实测数据中,TACO-LLM 的表现均优于其他方案,在相 GPU 硬件的前提下,推理吞吐性能最高提升 78%

全新 TACO-LLM 现已支持 Llama 3 系列模型,并已实现与高性能应用服务 HAI 或全新一代异构实例PNV5b的高效搭配使用,从而显著提升部署及推理效率,现已支持分布式推理、动态 Batching、Page Attention 等多种特性。欢迎通过文末“阅读原文”与我们取得联系获取内测资格。

TACO-LLM 特性

Llama 3 在多个行业应用中表现优异,如智能客服提高解决率,内容创作提升创作质量,文本分析准确提取信息。腾讯云异构计算平台将继续通过算存网一体的智算集群、高性能分布式训练和推理加速包以及多样化的算力调度形态,助力企业及开发者挖掘AI大模型价值,推动 AI 大模型产业高质量发展和商业化落地。

腾讯云异构计算平台全面支持 Llama 3

>>扫描二维码,抢先体验<<

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云服务器 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档