前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【TKE】超级节点部署 LLaMA 大语言模型服务

【TKE】超级节点部署 LLaMA 大语言模型服务

原创
作者头像
Jokey
修改2023-11-07 17:43:49
2560
修改2023-11-07 17:43:49
举报
文章被收录于专栏:云原生搬运工云原生搬运工

使用背景

有训练好的 GGUF 模型文件(LLaAM)想要部署在腾讯云上做推理,可以选择使用 TKE serverless 超级节点快速部署。

准备工作

  1. 创建 TKE serverless 集群及超级节点,参考 创建集群
  2. 创建部署所需要的超级节点,参考 创建超级节点

操作步骤

下面以 full-cuda 镜像 为例,进行配置说明:

  1. 为了方便使用,这里启动一个 HTTP Server 暴露模型服务,然后通过 HTTP 调用的方式使用,具体启动命令可以根据需要调整,详情参考:Server 启动
  2. 需要申请的GPU卡类型和卡数可以根据工作负载注解和容器规格配置,详情参考 TKE Serverless 支持的规格:GPU 规格。本示例申请一张 v100 GPU,则需要在添加注解:eks.tke.cloud.tencent.com/gpu-type: 'V100',并配置相应的容器资源规格。
  3. 如因 GPU 驱动版本等原因需要重新打镜像,也可以参照文档修改Dockefile本地构建镜像

本示例的工作负载 YAMl 配置详情如下:

代码语言:yaml
复制
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: full-cuda
  name: full-cuda
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: full-cuda
  template:
    metadata:
      annotations:
        eks.tke.cloud.tencent.com/gpu-type: V100  # 申请V100 类型GPU
      labels:
        app: full-cuda
    spec:
      containers:
      - args:
        - --server
        - -m
        - /models/<模型文件> # 指定模型文件
        - --n-gpu-layers
        - "-1"
        - --host # 暴露web服务的host
        - 0.0.0.0
        - --port # 暴露web服务的端口
        - "8080"
        image: ghcr.io/ggerganov/llama.cpp:full-cuda
        imagePullPolicy: IfNotPresent
        name: full-cuda
        ports:
        - containerPort: 8080
          protocol: TCP
        resources:
          limits:
            cpu: "8"
            memory: 40Gi
            nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
          requests:
            cpu: "8"
            memory: 40Gi
            nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
        volumeMounts:
        - mountPath: /models #挂载模型文件 PVC
          name: models-path
      volumes:
      - name: models-path
        persistentVolumeClaim:
          claimName: models-pvc  # 配置挂载模型文件
---

apiVersion: v1
kind: Service
metadata:
  name: full-cuda
spec:
  selector:
    app: full-cuda
  ports:
    - protocol: TCP
      port: 80
      targetPort: 8080
  type: LoadBalancer # lb暴露服务

总结

上述文档仅为快速上手指导,如果有更加复杂的 LLaMA 大模型服务容器化场景,请参考官方文档,或联系 TKE 架构师支持。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用背景
  • 准备工作
  • 操作步骤
  • 总结
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档