前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OCI的Generative AI Service

OCI的Generative AI Service

作者头像
MySQLSE
发布2024-06-14 14:32:07
350
发布2024-06-14 14:32:07
举报

OCI(Oracle Cloud Infrastructure)提供的Generative AI Service是完全管理的服务,提供一组可定制的LLM、用户可以通过一个API构建生成式AI应用程序。用户可以选择来自Meta和Cohere的预训练基础模型,通过微调等方式创建自己的数据集,并将其托管在专用的GPU AI集群。Generative AI Service用于大规模地理解、生成和处理人类语言。例如,生成文本、摘要、数据提取、分类、对话等等。

图片来自Oracle官网

预训练的模型分为三类,文本生成、文本摘要,及嵌入。

  • 文本生成类的模型包含cohere的command、command-light和llama 2-70b-chat,用于生成文本和指令跟随。
    • command:高性能、指令跟随的会话模型。模型的参数为52B,上下文窗口(模型处理文本时能够考虑的前文的范围)为4096标记(token,模型可以理解和生成的最小意义单位)
    • command-light:command的小型、快速版本。模型的参数为6B,上下文窗口为4096标记(token)。
    • llama 2-70b-chat:高性能的开源模型,针对会话方式进行优化。模型参数为70B,上下文窗口为4096标记(token)。 生成模型的参数包括:
      • Maximum Output token:模型对于每个应答生成的最大标记(token)数量。
      • Temperature:决定模型具有多大的创造性。数值越小越具有确定性和准确性,数值越大越具有创造性。
      • Top p、Top k:两种选择词汇的分布方法,排名前p/排名和为k。
      • Presence/Frequency Penalty:当一个标记(token)频繁出现并且产生较少重复的文本时,分配一个惩罚。
      • Show Likelihoods:确定标记(token)跟随当前生成的标记(token)的可能性有多大。
  • 文本摘要类模型包括cohere的command,用于将文本汇总为用户指定的格式、长度,及语气。
    • 生成原始文本的简洁版本,传达最重要的信息。
    • 与预训练的文本生成模型相同,但是用户可以为文本摘要指定的参数。 摘要类模型参数包括:
      • Temperature:决定模型具有多大的创造性。默认值为1,最大值为5。
      • Length:摘要的近似长度,参数值包括,Short, Medium,Long。
      • Format:摘要显示为自由段落与序号列表格式。
      • Extractiveness:输入的重用程度。值越高越倾向于逐字重复使用句子。
  • 嵌入模型包含cohere的embed-english-v3.0, embed-multilingual-v3.0, embed-english-light-v3.0, embed-multilingual-light-v3.0,及embed-english-light-v2.0,用于将文本转换为向量嵌入,进行语义检索。
    • embed-english-v3.0:将英语文本转换为向量嵌入。模型为每个嵌入创建1024维度向量,最大512标记。
    • embed-english-light-v3.0:小型快速的英语文本转换向量嵌入。模型为每个嵌入创建384维度向量,最大512标记。
    • embed-multilingual-v3.0:将100多种语言转换为向量嵌入。模型为每个嵌入创建1024维度向量,最大512标记。

微调与推理

微调功能用于对预训练的基础模型在指定的数据集上进行优化,以改善模型在特定任务上的性能和效率。当预训练的基础模型无法按预期执行任务时可以通过微调进行优化。OCI Generative AI Service使用T-Few fine tuning进行快速高效的定制。T-Few是一种高效的参数微调技术,是附加的Few-Shot Parameter-Efficient Fine-Tuning,仅更新模型的一部分权重(参数)可以以更低的成本获得更准确的结果。它在模型中添加额外的层,占基线模型大小的0.01%,在微调的过程中仅更新该层的权重(参数)。与更新全部的权重相比,将权重更新隔离到T-Few层显著减少了训练时间和成本。

T-Few Fine-tuning过程

在机器学习中,推理是指使用经过训练的ML模型根据新的输入数据做出预测或决策的过程。在语言模型中,推理是指模型接收新的文本作为输入,基于训练和微调所学习的内容生成文本。

OCI Generative AI Service的微调工作流程

OCI Generative AI Service的推理工作流程

专用AI集群

专用AI集群是基于GPU的计算资源,用于托管用户的微调和推理的工作负载。OCI Generative AI Service建立一个专用AI集群,包括专用的GPU和专用的RDMA集群网络用以连接这些GPU。GPU被分配用户的生成式AI服务后将与其他的GPU隔离。集群的类型分为微调和托管。

微调:用以训练预训练的基础模型。

托管:托管用户定制的推断模型端点。

降低推理成本

推理的计算成本非常昂贵,每次发送请求时,都会收到回复,这会产生相关的成本。每个AI托管集群可以托管一个基础模型端点和高达50个经过微调的定制化端点。它们可以同时处理请求。这些模型共享同一GPU资源,可以将其理解为多租户,从而减少推理的相关成本。定制化的端点可以停用,之后可以再度开启。GPU由于其超强的并行处理能力,特别适合深度学习任务,但GPU的内存是有限的,当用户在模型之间切换时,由于需要重新加载完整的GPU内存才能开始处理数据,会带来巨大的开销,开销包括将模型从系统内存传输到GPU内存所需的时间和计算资源,以及准备使用新模型处理GPU所需的初始化设置任务。

在OCI Generative AI Service中,由于使用了T-Few技术,这些模型共享大部分的权重,它们之间只有轻微的变化,因此,它他们可以在专用的AI集群中相同的GPU上部署,模型中的公用部分仅需加载到内存中一次,当发生模型切换时,产生的开销非常小。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MySQL解决方案工程师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档