OCI的Generative AI Service

MySQLSE

发布于 2024-06-14 14:32:07

1830

OCI（Oracle Cloud Infrastructure）提供的Generative AI Service是完全管理的服务，提供一组可定制的LLM、用户可以通过一个API构建生成式AI应用程序。用户可以选择来自Meta和Cohere的预训练基础模型，通过微调等方式创建自己的数据集，并将其托管在专用的GPU AI集群。Generative AI Service用于大规模地理解、生成和处理人类语言。例如，生成文本、摘要、数据提取、分类、对话等等。

图片来自Oracle官网

预训练的模型分为三类，文本生成、文本摘要，及嵌入。

文本生成类的模型包含cohere的command、command-light和llama 2-70b-chat，用于生成文本和指令跟随。
- command：高性能、指令跟随的会话模型。模型的参数为52B，上下文窗口（模型处理文本时能够考虑的前文的范围）为4096标记（token，模型可以理解和生成的最小意义单位）
- command-light：command的小型、快速版本。模型的参数为6B，上下文窗口为4096标记（token）。
- llama 2-70b-chat：高性能的开源模型，针对会话方式进行优化。模型参数为70B，上下文窗口为4096标记（token）。生成模型的参数包括：
  - Maximum Output token：模型对于每个应答生成的最大标记（token）数量。
  - Temperature：决定模型具有多大的创造性。数值越小越具有确定性和准确性，数值越大越具有创造性。
  - Top p、Top k：两种选择词汇的分布方法，排名前p/排名和为k。
  - Presence/Frequency Penalty：当一个标记（token）频繁出现并且产生较少重复的文本时，分配一个惩罚。
  - Show Likelihoods：确定标记（token）跟随当前生成的标记（token）的可能性有多大。
文本摘要类模型包括cohere的command，用于将文本汇总为用户指定的格式、长度，及语气。
- 生成原始文本的简洁版本，传达最重要的信息。
- 与预训练的文本生成模型相同，但是用户可以为文本摘要指定的参数。摘要类模型参数包括：
  - Temperature：决定模型具有多大的创造性。默认值为1，最大值为5。
  - Length：摘要的近似长度，参数值包括，Short， Medium，Long。
  - Format：摘要显示为自由段落与序号列表格式。
  - Extractiveness：输入的重用程度。值越高越倾向于逐字重复使用句子。
嵌入模型包含cohere的embed-english-v3.0， embed-multilingual-v3.0， embed-english-light-v3.0， embed-multilingual-light-v3.0，及embed-english-light-v2.0，用于将文本转换为向量嵌入，进行语义检索。
- embed-english-v3.0：将英语文本转换为向量嵌入。模型为每个嵌入创建1024维度向量，最大512标记。
- embed-english-light-v3.0：小型快速的英语文本转换向量嵌入。模型为每个嵌入创建384维度向量，最大512标记。
- embed-multilingual-v3.0：将100多种语言转换为向量嵌入。模型为每个嵌入创建1024维度向量，最大512标记。

微调与推理

微调功能用于对预训练的基础模型在指定的数据集上进行优化，以改善模型在特定任务上的性能和效率。当预训练的基础模型无法按预期执行任务时可以通过微调进行优化。OCI Generative AI Service使用T-Few fine tuning进行快速高效的定制。T-Few是一种高效的参数微调技术，是附加的Few-Shot Parameter-Efficient Fine-Tuning，仅更新模型的一部分权重（参数）可以以更低的成本获得更准确的结果。它在模型中添加额外的层，占基线模型大小的0.01%，在微调的过程中仅更新该层的权重（参数）。与更新全部的权重相比，将权重更新隔离到T-Few层显著减少了训练时间和成本。

T-Few Fine-tuning过程

在机器学习中，推理是指使用经过训练的ML模型根据新的输入数据做出预测或决策的过程。在语言模型中，推理是指模型接收新的文本作为输入，基于训练和微调所学习的内容生成文本。

OCI Generative AI Service的微调工作流程

OCI Generative AI Service的推理工作流程

专用AI集群

专用AI集群是基于GPU的计算资源，用于托管用户的微调和推理的工作负载。OCI Generative AI Service建立一个专用AI集群，包括专用的GPU和专用的RDMA集群网络用以连接这些GPU。GPU被分配用户的生成式AI服务后将与其他的GPU隔离。集群的类型分为微调和托管。

微调：用以训练预训练的基础模型。

托管：托管用户定制的推断模型端点。

降低推理成本

推理的计算成本非常昂贵，每次发送请求时，都会收到回复，这会产生相关的成本。每个AI托管集群可以托管一个基础模型端点和高达50个经过微调的定制化端点。它们可以同时处理请求。这些模型共享同一GPU资源，可以将其理解为多租户，从而减少推理的相关成本。定制化的端点可以停用，之后可以再度开启。GPU由于其超强的并行处理能力，特别适合深度学习任务，但GPU的内存是有限的，当用户在模型之间切换时，由于需要重新加载完整的GPU内存才能开始处理数据，会带来巨大的开销，开销包括将模型从系统内存传输到GPU内存所需的时间和计算资源，以及准备使用新模型处理GPU所需的初始化设置任务。

在OCI Generative AI Service中，由于使用了T-Few技术，这些模型共享大部分的权重，它们之间只有轻微的变化，因此，它他们可以在专用的AI集群中相同的GPU上部署，模型中的公用部分仅需加载到内存中一次，当发生模型切换时，产生的开销非常小。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-13，如有侵权请联系 cloudcommunity@tencent.com 删除

集群