文章/答案/技术大牛

发布

如何在 7 个简单步骤中训练自己的 AI 推理模型（类 DeepSeek-Level）

文章来源：企鹅号 - 真智AI

无需超级计算机！只需 15GB VRAM，即可训练强大的 AI 推理模型！

引言：DeepSeek R1 如何改变 LLM 领域？

DeepSeek R1 模型 通过 群体相对策略优化（GRPO） 实现了无需人工反馈的推理能力，彻底改变了大语言模型（LLM）的发展方向。

GRPO 是一种强化学习技术，它使 AI 能够自主优化推理能力。与传统的 PPO（近端策略优化） 不同，GRPO 无需价值函数，直接优化 AI 生成的答案，从而提高训练效率。

但如果没有大型 GPU 集群，我们还能训练自己的推理模型吗？

答案是：可以！

借助 Unsloth，你可以使用仅 15GB VRAM 的消费级 GPU 训练一个 15B 参数的推理优化模型！本文将详细介绍如何使用 GRPO 训练自己的 AI 推理模型，并将其部署到 Hugging Face。

什么是 GRPO？

GRPO（Group Relative Policy Optimization, 群体相对策略优化） 通过比较 AI 生成的多个答案来优化模型推理能力，核心步骤如下：

模型生成多个回答。

每个答案都被评分（基于正确性、清晰度、逻辑结构等）。

计算平均分，并将每个回答与平均分进行比较。

高于平均分的答案被奖励，低于平均分的答案被惩罚。

模型逐渐学会生成更高分的答案。

示例：教授 AI 进行数学推理

问：“2+2=？”

AI 可能会生成多个答案，例如 “2+2=5”（错误）和 “2+2=4”（正确）。

GRPO 给予正确答案更高的奖励，从而让 AI 学习避免错误答案，并逐步优化推理能力。

7 步训练自己的 AI 推理模型

本指南将带你一步步完成 基于 GRPO 的推理优化 LLM 训练，并最终部署到 Hugging Face。

第 1 步：环境搭建

首先，安装必要的依赖项：

%%capture# 安装基础软件包!pip install unsloth vllm!pip install --upgrade pillow

# 安装 Hugging Face TRL 库（支持 GRPO）!pip install git+https://github.com/huggingface/trl.git@e95f9fb74a3c3647b86f251b7e230ec51c64b72b

核心工具介绍：

unsloth：优化的大模型训练框架

vllm：高吞吐量推理引擎

trl：Transformer 强化学习库

第 2 步：模型初始化

在所有函数前使用 PatchFastRL 以启用 GRPO，加载 Llama 3.1 8B Instruct 模型，并应用 LoRA（低秩自适应） 以减少内存占用。

from unsloth import FastLanguageModel, PatchFastRL, is_bfloat16_supportedimport torch

# 启用 GRPO 强化学习补丁PatchFastRL("GRPO", FastLanguageModel)

# 配置参数max_seq_length = 512 # 增加序列长度以增强推理能力lora_rank = 32 # 平衡性能与计算速度

# 加载模型model, tokenizer = FastLanguageModel.from_pretrained( model_name = "meta-llama/meta-Llama-3.1-8B-Instruct", max_seq_length = max_seq_length, load_in_4bit = True, # 4-bit 量化减少 4 倍显存占用 fast_inference = True, # 启用 vLLM 优化推理 max_lora_rank = lora_rank, gpu_memory_utilization = 0.6, # 控制 GPU 负载)

# 应用 LoRA 适配model = FastLanguageModel.get_peft_model( model, r = lora_rank, target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], lora_alpha = lora_rank, use_gradient_checkpointing = "unsloth", random_state = 3407,)

第 3 步：数据集准备

使用 Reasoning Base 20K 数据集（比 GSM8K 覆盖更广泛的推理任务）。

from datasets import load_dataset

# 加载数据集dataset = load_dataset("KingNish/reasoning-base-20k", split="train")

# 预处理数据def format_data(x): return { "prompt": [{"role": "user", "content": x["user"]}], "reasoning": x["reasoning"], "answer": x["assistant"] }

dataset = dataset.map(format_data)

第 4 步：设计奖励函数（核心）

奖励函数决定 AI 如何优化推理能力。我们设计了 4 种奖励：

答案相关性奖励（确保回答包含关键信息）

严格格式奖励（XML 结构化输出）

宽松格式奖励（允许小偏差）

XML 标签计数奖励（检查 XML 结构完整性）

示例代码（答案相关性奖励）：

def answer_relevance_reward(prompts, completions, answer): responses = [completion[0]["content"] for completion in completions] questions = [prompt[-1]["content"] for prompt in prompts]

def check_relevance(response, question, reference): score = 0.0 if len(set(question.split()) & set(response.split())) > 0.3 * len(set(question.split())): score += 0.5 if len(set(reference.split()) & set(response.split())) > 0.3 * len(set(reference.split())): score += 0.5 return score

return [check_relevance(r, q, a) for r, q, a in zip(responses, questions, answer)]

第 5 步：运行 GRPO 训练

from trl import GRPOConfig, GRPOTrainer

training_args = GRPOConfig( learning_rate = 5e-6, per_device_train_batch_size = 1, max_steps = 150, num_generations = 4,)

trainer = GRPOTrainer( model = model, processing_class = tokenizer, reward_funcs = [answer_relevance_reward], args = training_args, train_dataset = dataset,)

trainer.train()

第 6 步：模型评估

训练前后对比：

text = tokenizer.apply_chat_template([{"role": "user", "content": "How many r's are in strawberry?"}])output = model.fast_generate([text])[0].outputs[0].textprint(output)

训练后，模型能正确推理 "strawberry" 中 'r' 的数量，并提供详细推理步骤。

第 7 步：部署 & 扩展

总结

仅 15GB VRAM 即可训练 15B 参数 推理模型

GRPO 强化学习 提高推理能力

训练时间仅 2 小时，可进一步优化

AI 时代，人人都能训练自己的推理模型！

发表于: 2025-02-282025-02-28 13:15:50
原文链接：https://page.om.qq.com/page/OVEiGmItiPHd_1BJgbqBVSnA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

如何在 7 个简单步骤中训练自己的 AI 推理模型（类 DeepSeek-Level）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐