使用 Trl 进行微调

TRL: 用于 LLM RLHF 的 SFT、DPO、PPO、GRPO、奖励建模。

技能元数据


来源	可选 — 使用 `hermes skills install official/mlops/trl-fine-tuning` 安装
路径	`optional-skills/mlops/training/trl-fine-tuning`
版本	`1.0.0`
作者	Orchestra Research
许可	MIT
依赖	`trl`、`transformers`、`datasets`、`peft`、`accelerate`、`torch`
平台	linux, macos, windows
标签	`Post-Training`、`TRL`、`Reinforcement Learning`、`Fine-Tuning`、`SFT`、`DPO`、`PPO`、`GRPO`、`RLHF`、`Preference Alignment`、`HuggingFace`

参考：完整的 SKILL.md

정보

下面是 Hermes 在触发技能时加载的完整技能定义。当技能激活时，Agent 将把以下内容视为指令。

TRL - Transformer 强化学习

快速开始

TRL 提供了用于使语言模型与人类偏好对齐的训练后方法。

安装：

pip install trl transformers datasets peft accelerate

监督微调（指令微调）：

from trl import SFTTrainer

trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,  # 提示-完成对
)
trainer.train()

DPO（偏好对齐）：

from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=preference_dataset,  # chosen/rejected 对
    processing_class=tokenizer
)
trainer.train()

常见工作流

工作流 1：完整的 RLHF 流水线（SFT → 奖励模型 → PPO）

从基础模型到与人类对齐的模型的完整流水线。

复制以下检查清单：

RLHF 训练：
- [ ] 步骤 1：监督微调（SFT）
- [ ] 步骤 2：训练奖励模型
- [ ] 步骤 3：PPO 强化学习
- [ ] 步骤 4：评估对齐后的模型

步骤 1：监督微调

在指令遵循数据上训练基础模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset

# 加载模型
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")

# 加载指令数据集
dataset = load_dataset("trl-lib/Capybara", split="train")

# 配置训练参数
training_args = SFTConfig(
    output_dir="Qwen2.5-0.5B-SFT",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-5,
    logging_steps=10,
    save_strategy="epoch"
)

# 训练
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()
trainer.save_model()

步骤 2：训练奖励模型

训练模型以预测人类偏好：

from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig

# 以 SFT 模型为基础
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen2.5-0.5B-SFT",
    num_labels=1  # 单一奖励分数
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")

# 加载偏好数据（chosen/rejected 对）
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# 配置训练参数
training_args = RewardConfig(
    output_dir="Qwen2.5-0.5B-Reward",
    per_device_train_batch_size=2,
    num_train_epochs=1,
    learning_rate=1e-5
)

# 训练奖励模型
trainer = RewardTrainer(
    model=model,
    args=training_args,
    processing_class=tokenizer,
    train_dataset=dataset
)
trainer.train()
trainer.save_model()

步骤 3：PPO 强化学习

使用奖励模型优化策略：

python -m trl.scripts.ppo \
    --model_name_or_path Qwen2.5-0.5B-SFT \
    --reward_model_path Qwen2.5-0.5B-Reward \
    --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
    --output_dir Qwen2.5-0.5B-PPO \
    --learning_rate 3e-6 \
    --per_device_train_batch_size 64 \
    --total_episodes 10000

步骤 4：评估

from transformers import pipeline

# 加载对齐后的模型
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")

# 测试
prompt = "向一个10岁的孩子解释量子计算"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)

工作流 2：使用 DPO 进行简单偏好对齐

无需奖励模型，直接通过偏好对齐模型。

复制以下清单：

DPO 训练：
- [ ] 步骤 1：准备偏好数据集
- [ ] 步骤 2：配置 DPO
- [ ] 步骤 3：使用 DPOTrainer 训练
- [ ] 步骤 4：评估对齐效果

步骤 1：准备偏好数据集

数据集格式：

{
  "prompt": "法国的首都是哪里？",
  "chosen": "法国的首都是巴黎。",
  "rejected": "我不知道。"
}

加载数据集：

from datasets import load_dataset

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# 或者加载你自己的数据集
# dataset = load_dataset("json", data_files="preferences.json")

步骤 2：配置 DPO

from trl import DPOConfig

config = DPOConfig(
    output_dir="Qwen2.5-0.5B-DPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=5e-7,
    beta=0.1,  # KL 惩罚强度
    max_prompt_length=512,
    max_length=1024,
    logging_steps=10
)

步骤 3：使用 DPOTrainer 训练

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")

trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=dataset,
    processing_class=tokenizer
)

trainer.train()
trainer.save_model()

CLI 替代方案：

trl dpo \
    --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
    --dataset_name argilla/Capybara-Preferences \
    --output_dir Qwen2.5-0.5B-DPO \
    --per_device_train_batch_size 4 \
    --learning_rate 5e-7 \
    --beta 0.1

工作流 3：使用 GRPO 进行内存高效的在线强化学习

以最小内存消耗进行强化学习训练。

关于 GRPO 的深入指导——奖励函数设计、关键训练洞察（损失行为、模式崩溃、调优）以及高级多阶段模式——请参阅 references/grpo-training.md。一个可用于生产环境的训练脚本位于 templates/basic_grpo_training.py。复制以下清单：

GRPO 训练：
- [ ] 步骤 1：定义奖励函数
- [ ] 步骤 2：配置 GRPO
- [ ] 步骤 3：使用 GRPOTrainer 进行训练

步骤 1：定义奖励函数

def reward_function(completions, **kwargs):
    """
    Compute rewards for completions.

    Args:
        completions: List of generated texts

    Returns:
        List of reward scores (floats)
    """
    rewards = []
    for completion in completions:
        # 示例：基于长度和独特单词的奖励
        score = len(completion.split())  # 偏好较长的回复
        score += len(set(completion.lower().split()))  # 奖励独特单词
        rewards.append(score)
    return rewards

或者使用奖励模型：

from transformers import pipeline

reward_model = pipeline("text-classification", model="reward-model-path")

def reward_from_model(completions, prompts, **kwargs):
    # 合并 prompt + completion
    full_texts = [p + c for p, c in zip(prompts, completions)]
    # 获取奖励分数
    results = reward_model(full_texts)
    return [r["score"] for r in results]

步骤 2：配置 GRPO

from trl import GRPOConfig

config = GRPOConfig(
    output_dir="Qwen2-GRPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=1e-5,
    num_generations=4,  # 每个 prompt 生成 4 个补全
    max_new_tokens=128
)

步骤 3：使用 GRPOTrainer 进行训练

from datasets import load_dataset
from trl import GRPOTrainer

# 加载只包含 prompt 的数据集
dataset = load_dataset("trl-lib/tldr", split="train")

trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_function,  # 你的奖励函数
    args=config,
    train_dataset=dataset
)

trainer.train()

CLI：

trl grpo \
    --model_name_or_path Qwen/Qwen2-0.5B-Instruct \
    --dataset_name trl-lib/tldr \
    --output_dir Qwen2-GRPO \
    --num_generations 4

何时使用 vs 替代方案

TRL 适用于以下场景：

需要将模型与人类偏好对齐
拥有偏好数据（选择/拒绝配对）
想要使用强化学习（PPO、GRPO）
需要训练奖励模型
进行 RLHF（完整流程）

方法选择：

SFT：有 prompt-completion 配对，想要基本的指令遵循能力
DPO：有偏好数据，想要简单的对齐（无需奖励模型）
PPO：有奖励模型，需要对 RL 进行最大控制
GRPO：内存受限，想要在线 RL
奖励模型：构建 RLHF 流程，需要对生成结果进行评分

备选方案：

HuggingFace Trainer：不带 RL 的基础微调
Axolotl：基于 YAML 的训练配置
LitGPT：教学用，最小化微调
Unsloth：快速 LoRA 训练

常见问题

问题：DPO 训练时 OOM（内存溢出）

减小 batch size 和序列长度：

config = DPOConfig(
    per_device_train_batch_size=1,  # 从 4 减小
    max_length=512,  # 从 1024 减小
    gradient_accumulation_steps=8  # 维持有效 batch
)

或使用梯度检查点（gradient checkpointing）：

model.gradient_checkpointing_enable()

问题：对齐质量差

调整 beta 参数：

# 更高的 beta 值 = 更保守（更接近参考模型）
config = DPOConfig(beta=0.5)  # 默认 0.1

# 更低的 beta 值 = 更激进的对齐
config = DPOConfig(beta=0.01)

问题：奖励模型没有学习

检查损失类型和学习率：

config = RewardConfig(
    learning_rate=1e-5,  # 尝试不同的学习率
    num_train_epochs=3  # 训练更长时间
)

确保偏好数据集中有明确的胜出者：

# 验证数据集
print(dataset[0])
# 应确保 chosen 明显优于 rejected

问题：PPO 训练不稳定

调整 KL 系数：

config = PPOConfig(
    kl_coef=0.1,  # 从 0.05 增大
    cliprange=0.1  # 从 0.2 减小
)

高级主题

SFT 训练指南：有关数据集格式、对话模板、打包策略和多 GPU 训练的详细信息，请参阅 references/sft-training.md。

DPO 变体：有关 IPO、cDPO、RPO 及其他 DPO 损失函数及推荐超参数的详细信息，请参阅 references/dpo-variants.md。

奖励建模：有关结果奖励与过程奖励、Bradley-Terry 损失以及奖励模型评估的详细信息，请参阅 references/reward-modeling.md。

在线强化学习方法：有关 PPO、GRPO、RLOO 和 OnlineDPO 的详细配置，请参阅 references/online-rl.md。

GRPO 深入解析：有关专家级 GRPO 模式的详细信息——奖励函数设计哲学、训练洞见（为什么损失升高、模式坍缩检测）、超参数调优、多阶段训练和故障排除，请参阅 references/grpo-training.md。生产就绪模板在 templates/basic_grpo_training.py 中。

硬件要求

GPU：NVIDIA（需要 CUDA）
显存：取决于模型和方法
- SFT 7B：16GB（使用 LoRA）
- DPO 7B：24GB（存储参考模型）
- PPO 7B：40GB（策略模型+奖励模型）
- GRPO 7B：24GB（内存效率更高）
多 GPU：通过 accelerate 支持
混合精度：推荐 BF16（A100/H100）

内存优化：

对所有方法使用 LoRA/QLoRA
启用梯度检查点
使用较小的批次大小配合梯度累积

参考资料

Docs: https://huggingface.co/docs/trl/
GitHub: https://github.com/huggingface/trl
论文：
- "Training language models to follow instructions with human feedback" (InstructGPT, 2022)
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (DPO, 2023)
- "Group Relative Policy Optimization" (GRPO, 2024)
Examples: https://github.com/huggingface/trl/tree/main/examples/scripts

技能元数据​

参考：完整的 SKILL.md​

TRL - Transformer 强化学习

快速开始​

常见工作流​

工作流 1：完整的 RLHF 流水线（SFT → 奖励模型 → PPO）​

工作流 2：使用 DPO 进行简单偏好对齐​

工作流 3：使用 GRPO 进行内存高效的在线强化学习​

何时使用 vs 替代方案​

常见问题​

高级主题​

硬件要求​

参考资料​