본문으로 건너뛰기

使用 Trl 进行微调

TRL: 用于 LLM RLHF 的 SFT、DPO、PPO、GRPO、奖励建模。

技能元数据

来源可选 — 使用 hermes skills install official/mlops/trl-fine-tuning 安装
路径optional-skills/mlops/training/trl-fine-tuning
版本1.0.0
作者Orchestra Research
许可MIT
依赖trltransformersdatasetspeftacceleratetorch
平台linux, macos, windows
标签Post-TrainingTRLReinforcement LearningFine-TuningSFTDPOPPOGRPORLHFPreference AlignmentHuggingFace

参考:完整的 SKILL.md

정보

下面是 Hermes 在触发技能时加载的完整技能定义。当技能激活时,Agent 将把以下内容视为指令。

TRL - Transformer 强化学习

快速开始

TRL 提供了用于使语言模型与人类偏好对齐的训练后方法。

安装

pip install trl transformers datasets peft accelerate

监督微调(指令微调):

from trl import SFTTrainer

trainer = SFTTrainer(
model="Qwen/Qwen2.5-0.5B",
train_dataset=dataset, # 提示-完成对
)
trainer.train()

DPO(偏好对齐):

from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=preference_dataset, # chosen/rejected 对
processing_class=tokenizer
)
trainer.train()

常见工作流

工作流 1:完整的 RLHF 流水线(SFT → 奖励模型 → PPO)

从基础模型到与人类对齐的模型的完整流水线。

复制以下检查清单:

RLHF 训练:
- [ ] 步骤 1:监督微调(SFT)
- [ ] 步骤 2:训练奖励模型
- [ ] 步骤 3:PPO 强化学习
- [ ] 步骤 4:评估对齐后的模型

步骤 1:监督微调

在指令遵循数据上训练基础模型:

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset

# 加载模型
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")

# 加载指令数据集
dataset = load_dataset("trl-lib/Capybara", split="train")

# 配置训练参数
training_args = SFTConfig(
output_dir="Qwen2.5-0.5B-SFT",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=2e-5,
logging_steps=10,
save_strategy="epoch"
)

# 训练
trainer = SFTTrainer(
model=model,
args=training_args,
train_dataset=dataset,
tokenizer=tokenizer
)
trainer.train()
trainer.save_model()

步骤 2:训练奖励模型

训练模型以预测人类偏好:

from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig

# 以 SFT 模型为基础
model = AutoModelForSequenceClassification.from_pretrained(
"Qwen2.5-0.5B-SFT",
num_labels=1 # 单一奖励分数
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")

# 加载偏好数据(chosen/rejected 对)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# 配置训练参数
training_args = RewardConfig(
output_dir="Qwen2.5-0.5B-Reward",
per_device_train_batch_size=2,
num_train_epochs=1,
learning_rate=1e-5
)

# 训练奖励模型
trainer = RewardTrainer(
model=model,
args=training_args,
processing_class=tokenizer,
train_dataset=dataset
)
trainer.train()
trainer.save_model()

步骤 3:PPO 强化学习

使用奖励模型优化策略:

python -m trl.scripts.ppo \
--model_name_or_path Qwen2.5-0.5B-SFT \
--reward_model_path Qwen2.5-0.5B-Reward \
--dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
--output_dir Qwen2.5-0.5B-PPO \
--learning_rate 3e-6 \
--per_device_train_batch_size 64 \
--total_episodes 10000

步骤 4:评估

from transformers import pipeline

# 加载对齐后的模型
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")

# 测试
prompt = "向一个10岁的孩子解释量子计算"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)

工作流 2:使用 DPO 进行简单偏好对齐

无需奖励模型,直接通过偏好对齐模型。

复制以下清单:

DPO 训练:
- [ ] 步骤 1:准备偏好数据集
- [ ] 步骤 2:配置 DPO
- [ ] 步骤 3:使用 DPOTrainer 训练
- [ ] 步骤 4:评估对齐效果

步骤 1:准备偏好数据集

数据集格式:

{
"prompt": "法国的首都是哪里?",
"chosen": "法国的首都是巴黎。",
"rejected": "我不知道。"
}

加载数据集:

from datasets import load_dataset

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# 或者加载你自己的数据集
# dataset = load_dataset("json", data_files="preferences.json")

步骤 2:配置 DPO

from trl import DPOConfig

config = DPOConfig(
output_dir="Qwen2.5-0.5B-DPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=5e-7,
beta=0.1, # KL 惩罚强度
max_prompt_length=512,
max_length=1024,
logging_steps=10
)

步骤 3:使用 DPOTrainer 训练

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")

trainer = DPOTrainer(
model=model,
args=config,
train_dataset=dataset,
processing_class=tokenizer
)

trainer.train()
trainer.save_model()

CLI 替代方案

trl dpo \
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--dataset_name argilla/Capybara-Preferences \
--output_dir Qwen2.5-0.5B-DPO \
--per_device_train_batch_size 4 \
--learning_rate 5e-7 \
--beta 0.1

工作流 3:使用 GRPO 进行内存高效的在线强化学习

以最小内存消耗进行强化学习训练。

关于 GRPO 的深入指导——奖励函数设计、关键训练洞察(损失行为、模式崩溃、调优)以及高级多阶段模式——请参阅 references/grpo-training.md。一个可用于生产环境的训练脚本位于 templates/basic_grpo_training.py。 复制以下清单:

GRPO 训练:
- [ ] 步骤 1:定义奖励函数
- [ ] 步骤 2:配置 GRPO
- [ ] 步骤 3:使用 GRPOTrainer 进行训练

步骤 1:定义奖励函数

def reward_function(completions, **kwargs):
"""
Compute rewards for completions.

Args:
completions: List of generated texts

Returns:
List of reward scores (floats)
"""
rewards = []
for completion in completions:
# 示例:基于长度和独特单词的奖励
score = len(completion.split()) # 偏好较长的回复
score += len(set(completion.lower().split())) # 奖励独特单词
rewards.append(score)
return rewards

或者使用奖励模型:

from transformers import pipeline

reward_model = pipeline("text-classification", model="reward-model-path")

def reward_from_model(completions, prompts, **kwargs):
# 合并 prompt + completion
full_texts = [p + c for p, c in zip(prompts, completions)]
# 获取奖励分数
results = reward_model(full_texts)
return [r["score"] for r in results]

步骤 2:配置 GRPO

from trl import GRPOConfig

config = GRPOConfig(
output_dir="Qwen2-GRPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=1e-5,
num_generations=4, # 每个 prompt 生成 4 个补全
max_new_tokens=128
)

步骤 3:使用 GRPOTrainer 进行训练

from datasets import load_dataset
from trl import GRPOTrainer

# 加载只包含 prompt 的数据集
dataset = load_dataset("trl-lib/tldr", split="train")

trainer = GRPOTrainer(
model="Qwen/Qwen2-0.5B-Instruct",
reward_funcs=reward_function, # 你的奖励函数
args=config,
train_dataset=dataset
)

trainer.train()

CLI

trl grpo \
--model_name_or_path Qwen/Qwen2-0.5B-Instruct \
--dataset_name trl-lib/tldr \
--output_dir Qwen2-GRPO \
--num_generations 4

何时使用 vs 替代方案

TRL 适用于以下场景:

  • 需要将模型与人类偏好对齐
  • 拥有偏好数据(选择/拒绝配对)
  • 想要使用强化学习(PPO、GRPO)
  • 需要训练奖励模型
  • 进行 RLHF(完整流程)

方法选择

  • SFT:有 prompt-completion 配对,想要基本的指令遵循能力
  • DPO:有偏好数据,想要简单的对齐(无需奖励模型)
  • PPO:有奖励模型,需要对 RL 进行最大控制
  • GRPO:内存受限,想要在线 RL
  • 奖励模型:构建 RLHF 流程,需要对生成结果进行评分

备选方案

  • HuggingFace Trainer:不带 RL 的基础微调
  • Axolotl:基于 YAML 的训练配置
  • LitGPT:教学用,最小化微调
  • Unsloth:快速 LoRA 训练

常见问题

问题:DPO 训练时 OOM(内存溢出)

减小 batch size 和序列长度:

config = DPOConfig(
per_device_train_batch_size=1, # 从 4 减小
max_length=512, # 从 1024 减小
gradient_accumulation_steps=8 # 维持有效 batch
)

或使用梯度检查点(gradient checkpointing):

model.gradient_checkpointing_enable()

问题:对齐质量差

调整 beta 参数:

# 更高的 beta 值 = 更保守(更接近参考模型)
config = DPOConfig(beta=0.5) # 默认 0.1

# 更低的 beta 值 = 更激进的对齐
config = DPOConfig(beta=0.01)

问题:奖励模型没有学习

检查损失类型和学习率:

config = RewardConfig(
learning_rate=1e-5, # 尝试不同的学习率
num_train_epochs=3 # 训练更长时间
)

确保偏好数据集中有明确的胜出者:

# 验证数据集
print(dataset[0])
# 应确保 chosen 明显优于 rejected

问题:PPO 训练不稳定

调整 KL 系数:

config = PPOConfig(
kl_coef=0.1, # 从 0.05 增大
cliprange=0.1 # 从 0.2 减小
)

高级主题

SFT 训练指南:有关数据集格式、对话模板、打包策略和多 GPU 训练的详细信息,请参阅 references/sft-training.md

DPO 变体:有关 IPO、cDPO、RPO 及其他 DPO 损失函数及推荐超参数的详细信息,请参阅 references/dpo-variants.md

奖励建模:有关结果奖励与过程奖励、Bradley-Terry 损失以及奖励模型评估的详细信息,请参阅 references/reward-modeling.md

在线强化学习方法:有关 PPO、GRPO、RLOO 和 OnlineDPO 的详细配置,请参阅 references/online-rl.md

GRPO 深入解析:有关专家级 GRPO 模式的详细信息——奖励函数设计哲学、训练洞见(为什么损失升高、模式坍缩检测)、超参数调优、多阶段训练和故障排除,请参阅 references/grpo-training.md。生产就绪模板在 templates/basic_grpo_training.py 中。

硬件要求

  • GPU:NVIDIA(需要 CUDA)
  • 显存:取决于模型和方法
    • SFT 7B:16GB(使用 LoRA)
    • DPO 7B:24GB(存储参考模型)
    • PPO 7B:40GB(策略模型+奖励模型)
    • GRPO 7B:24GB(内存效率更高)
  • 多 GPU:通过 accelerate 支持
  • 混合精度:推荐 BF16(A100/H100)

内存优化

  • 对所有方法使用 LoRA/QLoRA
  • 启用梯度检查点
  • 使用较小的批次大小配合梯度累积

参考资料