본문으로 건너뛰기

Evaluating Llms Harness

lm-eval-harness:基准测试 LLMs(MMLU、GSM8K 等)。

技能元数据

来源内置(默认安装)
路径skills/mlops/evaluation/lm-evaluation-harness
版本1.0.0
作者Orchestra Research
许可证MIT
依赖项lm-evaltransformersvllm
平台linux、macos
标签EvaluationLM Evaluation HarnessBenchmarkingMMLUHumanEvalGSM8KEleutherAIModel QualityAcademic BenchmarksIndustry Standard

参考:完整的 SKILL.md

정보

以下是在触发此技能时 Hermes 加载的完整技能定义。当技能激活时,Agent 会将其视为指令。

lm-evaluation-harness - LLM 基准测试

内部内容

跨 60 多个学术基准(MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)评估 LLMs。用于衡量模型质量、比较模型、报告学术结果或跟踪训练进度。EleutherAI、HuggingFace 和各大实验室采用的行业标准。支持 HuggingFace、vLLM、API。

快速开始

lm-evaluation-harness 使用标准提示和指标跨 60 多个学术基准评估 LLMs。

安装

pip install lm-eval

评估任意 HuggingFace 模型

lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf \
--tasks mmlu,gsm8k,hellaswag \
--device cuda:0 \
--batch_size 8

查看可用任务

lm_eval --tasks list

常见工作流程

工作流程 1:标准基准评估

在核心基准(MMLU、GSM8K、HumanEval)上评估模型。

复制以下检查清单:

基准评估:
- [ ] 步骤 1:选择基准套件
- [ ] 步骤 2:配置模型
- [ ] 步骤 3:运行评估
- [ ] 步骤 4:分析结果

步骤 1:选择基准套件

核心推理基准

  • MMLU(大规模多任务语言理解)——57 个学科,多项选择
  • GSM8K——小学数学应用题
  • HellaSwag——常识推理
  • TruthfulQA——诚实度与事实性
  • ARC(AI2 推理挑战)——科学问题

代码基准

  • HumanEval——Python 代码生成(164 个问题)
  • MBPP(基本 Python 问题)——Python 编码

标准套件(推荐用于模型发布):

--tasks mmlu,gsm8k,hellaswag,truthfulqa,arc_challenge

步骤 2:配置模型

HuggingFace 模型

lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf,dtype=bfloat16 \
--tasks mmlu \
--device cuda:0 \
--batch_size auto # 自动检测最佳批次大小

量化模型(4 位/8 位)

lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf,load_in_4bit=True \
--tasks mmlu \
--device cuda:0

自定义检查点

lm_eval --model hf \
--model_args pretrained=/path/to/my-model,tokenizer=/path/to/tokenizer \
--tasks mmlu \
--device cuda:0

第三步:运行评估

# 完整 MMLU 评估(57 个学科)
lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf \
--tasks mmlu \
--num_fewshot 5 \ # 5-shot 评估(标准)
--batch_size 8 \
--output_path results/ \
--log_samples # 保存单个预测结果

# 同时运行多个基准测试
lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf \
--tasks mmlu,gsm8k,hellaswag,truthfulqa,arc_challenge \
--num_fewshot 5 \
--batch_size 8 \
--output_path results/llama2-7b-eval.json

第四步:分析结果

结果保存到 results/llama2-7b-eval.json

{
"results": {
"mmlu": {
"acc": 0.459,
"acc_stderr": 0.004
},
"gsm8k": {
"exact_match": 0.142,
"exact_match_stderr": 0.006
},
"hellaswag": {
"acc_norm": 0.765,
"acc_norm_stderr": 0.004
}
},
"config": {
"model": "hf",
"model_args": "pretrained=meta-llama/Llama-2-7b-hf",
"num_fewshot": 5
}
}

工作流 2:跟踪训练进度

在训练过程中评估检查点。

训练进度跟踪:
- [ ] 第一步:设置周期性评估
- [ ] 第二步:选择快速基准测试
- [ ] 第三步:自动化评估
- [ ] 第四步:绘制学习曲线

第一步:设置周期性评估

每隔 N 个训练步骤评估一次:

#!/bin/bash
# eval_checkpoint.sh

CHECKPOINT_DIR=$1
STEP=$2

lm_eval --model hf \
--model_args pretrained=$CHECKPOINT_DIR/checkpoint-$STEP \
--tasks gsm8k,hellaswag \
--num_fewshot 0 \ # 0-shot 以提高速度
--batch_size 16 \
--output_path results/step-$STEP.json

第二步:选择快速基准测试

适合频繁评估的快速基准测试:

  • HellaSwag:在 1 张 GPU 上约 10 分钟
  • GSM8K:约 5 分钟
  • PIQA:约 2 分钟

避免用于频繁评估(太慢):

  • MMLU:约 2 小时(57 个学科)
  • HumanEval:需要代码执行

第三步:自动化评估

集成到训练脚本中:

# 在训练循环中
if step % eval_interval == 0:
model.save_pretrained(f"checkpoints/step-{step}")

# 运行评估
os.system(f"./eval_checkpoint.sh checkpoints step-{step}")

或者使用 PyTorch Lightning 回调:

from pytorch_lightning import Callback

class EvalHarnessCallback(Callback):
def on_validation_epoch_end(self, trainer, pl_module):
step = trainer.global_step
checkpoint_path = f"checkpoints/step-{step}"

# 保存检查点
trainer.save_checkpoint(checkpoint_path)

# 运行 lm-eval
os.system(f"lm_eval --model hf --model_args pretrained={checkpoint_path} ...")

第四步:绘制学习曲线

import json
import matplotlib.pyplot as plt

# 加载所有结果
steps = []
mmlu_scores = []

for file in sorted(glob.glob("results/step-*.json")):
with open(file) as f:
data = json.load(f)
step = int(file.split("-")[1].split(".")[0])
steps.append(step)
mmlu_scores.append(data["results"]["mmlu"]["acc"])

# 绘图
plt.plot(steps, mmlu_scores)
plt.xlabel("训练步数")
plt.ylabel("MMLU 准确率")
plt.title("训练进度")
plt.savefig("training_curve.png")

工作流 3:比较多个模型

用于模型比较的基准测试套件。

模型比较:
- [ ] 步骤 1:定义模型列表
- [ ] 步骤 2:运行评估
- [ ] 步骤 3:生成比较表格

步骤 1:定义模型列表

# models.txt
meta-llama/Llama-2-7b-hf
meta-llama/Llama-2-13b-hf
mistralai/Mistral-7B-v0.1
microsoft/phi-2

步骤 2:运行评估

#!/bin/bash
# eval_all_models.sh

TASKS="mmlu,gsm8k,hellaswag,truthfulqa"

while read model; do
echo "Evaluating $model"

# 提取模型名称用于输出文件
model_name=$(echo $model | sed 's/\//-/g')

lm_eval --model hf \
--model_args pretrained=$model,dtype=bfloat16 \
--tasks $TASKS \
--num_fewshot 5 \
--batch_size auto \
--output_path results/$model_name.json

done < models.txt

步骤 3:生成比较表格

import json
import pandas as pd

models = [
"meta-llama-Llama-2-7b-hf",
"meta-llama-Llama-2-13b-hf",
"mistralai-Mistral-7B-v0.1",
"microsoft-phi-2"
]

tasks = ["mmlu", "gsm8k", "hellaswag", "truthfulqa"]

results = []
for model in models:
with open(f"results/{model}.json") as f:
data = json.load(f)
row = {"Model": model.replace("-", "/")}
for task in tasks:
# 获取每个任务的主要指标
metrics = data["results"][task]
if "acc" in metrics:
row[task.upper()] = f"{metrics['acc']:.3f}"
elif "exact_match" in metrics:
row[task.upper()] = f"{metrics['exact_match']:.3f}"
results.append(row)

df = pd.DataFrame(results)
print(df.to_markdown(index=False))

输出:

| Model                  | MMLU  | GSM8K | HELLASWAG | TRUTHFULQA |
|------------------------|-------|-------|-----------|------------|
| meta-llama/Llama-2-7b | 0.459 | 0.142 | 0.765 | 0.391 |
| meta-llama/Llama-2-13b | 0.549 | 0.287 | 0.801 | 0.430 |
| mistralai/Mistral-7B | 0.626 | 0.395 | 0.812 | 0.428 |
| microsoft/phi-2 | 0.560 | 0.613 | 0.682 | 0.447 |

工作流 4:使用 vLLM 进行评估(更快的推理)

使用 vLLM 后端可将评估速度提升 5-10 倍。

vLLM 评估:
- [ ] 步骤 1:安装 vLLM
- [ ] 步骤 2:配置 vLLM 后端
- [ ] 步骤 3:运行评估

步骤 1:安装 vLLM

pip install vllm

步骤 2:配置 vLLM 后端

lm_eval --model vllm \
--model_args pretrained=meta-llama/Llama-2-7b-hf,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.8 \
--tasks mmlu \
--batch_size auto

步骤 3:运行评估

vLLM 比标准 HuggingFace 快 5-10 倍:

# 标准 HF:在 7B 模型上运行 MMLU 约需 2 小时
lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf \
--tasks mmlu \
--batch_size 8

# vLLM:在 7B 模型上运行 MMLU 约需 15-20 分钟
lm_eval --model vllm \
--model_args pretrained=meta-llama/Llama-2-7b-hf,tensor_parallel_size=2 \
--tasks mmlu \
--batch_size auto

何时使用 vs 替代方案

使用 lm-evaluation-harness 的场景:

  • 为学术论文进行模型基准测试
  • 比较模型在标准任务上的质量
  • 追踪训练进度
  • 报告标准化指标(所有人使用相同的提示)
  • 需要可复现的评估

改用其他方案的场景:

  • HELM(斯坦福):更广泛的评估(公平性、效率、校准)
  • AlpacaEval:使用 LLM 裁判进行指令跟随评估
  • MT-Bench:对话式多轮评估
  • 自定义脚本:特定领域的评估

常见问题

问题:评估速度太慢

使用 vLLM 后端:

lm_eval --model vllm \
--model_args pretrained=model-name,tensor_parallel_size=2

或者减少 fewshot 示例数量:

--num_fewshot 0  # 替代 5

或者只评估 MMLU 的子集:

--tasks mmlu_stem  # 仅 STEM 科目

问题:内存不足

降低批处理大小:

--batch_size 1  # 或 --batch_size auto

使用量化:

--model_args pretrained=model-name,load_in_8bit=True

启用 CPU 卸载:

--model_args pretrained=model-name,device_map=auto,offload_folder=offload

问题:结果与报告不一致

检查 fewshot 数量:

--num_fewshot 5  # 大部分论文使用 5-shot

检查确切的任务名称:

--tasks mmlu  # 不是 mmlu_direct 或 mmlu_fewshot

确认模型和分词器匹配:

--model_args pretrained=model-name,tokenizer=same-model-name

问题:HumanEval 未执行代码

安装执行依赖:

pip install human-eval

启用代码执行:

lm_eval --model hf \
--model_args pretrained=model-name \
--tasks humaneval \
--allow_code_execution # HumanEval 需要该参数

高级主题

基准测试描述:详见 references/benchmark-guide.md,了解所有 60+ 个任务的详细说明、测量内容及解读。

自定义任务:详见 references/custom-tasks.md,了解如何创建特定领域的评估任务。

API 评估:详见 references/api-evaluation.md,了解如何评估 OpenAI、Anthropic 及其他 API 模型。

多 GPU 策略:详见 references/distributed-eval.md,了解数据并行和张量并行评估。

硬件要求

  • GPU:NVIDIA(CUDA 11.8+),也可在 CPU 运行(极慢)
  • VRAM
    • 7B 模型:16GB(bf16)或 8GB(8-bit)
    • 13B 模型:28GB(bf16)或 14GB(8-bit)
    • 70B 模型:需要多 GPU 或量化
  • 时间(7B 模型,单 A100):
    • HellaSwag:10 分钟
    • GSM8K:5 分钟
    • MMLU(完整):2 小时
    • HumanEval:20 分钟

资源