后训练流水线不是调参脚本：从数据契约到偏好评估

0. 核心观点

后训练不是一组临时脚本，也不是把 SFT、DPO、GRPO 等方法串起来跑一次。真正决定模型是否能进入生产的是数据契约、评估门禁和可回滚发布。没有这些工程约束，偏好数据、合成数据和奖励信号很容易把模型推向“看起来更会答、实际上更不稳”的方向。

本文的判断是：后训练流水线应像软件供应链一样管理，数据集、训练配置、评估集、模型产物和发布决策都必须可追踪。

1. 背景与问题定义

SFT 让模型模仿目标行为，偏好优化让模型在候选回答之间学习选择，合成数据扩大覆盖面。这些方法都有效，但共同依赖数据质量。坏的指令样本会强化错误任务边界；偏好对如果只奖励长答案，会鼓励啰嗦；合成数据如果没有过滤，会把 teacher model 的偏差复制到 student model。

2. 数据契约优先于训练算法

数据类型	必须字段	质量门禁
指令样本	task、input、ideal_output、domain、risk_level	去重、格式校验、敏感信息扫描
偏好对	prompt、chosen、rejected、preference_reason	chosen/rejected 差异有效、理由可解释
合成样本	generator、seed、judge、filter_version	采样分布、自动过滤、人审抽样
评估样本	capability、expected_behavior、failure_mode	与训练集隔离、版本冻结

如果没有契约，训练团队很难回答基本问题：这次提升来自哪些数据？是否污染了评估集？是否牺牲了安全拒答？是否对某个业务域退化？

3. 工程化设计

流水线可以分成五个阶段：数据摄取、数据审计、训练运行、评估门禁、模型发布。每个阶段都应生成不可变产物，并写入模型卡或发布记录。

run = {
    "base_model": "org/base-llm@sha256:...",
    "datasets": [
        {"name": "support-sft", "version": "2026-06-08", "hash": "..."},
        {"name": "preference-pairs", "version": "2026-06-08", "hash": "..."},
    ],
    "training": {"method": "sft_then_dpo", "config_hash": "..."},
    "evals": ["domain-regression-v12", "safety-refusal-v7"],
    "gate": {"min_win_rate": 0.54, "max_safety_regression": 0.01},
}

风险	常见根因	阻断门禁	证据文件
训练/评估污染	评估样本进入训练集	dataset hash join 去重	overlap_report.json
偏好奖励跑偏	chosen 只因更长被奖励	preference_reason 必填，人审抽样	preference_audit.csv
安全拒答退化	DPO 奖励过度迎合	safety regression 上限	safety_eval_diff.json
工具调用漂移	参数 schema 未冻结	JSON Schema 验证 + 回归集	tool_call_failures.jsonl

4. 最小可复现实验：数据契约先挡住坏样本

后训练流水线最容易被“先跑起来”带偏。下面这个最小校验脚本不训练模型，只验证样本契约：每条偏好数据必须有 prompt/chosen/rejected/preference_reason/risk_level，并拒绝明显的密钥形态。

import re
 
required = {"prompt", "chosen", "rejected", "preference_reason", "risk_level"}
secret_pattern = re.compile(r"(?i)(api[_-]?key|secret|token)\s*[:=]\s*['\"]?[A-Za-z0-9_\-]{16,}")
 
samples = [
    {"prompt": "生成发布说明", "chosen": "...", "rejected": "...", "preference_reason": "更准确", "risk_level": "low"},
    {"prompt": "debug token=abc1234567890SECRET", "chosen": "...", "rejected": "...", "risk_level": "high"},
]
 
for i, row in enumerate(samples):
    missing = required - row.keys()
    text = "\n".join(str(v) for v in row.values())
    if missing or secret_pattern.search(text):
        print(f"BLOCK sample={i} missing={missing}")

这一步很朴素，但价值很高：它把“数据能不能进入训练”变成可审计的工程门禁，而不是靠训练后评估再猜问题来自哪里。生产环境应把输出写成 dataset_contract_report.json，并把报告哈希写入模型发布记录。

后训练流水线不是调参脚本：从数据契约到偏好评估

0. 核心观点

1. 背景与问题定义

2. 数据契约优先于训练算法

3. 工程化设计

4. 最小可复现实验：数据契约先挡住坏样本

5. 评估门禁的设计

6. 风险与安全边界

结论

评论

相关文章

Agent 记忆的治理边界：不要把长期记忆当缓存