「Prompt Augmentation Scales up GRPO」:多様なテンプレートによる数理推論RLの安定化

Tech

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証)です。

「Prompt Augmentation Scales up GRPO」:多様なテンプレートによる数理推論RLの安定化

【要点サマリ】

DeepSeek-R1で脚光を浴びたGRPOにおいて、推論テンプレートの単一性が引き起こす「報酬ハッキング」と「訓練の不安定性」を改善する手法。

  • 解決した課題: 特定の書式(CoT等)への過学習による、推論性能のプラトー(停滞)と汎化性能の低下。

  • 改善指標: 数学ベンチマーク(MATH/GSM8K)において、従来のGRPO比で収束速度が約1.4倍向上、精度が3〜5%向上。

  • 核心技術: 10〜50種類以上の推論指示テンプレートを動的に適用し、モデルの推論パスに頑健性を付与。


【背景と最新動向】

2025年初頭、DeepSeek-V3/R1の登場により、GRPO (Group Relative Policy Optimization) は強化学習(RL)の標準的な選択肢となりました。従来のPPO(Proximal Policy Optimization)が価値関数(Critic)モデルを必要とし膨大なVRAMを消費するのに対し、GRPOは同一プロンプトから生成された「グループ内」の相対的な報酬比較で学習するため、計算リソースを大幅に節約できます。

しかし、直近の動向(2025年2月時点)では、GRPOにおいて「モデルが特定の思考フォーマットをなぞるだけで、論理的思考を放棄して報酬を得る」という報酬ハッキングが課題視されています。本論文は、この脆弱性を「プロンプトの多様化(Augmentation)」によって打破し、スケーリング則をより高効率に働かせることを提案しています。


【アーキテクチャ・仕組み】

提案手法は、従来の単一プロンプトによるRLループを拡張し、入力に対して複数の「推論指示テンプレート」をランダムに適用します。

graph TD
    A["Input Question"] --> B{"Prompt Augmenter"}
    B -->|Template 1| C1["Inference Group 1"]
    B -->|Template 2| C2["Inference Group 2"]
    B -->|Template N| Cn["Inference Group N"]
    C1 & C2 & Cn --> D["Reward Engine: Format + Correctness"]
    D --> E["Group Relative Advantage Calculation"]
    E --> F["Policy Update: GRPO Loss"]
    F -->|Improved Policy| A

目的関数(GRPO Loss)の定式化

GRPOの損失関数 $L_{GRPO}$ は、価値関数なしで次のように定義されます。

$$ J_{GRPO}(\theta) = E_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_{\theta_{old}}(O|q, T)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(o_i|q, T_j)}{\pi_{\theta_{old}}(o_i|q, T_j)} \hat{A}_i, \text{clip} \dots \right) \right] $$

ここで、$T_j$ はランダムに選択されたテンプレートを指します。多様な $T$ を通じて利得(Advantage) $\hat{A}_i$ を計算することで、特定の文言に依存しない「本質的な解法の探索」を促します。


【実装イメージ】

以下は、多様なテンプレートを適用してGRPOの訓練バッチを構成する際の擬似コードです。

import random

# 多様な推論テンプレートの定義

INFERENCE_TEMPLATES = [
    "Question: {q}\nThink step-by-step and provide the answer.",
    "Analyze the following problem: {q}\nOutput your reasoning process in detail.",
    "Solve this: {q}\nReasoning: <thought>...",
    "User: {q}\nAssistant: Let's break this down logically."
]

def get_grpo_batch(question, model, num_groups=8):

    # テンプレートをランダムに選択

    template = random.choice(INFERENCE_TEMPLATES)
    prompt = template.format(q=question)

    # 同一プロンプトから複数の出力を生成(Group Generation)

    outputs = model.generate(prompt, n=num_groups, temperature=0.9)

    # 報酬計算(正誤判定 + フォーマットチェック)

    rewards = [calculate_reward(out) for out in outputs]

    # グループ内での相対的な利得(Advantage)を算出

    mean_r = sum(rewards) / len(rewards)
    std_r = compute_std(rewards)
    advantages = [(r - mean_r) / (std_r + 1e-8) for r in rewards]

    return prompt, outputs, advantages

【実験結果と考察】

数学ドメインにおける、単一テンプレート(Baseline GRPO)と提案手法(Augmented GRPO)の比較。

指標 Baseline GRPO Augmented GRPO 改善率
MATH Accuracy 48.2% 53.5% +11.0%
GSM8K Accuracy 82.1% 85.9% +4.6%
Training Stability (Var) 0.12 0.04 -66.7%
Inference Latency 1.0x 1.0x 同等

考察: テンプレートの多様化により、モデルは「特定の記号(例:####)を書けば報酬がもらえる」といった近視的な学習から脱却し、問題の構造を捉えるようになります。特に、分散(Variance)の低下は、強化学習において極めて重要な「訓練の再現性」に寄与しています。


【限界と今後の展望】

  • 現在の制約: テンプレート自体の質に依存する部分があり、あまりに難解なテンプレートを混ぜると学習が発散するリスクがあります(Negative Transfer)。

  • 今後の展望: テンプレートを固定せず、モデル自身の能力に応じて最適な指示文を生成・選択する「Self-Evolving Templates」への進化が予想されます。また、コード生成領域への応用も期待されています。


参考文献

  • [1] DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948 (2025).

  • [2] Shao, Z., et al. “DeepSeek-V3 Technical Report.” (2024).

  • [3] “Prompt Augmentation Scales up GRPO.” (arXiv preprint, 2025年2月確認の最新技術動向に基づく).

  • [4] Schulman, J., et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347 (2017).

ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました