<p>本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">「Prompt Augmentation Scales up GRPO」：多様なテンプレートによる数理推論RLの安定化</h1> <h3 class="wp-block-heading">【要点サマリ】</h3> <p>DeepSeek-R1で脚光を浴びたGRPOにおいて、推論テンプレートの単一性が引き起こす「報酬ハッキング」と「訓練の不安定性」を改善する手法。</p> <ul class="wp-block-list"> <li><p><strong>解決した課題</strong>: 特定の書式（CoT等）への過学習による、推論性能のプラトー（停滞）と汎化性能の低下。</p></li> <li><p><strong>改善指標</strong>: 数学ベンチマーク（MATH/GSM8K）において、従来のGRPO比で収束速度が約1.4倍向上、精度が3〜5%向上。</p></li> <li><p><strong>核心技術</strong>: 10〜50種類以上の推論指示テンプレートを動的に適用し、モデルの推論パスに頑健性を付与。</p></li> </ul> <hr/> <h3 class="wp-block-heading">【背景と最新動向】</h3> <p>2025年初頭、DeepSeek-V3/R1の登場により、<strong>GRPO (Group Relative Policy Optimization)</strong> は強化学習（RL）の標準的な選択肢となりました。従来のPPO（Proximal Policy Optimization）が価値関数（Critic）モデルを必要とし膨大なVRAMを消費するのに対し、GRPOは同一プロンプトから生成された「グループ内」の相対的な報酬比較で学習するため、計算リソースを大幅に節約できます。</p> <p>しかし、直近の動向（2025年2月時点）では、GRPOにおいて「モデルが特定の思考フォーマットをなぞるだけで、論理的思考を放棄して報酬を得る」という<strong>報酬ハッキング</strong>が課題視されています。本論文は、この脆弱性を「プロンプトの多様化（Augmentation）」によって打破し、スケーリング則をより高効率に働かせることを提案しています。</p> <hr/> <h3 class="wp-block-heading">【アーキテクチャ・仕組み】</h3> <p>提案手法は、従来の単一プロンプトによるRLループを拡張し、入力に対して複数の「推論指示テンプレート」をランダムに適用します。</p> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["Input Question"] --> B{"Prompt Augmenter"} B -->|Template 1| C1["Inference Group 1"] B -->|Template 2| C2["Inference Group 2"] B -->|Template N| Cn["Inference Group N"] C1 & C2 & Cn --> D["Reward Engine: Format + Correctness"] D --> E["Group Relative Advantage Calculation"] E --> F["Policy Update: GRPO Loss"] F -->|Improved Policy| A </pre></div> <h4 class="wp-block-heading">目的関数（GRPO Loss）の定式化</h4> <p>GRPOの損失関数 $L_{GRPO}$ は、価値関数なしで次のように定義されます。</p> <p>$$ J_{GRPO}(\theta) = E_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_{\theta_{old}}(O|q, T)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(o_i|q, T_j)}{\pi_{\theta_{old}}(o_i|q, T_j)} \hat{A}_i, \text{clip} \dots \right) \right] $$</p> <p>ここで、$T_j$ はランダムに選択されたテンプレートを指します。多様な $T$ を通じて利得（Advantage） $\hat{A}_i$ を計算することで、特定の文言に依存しない「本質的な解法の探索」を促します。</p> <hr/> <h3 class="wp-block-heading">【実装イメージ】</h3> <p>以下は、多様なテンプレートを適用してGRPOの訓練バッチを構成する際の擬似コードです。</p> <div class="codehilite"> <pre data-enlighter-language="generic">import random # 多様な推論テンプレートの定義 INFERENCE_TEMPLATES = [ "Question: {q}\nThink step-by-step and provide the answer.", "Analyze the following problem: {q}\nOutput your reasoning process in detail.", "Solve this: {q}\nReasoning: <thought>...", "User: {q}\nAssistant: Let's break this down logically." ] def get_grpo_batch(question, model, num_groups=8): # テンプレートをランダムに選択 template = random.choice(INFERENCE_TEMPLATES) prompt = template.format(q=question) # 同一プロンプトから複数の出力を生成（Group Generation） outputs = model.generate(prompt, n=num_groups, temperature=0.9) # 報酬計算（正誤判定 + フォーマットチェック） rewards = [calculate_reward(out) for out in outputs] # グループ内での相対的な利得（Advantage）を算出 mean_r = sum(rewards) / len(rewards) std_r = compute_std(rewards) advantages = [(r - mean_r) / (std_r + 1e-8) for r in rewards] return prompt, outputs, advantages </pre> </div><hr/> <h3 class="wp-block-heading">【実験結果と考察】</h3> <p>数学ドメインにおける、単一テンプレート（Baseline GRPO）と提案手法（Augmented GRPO）の比較。</p> <figure class="wp-block-table"><table> <thead> <tr> <th style="text-align:left;">指標</th> <th style="text-align:center;">Baseline GRPO</th> <th style="text-align:center;">Augmented GRPO</th> <th style="text-align:center;">改善率</th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"><strong>MATH Accuracy</strong></td> <td style="text-align:center;">48.2%</td> <td style="text-align:center;"><strong>53.5%</strong></td> <td style="text-align:center;">+11.0%</td> </tr> <tr> <td style="text-align:left;"><strong>GSM8K Accuracy</strong></td> <td style="text-align:center;">82.1%</td> <td style="text-align:center;"><strong>85.9%</strong></td> <td style="text-align:center;">+4.6%</td> </tr> <tr> <td style="text-align:left;"><strong>Training Stability (Var)</strong></td> <td style="text-align:center;">0.12</td> <td style="text-align:center;"><strong>0.04</strong></td> <td style="text-align:center;">-66.7%</td> </tr> <tr> <td style="text-align:left;"><strong>Inference Latency</strong></td> <td style="text-align:center;">1.0x</td> <td style="text-align:center;">1.0x</td> <td style="text-align:center;">同等</td> </tr> </tbody> </table></figure> <p><strong>考察</strong>: テンプレートの多様化により、モデルは「特定の記号（例：<code>####</code>）を書けば報酬がもらえる」といった近視的な学習から脱却し、問題の構造を捉えるようになります。特に、分散（Variance）の低下は、強化学習において極めて重要な「訓練の再現性」に寄与しています。</p> <hr/> <h3 class="wp-block-heading">【限界と今後の展望】</h3> <ul class="wp-block-list"> <li><p><strong>現在の制約</strong>: テンプレート自体の質に依存する部分があり、あまりに難解なテンプレートを混ぜると学習が発散するリスクがあります（Negative Transfer）。</p></li> <li><p><strong>今後の展望</strong>: テンプレートを固定せず、モデル自身の能力に応じて最適な指示文を生成・選択する「Self-Evolving Templates」への進化が予想されます。また、コード生成領域への応用も期待されています。</p></li> </ul> <hr/> <h3 class="wp-block-heading">参考文献</h3> <ul class="wp-block-list"> <li><p>[1] DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948 (2025).</p></li> <li><p>[2] Shao, Z., et al. “DeepSeek-V3 Technical Report.” (2024).</p></li> <li><p>[3] “Prompt Augmentation Scales up GRPO.” (arXiv preprint, 2025年2月確認の最新技術動向に基づく).</p></li> <li><p>[4] Schulman, J., et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347 (2017).</p></li> </ul>

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

「Prompt Augmentation Scales up GRPO」：多様なテンプレートによる数理推論RLの安定化

【要点サマリ】

DeepSeek-R1で脚光を浴びたGRPOにおいて、推論テンプレートの単一性が引き起こす「報酬ハッキング」と「訓練の不安定性」を改善する手法。

解決した課題: 特定の書式（CoT等）への過学習による、推論性能のプラトー（停滞）と汎化性能の低下。
改善指標: 数学ベンチマーク（MATH/GSM8K）において、従来のGRPO比で収束速度が約1.4倍向上、精度が3〜5%向上。
核心技術: 10〜50種類以上の推論指示テンプレートを動的に適用し、モデルの推論パスに頑健性を付与。

【背景と最新動向】

2025年初頭、DeepSeek-V3/R1の登場により、GRPO (Group Relative Policy Optimization) は強化学習（RL）の標準的な選択肢となりました。従来のPPO（Proximal Policy Optimization）が価値関数（Critic）モデルを必要とし膨大なVRAMを消費するのに対し、GRPOは同一プロンプトから生成された「グループ内」の相対的な報酬比較で学習するため、計算リソースを大幅に節約できます。

しかし、直近の動向（2025年2月時点）では、GRPOにおいて「モデルが特定の思考フォーマットをなぞるだけで、論理的思考を放棄して報酬を得る」という報酬ハッキングが課題視されています。本論文は、この脆弱性を「プロンプトの多様化（Augmentation）」によって打破し、スケーリング則をより高効率に働かせることを提案しています。

【アーキテクチャ・仕組み】

提案手法は、従来の単一プロンプトによるRLループを拡張し、入力に対して複数の「推論指示テンプレート」をランダムに適用します。

graph TD
    A["Input Question"] --> B{"Prompt Augmenter"}
    B -->|Template 1| C1["Inference Group 1"]
    B -->|Template 2| C2["Inference Group 2"]
    B -->|Template N| Cn["Inference Group N"]
    C1 & C2 & Cn --> D["Reward Engine: Format + Correctness"]
    D --> E["Group Relative Advantage Calculation"]
    E --> F["Policy Update: GRPO Loss"]
    F -->|Improved Policy| A

目的関数（GRPO Loss）の定式化

GRPOの損失関数 $L_{GRPO}$ は、価値関数なしで次のように定義されます。

$$ J_{GRPO}(\theta) = E_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_{\theta_{old}}(O|q, T)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(o_i|q, T_j)}{\pi_{\theta_{old}}(o_i|q, T_j)} \hat{A}_i, \text{clip} \dots \right) \right] $$

ここで、$T_j$ はランダムに選択されたテンプレートを指します。多様な $T$ を通じて利得（Advantage） $\hat{A}_i$ を計算することで、特定の文言に依存しない「本質的な解法の探索」を促します。

【実装イメージ】

以下は、多様なテンプレートを適用してGRPOの訓練バッチを構成する際の擬似コードです。

import random

# 多様な推論テンプレートの定義

INFERENCE_TEMPLATES = [
    "Question: {q}\nThink step-by-step and provide the answer.",
    "Analyze the following problem: {q}\nOutput your reasoning process in detail.",
    "Solve this: {q}\nReasoning: <thought>...",
    "User: {q}\nAssistant: Let's break this down logically."
]

def get_grpo_batch(question, model, num_groups=8):

    # テンプレートをランダムに選択

    template = random.choice(INFERENCE_TEMPLATES)
    prompt = template.format(q=question)

    # 同一プロンプトから複数の出力を生成（Group Generation）

    outputs = model.generate(prompt, n=num_groups, temperature=0.9)

    # 報酬計算（正誤判定 + フォーマットチェック）

    rewards = [calculate_reward(out) for out in outputs]

    # グループ内での相対的な利得（Advantage）を算出

    mean_r = sum(rewards) / len(rewards)
    std_r = compute_std(rewards)
    advantages = [(r - mean_r) / (std_r + 1e-8) for r in rewards]

    return prompt, outputs, advantages

【実験結果と考察】

数学ドメインにおける、単一テンプレート（Baseline GRPO）と提案手法（Augmented GRPO）の比較。

指標	Baseline GRPO	Augmented GRPO	改善率
MATH Accuracy	48.2%	53.5%	+11.0%
GSM8K Accuracy	82.1%	85.9%	+4.6%
Training Stability (Var)	0.12	0.04	-66.7%
Inference Latency	1.0x	1.0x	同等

考察: テンプレートの多様化により、モデルは「特定の記号（例：####）を書けば報酬がもらえる」といった近視的な学習から脱却し、問題の構造を捉えるようになります。特に、分散（Variance）の低下は、強化学習において極めて重要な「訓練の再現性」に寄与しています。

【限界と今後の展望】

現在の制約: テンプレート自体の質に依存する部分があり、あまりに難解なテンプレートを混ぜると学習が発散するリスクがあります（Negative Transfer）。
今後の展望: テンプレートを固定せず、モデル自身の能力に応じて最適な指示文を生成・選択する「Self-Evolving Templates」への進化が予想されます。また、コード生成領域への応用も期待されています。

参考文献

[1] DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948 (2025).
[2] Shao, Z., et al. “DeepSeek-V3 Technical Report.” (2024).
[3] “Prompt Augmentation Scales up GRPO.” (arXiv preprint, 2025年2月確認の最新技術動向に基づく).
[4] Schulman, J., et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347 (2017).

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。

「Prompt Augmentation Scales up GRPO」：多様なテンプレートによる数理推論RLの安定化

「Prompt Augmentation Scales up GRPO」：多様なテンプレートによる数理推論RLの安定化

【要点サマリ】

【背景と最新動向】

【アーキテクチャ・仕組み】

目的関数（GRPO Loss）の定式化

【実装イメージ】

【実験結果と考察】

【限界と今後の展望】

参考文献

いいね:

コメント

「Prompt Augmentation Scales up GRPO」：多様なテンプレートによる数理推論RLの安定化

【要点サマリ】

【背景と最新動向】

【アーキテクチャ・仕組み】

目的関数（GRPO Loss）の定式化

【実装イメージ】

【実験結果と考察】

【限界と今後の展望】

参考文献

共有:

いいね:

コメント