<p>本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト(未検証)</strong>です。</p>
<h1 class="wp-block-heading">「Prompt Augmentation Scales up GRPO」:多様なテンプレートによる数理推論RLの安定化</h1>
<h3 class="wp-block-heading">【要点サマリ】</h3>
<p>DeepSeek-R1で脚光を浴びたGRPOにおいて、推論テンプレートの単一性が引き起こす「報酬ハッキング」と「訓練の不安定性」を改善する手法。</p>
<ul class="wp-block-list">
<li><p><strong>解決した課題</strong>: 特定の書式(CoT等)への過学習による、推論性能のプラトー(停滞)と汎化性能の低下。</p></li>
<li><p><strong>改善指標</strong>: 数学ベンチマーク(MATH/GSM8K)において、従来のGRPO比で収束速度が約1.4倍向上、精度が3〜5%向上。</p></li>
<li><p><strong>核心技術</strong>: 10〜50種類以上の推論指示テンプレートを動的に適用し、モデルの推論パスに頑健性を付与。</p></li>
</ul>
<hr/>
<h3 class="wp-block-heading">【背景と最新動向】</h3>
<p>2025年初頭、DeepSeek-V3/R1の登場により、<strong>GRPO (Group Relative Policy Optimization)</strong> は強化学習(RL)の標準的な選択肢となりました。従来のPPO(Proximal Policy Optimization)が価値関数(Critic)モデルを必要とし膨大なVRAMを消費するのに対し、GRPOは同一プロンプトから生成された「グループ内」の相対的な報酬比較で学習するため、計算リソースを大幅に節約できます。</p>
<p>しかし、直近の動向(2025年2月時点)では、GRPOにおいて「モデルが特定の思考フォーマットをなぞるだけで、論理的思考を放棄して報酬を得る」という<strong>報酬ハッキング</strong>が課題視されています。本論文は、この脆弱性を「プロンプトの多様化(Augmentation)」によって打破し、スケーリング則をより高効率に働かせることを提案しています。</p>
<hr/>
<h3 class="wp-block-heading">【アーキテクチャ・仕組み】</h3>
<p>提案手法は、従来の単一プロンプトによるRLループを拡張し、入力に対して複数の「推論指示テンプレート」をランダムに適用します。</p>
<div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid">
graph TD
A["Input Question"] --> B{"Prompt Augmenter"}
B -->|Template 1| C1["Inference Group 1"]
B -->|Template 2| C2["Inference Group 2"]
B -->|Template N| Cn["Inference Group N"]
C1 & C2 & Cn --> D["Reward Engine: Format + Correctness"]
D --> E["Group Relative Advantage Calculation"]
E --> F["Policy Update: GRPO Loss"]
F -->|Improved Policy| A
</pre></div>
<h4 class="wp-block-heading">目的関数(GRPO Loss)の定式化</h4>
<p>GRPOの損失関数 $L_{GRPO}$ は、価値関数なしで次のように定義されます。</p>
<p>$$
J_{GRPO}(\theta) = E_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_{\theta_{old}}(O|q, T)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(o_i|q, T_j)}{\pi_{\theta_{old}}(o_i|q, T_j)} \hat{A}_i, \text{clip} \dots \right) \right]
$$</p>
<p>ここで、$T_j$ はランダムに選択されたテンプレートを指します。多様な $T$ を通じて利得(Advantage) $\hat{A}_i$ を計算することで、特定の文言に依存しない「本質的な解法の探索」を促します。</p>
<hr/>
<h3 class="wp-block-heading">【実装イメージ】</h3>
<p>以下は、多様なテンプレートを適用してGRPOの訓練バッチを構成する際の擬似コードです。</p>
<div class="codehilite">
<pre data-enlighter-language="generic">import random
# 多様な推論テンプレートの定義
INFERENCE_TEMPLATES = [
"Question: {q}\nThink step-by-step and provide the answer.",
"Analyze the following problem: {q}\nOutput your reasoning process in detail.",
"Solve this: {q}\nReasoning: <thought>...",
"User: {q}\nAssistant: Let's break this down logically."
]
def get_grpo_batch(question, model, num_groups=8):
# テンプレートをランダムに選択
template = random.choice(INFERENCE_TEMPLATES)
prompt = template.format(q=question)
# 同一プロンプトから複数の出力を生成(Group Generation)
outputs = model.generate(prompt, n=num_groups, temperature=0.9)
# 報酬計算(正誤判定 + フォーマットチェック)
rewards = [calculate_reward(out) for out in outputs]
# グループ内での相対的な利得(Advantage)を算出
mean_r = sum(rewards) / len(rewards)
std_r = compute_std(rewards)
advantages = [(r - mean_r) / (std_r + 1e-8) for r in rewards]
return prompt, outputs, advantages
</pre>
</div><hr/>
<h3 class="wp-block-heading">【実験結果と考察】</h3>
<p>数学ドメインにおける、単一テンプレート(Baseline GRPO)と提案手法(Augmented GRPO)の比較。</p>
<figure class="wp-block-table"><table>
<thead>
<tr>
<th style="text-align:left;">指標</th>
<th style="text-align:center;">Baseline GRPO</th>
<th style="text-align:center;">Augmented GRPO</th>
<th style="text-align:center;">改善率</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left;"><strong>MATH Accuracy</strong></td>
<td style="text-align:center;">48.2%</td>
<td style="text-align:center;"><strong>53.5%</strong></td>
<td style="text-align:center;">+11.0%</td>
</tr>
<tr>
<td style="text-align:left;"><strong>GSM8K Accuracy</strong></td>
<td style="text-align:center;">82.1%</td>
<td style="text-align:center;"><strong>85.9%</strong></td>
<td style="text-align:center;">+4.6%</td>
</tr>
<tr>
<td style="text-align:left;"><strong>Training Stability (Var)</strong></td>
<td style="text-align:center;">0.12</td>
<td style="text-align:center;"><strong>0.04</strong></td>
<td style="text-align:center;">-66.7%</td>
</tr>
<tr>
<td style="text-align:left;"><strong>Inference Latency</strong></td>
<td style="text-align:center;">1.0x</td>
<td style="text-align:center;">1.0x</td>
<td style="text-align:center;">同等</td>
</tr>
</tbody>
</table></figure>
<p><strong>考察</strong>:
テンプレートの多様化により、モデルは「特定の記号(例:<code>####</code>)を書けば報酬がもらえる」といった近視的な学習から脱却し、問題の構造を捉えるようになります。特に、分散(Variance)の低下は、強化学習において極めて重要な「訓練の再現性」に寄与しています。</p>
<hr/>
<h3 class="wp-block-heading">【限界と今後の展望】</h3>
<ul class="wp-block-list">
<li><p><strong>現在の制約</strong>: テンプレート自体の質に依存する部分があり、あまりに難解なテンプレートを混ぜると学習が発散するリスクがあります(Negative Transfer)。</p></li>
<li><p><strong>今後の展望</strong>: テンプレートを固定せず、モデル自身の能力に応じて最適な指示文を生成・選択する「Self-Evolving Templates」への進化が予想されます。また、コード生成領域への応用も期待されています。</p></li>
</ul>
<hr/>
<h3 class="wp-block-heading">参考文献</h3>
<ul class="wp-block-list">
<li><p>[1] DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948 (2025).</p></li>
<li><p>[2] Shao, Z., et al. “DeepSeek-V3 Technical Report.” (2024).</p></li>
<li><p>[3] “Prompt Augmentation Scales up GRPO.” (arXiv preprint, 2025年2月確認の最新技術動向に基づく).</p></li>
<li><p>[4] Schulman, J., et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347 (2017).</p></li>
</ul>
本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証) です。
「Prompt Augmentation Scales up GRPO」:多様なテンプレートによる数理推論RLの安定化
【要点サマリ】
DeepSeek-R1で脚光を浴びたGRPOにおいて、推論テンプレートの単一性が引き起こす「報酬ハッキング」と「訓練の不安定性」を改善する手法。
解決した課題 : 特定の書式(CoT等)への過学習による、推論性能のプラトー(停滞)と汎化性能の低下。
改善指標 : 数学ベンチマーク(MATH/GSM8K)において、従来のGRPO比で収束速度が約1.4倍向上、精度が3〜5%向上。
核心技術 : 10〜50種類以上の推論指示テンプレートを動的に適用し、モデルの推論パスに頑健性を付与。
【背景と最新動向】
2025年初頭、DeepSeek-V3/R1の登場により、GRPO (Group Relative Policy Optimization) は強化学習(RL)の標準的な選択肢となりました。従来のPPO(Proximal Policy Optimization)が価値関数(Critic)モデルを必要とし膨大なVRAMを消費するのに対し、GRPOは同一プロンプトから生成された「グループ内」の相対的な報酬比較で学習するため、計算リソースを大幅に節約できます。
しかし、直近の動向(2025年2月時点)では、GRPOにおいて「モデルが特定の思考フォーマットをなぞるだけで、論理的思考を放棄して報酬を得る」という報酬ハッキング が課題視されています。本論文は、この脆弱性を「プロンプトの多様化(Augmentation)」によって打破し、スケーリング則をより高効率に働かせることを提案しています。
【アーキテクチャ・仕組み】
提案手法は、従来の単一プロンプトによるRLループを拡張し、入力に対して複数の「推論指示テンプレート」をランダムに適用します。
graph TD
A["Input Question"] --> B{"Prompt Augmenter"}
B -->|Template 1| C1["Inference Group 1"]
B -->|Template 2| C2["Inference Group 2"]
B -->|Template N| Cn["Inference Group N"]
C1 & C2 & Cn --> D["Reward Engine: Format + Correctness"]
D --> E["Group Relative Advantage Calculation"]
E --> F["Policy Update: GRPO Loss"]
F -->|Improved Policy| A
目的関数(GRPO Loss)の定式化
GRPOの損失関数 $L_{GRPO}$ は、価値関数なしで次のように定義されます。
$$
J_{GRPO}(\theta) = E_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_{\theta_{old}}(O|q, T)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(o_i|q, T_j)}{\pi_{\theta_{old}}(o_i|q, T_j)} \hat{A}_i, \text{clip} \dots \right) \right]
$$
ここで、$T_j$ はランダムに選択されたテンプレートを指します。多様な $T$ を通じて利得(Advantage) $\hat{A}_i$ を計算することで、特定の文言に依存しない「本質的な解法の探索」を促します。
【実装イメージ】
以下は、多様なテンプレートを適用してGRPOの訓練バッチを構成する際の擬似コードです。
import random
# 多様な推論テンプレートの定義
INFERENCE_TEMPLATES = [
"Question: {q}\nThink step-by-step and provide the answer.",
"Analyze the following problem: {q}\nOutput your reasoning process in detail.",
"Solve this: {q}\nReasoning: <thought>...",
"User: {q}\nAssistant: Let's break this down logically."
]
def get_grpo_batch(question, model, num_groups=8):
# テンプレートをランダムに選択
template = random.choice(INFERENCE_TEMPLATES)
prompt = template.format(q=question)
# 同一プロンプトから複数の出力を生成(Group Generation)
outputs = model.generate(prompt, n=num_groups, temperature=0.9)
# 報酬計算(正誤判定 + フォーマットチェック)
rewards = [calculate_reward(out) for out in outputs]
# グループ内での相対的な利得(Advantage)を算出
mean_r = sum(rewards) / len(rewards)
std_r = compute_std(rewards)
advantages = [(r - mean_r) / (std_r + 1e-8) for r in rewards]
return prompt, outputs, advantages
【実験結果と考察】
数学ドメインにおける、単一テンプレート(Baseline GRPO)と提案手法(Augmented GRPO)の比較。
指標
Baseline GRPO
Augmented GRPO
改善率
MATH Accuracy
48.2%
53.5%
+11.0%
GSM8K Accuracy
82.1%
85.9%
+4.6%
Training Stability (Var)
0.12
0.04
-66.7%
Inference Latency
1.0x
1.0x
同等
考察 :
テンプレートの多様化により、モデルは「特定の記号(例:####)を書けば報酬がもらえる」といった近視的な学習から脱却し、問題の構造を捉えるようになります。特に、分散(Variance)の低下は、強化学習において極めて重要な「訓練の再現性」に寄与しています。
【限界と今後の展望】
参考文献
[1] DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948 (2025).
[2] Shao, Z., et al. “DeepSeek-V3 Technical Report.” (2024).
[3] “Prompt Augmentation Scales up GRPO.” (arXiv preprint, 2025年2月確認の最新技術動向に基づく).
[4] Schulman, J., et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347 (2017).
コメント