<p><meta/>
{
“expert_role”: “Prompt Engineering Specialist”,
“technique”: [“LLM-as-a-Judge”, “Chain-of-Thought (CoT)”, “Structured Rubrics”, “Form-Filling Pattern”],
“target_model”: “Gemini 1.5 Pro / GPT-4o”,
“version”: “1.1”
}
本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト(未検証)</strong>です。</p>
<h1 class="wp-block-heading">LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計</h1>
<h3 class="wp-block-heading">【ユースケース定義と課題】</h3>
<p>LLMによる生成物の品質(正確性、丁寧さ、安全性など)を別のLLMで自動評価する「LLM-as-a-judge」において、評価基準の曖昧さと根拠の欠如が課題です。本設計では、詳細なルーブリック(評価基準表)とフォーム形式の入力を強制することで、評価の客観性と再現性を担保します。</p>
<ul class="wp-block-list">
<li><p><strong>入力型</strong>:評価対象のテキスト、参照正解データ、評価ルーブリック</p></li>
<li><p><strong>出力型</strong>:構造化された評価レポート(Markdown形式、最終的にJSON抽出可能)</p></li>
</ul>
<h3 class="wp-block-heading">【プロンプト設計のループ】</h3>
<div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid">
graph TD
A["評価ルーブリックの定義"] --> B["評価フォームの構築"]
B --> C["評価実行とCoTによる思考抽出"]
C --> D["バイアス検知とスコアリング"]
D -->|不一致があれば| A
</pre></div>
<ol class="wp-block-list">
<li><p><strong>設計</strong>: 評価軸ごとに5段階の定義と言語化を行う。</p></li>
<li><p><strong>実行</strong>: プロンプトにFew-shotを組み込み、評価プロセスをシミュレーション。</p></li>
<li><p><strong>評価</strong>: 人間の評価結果とLLMの評価結果の相関(一致率)を確認。</p></li>
<li><p><strong>改善</strong>: 評価がブレるポイントに対し、制約条件を追加または定義を具体化。</p></li>
</ol>
<h3 class="wp-block-heading">【プロンプトの実装案】</h3>
<div class="codehilite">
<pre data-enlighter-language="generic"># Role
あなたは高品質なコンテンツ制作を支援する、プロの編集者かつ客観的な評価者です。
与えられた「評価対象の回答」を、「評価基準(ルーブリック)」に基づいて厳格に採点してください。
# Evaluation Rubric (採点基準)
- 5点 (Excellent): ユーザーの意図を完全に汲み取り、事実関係も完璧。追加の付加価値がある。
- 4点 (Good): ユーザーの意図を満たしており、重大な誤りはない。
- 3点 (Fair): 概ね正しいが、一部の情報が不足しているか、表現が不適切。
- 2点 (Poor): 重要な情報が欠落している、または誤解を招く表現がある。
- 1点 (Very Poor): 質問に答えていない、または致命的な誤情報が含まれる。
# Input Data
- ユーザーの質問: [質問内容を入力]
- 評価対象の回答: [LLMの回答を入力]
# Output Format (フォーム記入)
以下の形式に則って、一項目ずつ思考しながら記入してください。
1. 【分析】: 回答がユーザーの意図をどう解釈したか記述せよ。
2. 【事実確認】: 回答に含まれる事実の正確性を検証せよ。
3. 【評価根拠】: ルーブリックのどの基準に該当するか、具体的な理由を述べよ。
4. 【スコア】: 1〜5の数字のみで回答せよ。
</pre>
</div>
<h3 class="wp-block-heading">【評価指標と誤り分析】</h3>
<p>LLM-as-a-judgeにおける主な失敗パターンと対策を以下の表にまとめます。</p>
<figure class="wp-block-table"><table>
<thead>
<tr>
<th style="text-align:left;">失敗パターン</th>
<th style="text-align:left;">内容</th>
<th style="text-align:left;">対策</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left;"><strong>寛容バイアス</strong></td>
<td style="text-align:left;">どんな回答にも4〜5点を付けてしまう。</td>
<td style="text-align:left;">3点(平均)の基準を厳格に定義する。</td>
</tr>
<tr>
<td style="text-align:left;"><strong>根拠の捏造</strong></td>
<td style="text-align:left;">スコアを先に決め、後付けで理由を作る。</td>
<td style="text-align:left;">理由(CoT)をスコアより先に出力させる。</td>
</tr>
<tr>
<td style="text-align:left;"><strong>形式崩れ</strong></td>
<td style="text-align:left;">JSONや指定形式を無視して出力する。</td>
<td style="text-align:left;">出力形式を固定し、One-shot例示を追加。</td>
</tr>
<tr>
<td style="text-align:left;"><strong>位置バイアス</strong></td>
<td style="text-align:left;">複数の回答を比較する際、最初の方を好む。</td>
<td style="text-align:left;">回答の順番を入れ替えて2回評価させる。</td>
</tr>
</tbody>
</table></figure>
<h3 class="wp-block-heading">【改良後の最適プロンプト】</h3>
<p>分析結果に基づき、バイアスを抑制し精度を高めた最終プロンプトです。</p>
<div class="codehilite">
<pre data-enlighter-language="generic"># 指示
あなたは、AIの応答品質を測定する独立評価機関の査読官です。
以下の「評価対象の回答」を、提供された「評価ルーブリック」に照らし合わせ、ステップバイステップで評価してください。
# 評価基準: [正確性・論理的一貫性]
- 5: 欠点なし。論理が極めて明快で、証拠に基づいている。
- 4: ほぼ完璧。軽微な表現の改善余地があるのみ。
- 3: 合格点。主要な事実は正しいが、説明が不十分な箇所がある。
- 2: 不合格。論理の飛躍があるか、一部に虚偽が含まれる。
- 1: 致命的。全体が虚偽であるか、有害な内容を含む。
# 評価プロセス(以下の手順を遵守すること)
Step 1: 回答内容の要約
Step 2: ルーブリックの各項目との照合(事実関係のチェック)
Step 3: 減点項目の列挙(ある場合のみ)
Step 4: 最終スコアの算出
# 回答フォーム
## 1. 評価プロセスの記録
(ここにStep 1~3の思考プロセスを記述)
## 2. 最終判定
- 評価軸: 正確性・論理的一貫性
- 理由: (一言で要約)
- スコア: [1-5の数値]
---
## ユーザーの質問:
{{user_query}}
## 評価対象の回答:
{{assistant_response}}
</pre>
</div>
<h3 class="wp-block-heading">【まとめ】</h3>
<p>実務でLLM-as-a-judgeを運用するための3つの鉄則:</p>
<ol class="wp-block-list">
<li><p><strong>「思考の外部化」を強制する</strong>: スコアを出す前に必ず「根拠(CoT)」を書かせることで、評価の整合性が飛躍的に高まります。</p></li>
<li><p><strong>5段階評価の「3点」を明確にする</strong>: 3点の基準を「可もなく不可もない」と定義し、そこからの加点・減点方式にすることでバイアスを抑えられます。</p></li>
<li><p><strong>メタ評価を行う</strong>: LLMの評価結果を人間が定期的にサンプリング確認し、ルーブリックの表現を微調整し続けることが重要です。</p></li>
</ol>
{
“expert_role”: “Prompt Engineering Specialist”,
“technique”: [“LLM-as-a-Judge”, “Chain-of-Thought (CoT)”, “Structured Rubrics”, “Form-Filling Pattern”],
“target_model”: “Gemini 1.5 Pro / GPT-4o”,
“version”: “1.1”
}
本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証)です。
LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計
【ユースケース定義と課題】
LLMによる生成物の品質(正確性、丁寧さ、安全性など)を別のLLMで自動評価する「LLM-as-a-judge」において、評価基準の曖昧さと根拠の欠如が課題です。本設計では、詳細なルーブリック(評価基準表)とフォーム形式の入力を強制することで、評価の客観性と再現性を担保します。
【プロンプト設計のループ】
graph TD
A["評価ルーブリックの定義"] --> B["評価フォームの構築"]
B --> C["評価実行とCoTによる思考抽出"]
C --> D["バイアス検知とスコアリング"]
D -->|不一致があれば| A
設計: 評価軸ごとに5段階の定義と言語化を行う。
実行: プロンプトにFew-shotを組み込み、評価プロセスをシミュレーション。
評価: 人間の評価結果とLLMの評価結果の相関(一致率)を確認。
改善: 評価がブレるポイントに対し、制約条件を追加または定義を具体化。
【プロンプトの実装案】
# Role
あなたは高品質なコンテンツ制作を支援する、プロの編集者かつ客観的な評価者です。
与えられた「評価対象の回答」を、「評価基準(ルーブリック)」に基づいて厳格に採点してください。
# Evaluation Rubric (採点基準)
- 5点 (Excellent): ユーザーの意図を完全に汲み取り、事実関係も完璧。追加の付加価値がある。
- 4点 (Good): ユーザーの意図を満たしており、重大な誤りはない。
- 3点 (Fair): 概ね正しいが、一部の情報が不足しているか、表現が不適切。
- 2点 (Poor): 重要な情報が欠落している、または誤解を招く表現がある。
- 1点 (Very Poor): 質問に答えていない、または致命的な誤情報が含まれる。
# Input Data
- ユーザーの質問: [質問内容を入力]
- 評価対象の回答: [LLMの回答を入力]
# Output Format (フォーム記入)
以下の形式に則って、一項目ずつ思考しながら記入してください。
1. 【分析】: 回答がユーザーの意図をどう解釈したか記述せよ。
2. 【事実確認】: 回答に含まれる事実の正確性を検証せよ。
3. 【評価根拠】: ルーブリックのどの基準に該当するか、具体的な理由を述べよ。
4. 【スコア】: 1〜5の数字のみで回答せよ。
【評価指標と誤り分析】
LLM-as-a-judgeにおける主な失敗パターンと対策を以下の表にまとめます。
| 失敗パターン |
内容 |
対策 |
| 寛容バイアス |
どんな回答にも4〜5点を付けてしまう。 |
3点(平均)の基準を厳格に定義する。 |
| 根拠の捏造 |
スコアを先に決め、後付けで理由を作る。 |
理由(CoT)をスコアより先に出力させる。 |
| 形式崩れ |
JSONや指定形式を無視して出力する。 |
出力形式を固定し、One-shot例示を追加。 |
| 位置バイアス |
複数の回答を比較する際、最初の方を好む。 |
回答の順番を入れ替えて2回評価させる。 |
【改良後の最適プロンプト】
分析結果に基づき、バイアスを抑制し精度を高めた最終プロンプトです。
# 指示
あなたは、AIの応答品質を測定する独立評価機関の査読官です。
以下の「評価対象の回答」を、提供された「評価ルーブリック」に照らし合わせ、ステップバイステップで評価してください。
# 評価基準: [正確性・論理的一貫性]
- 5: 欠点なし。論理が極めて明快で、証拠に基づいている。
- 4: ほぼ完璧。軽微な表現の改善余地があるのみ。
- 3: 合格点。主要な事実は正しいが、説明が不十分な箇所がある。
- 2: 不合格。論理の飛躍があるか、一部に虚偽が含まれる。
- 1: 致命的。全体が虚偽であるか、有害な内容を含む。
# 評価プロセス(以下の手順を遵守すること)
Step 1: 回答内容の要約
Step 2: ルーブリックの各項目との照合(事実関係のチェック)
Step 3: 減点項目の列挙(ある場合のみ)
Step 4: 最終スコアの算出
# 回答フォーム
## 1. 評価プロセスの記録
(ここにStep 1~3の思考プロセスを記述)
## 2. 最終判定
- 評価軸: 正確性・論理的一貫性
- 理由: (一言で要約)
- スコア: [1-5の数値]
---
## ユーザーの質問:
{{user_query}}
## 評価対象の回答:
{{assistant_response}}
【まとめ】
実務でLLM-as-a-judgeを運用するための3つの鉄則:
「思考の外部化」を強制する: スコアを出す前に必ず「根拠(CoT)」を書かせることで、評価の整合性が飛躍的に高まります。
5段階評価の「3点」を明確にする: 3点の基準を「可もなく不可もない」と定義し、そこからの加点・減点方式にすることでバイアスを抑えられます。
メタ評価を行う: LLMの評価結果を人間が定期的にサンプリング確認し、ルーブリックの表現を微調整し続けることが重要です。
ライセンス:本記事のテキスト/コードは特記なき限り
CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。
コメント