<p><meta/> { “expert_role”: “Prompt Engineering Specialist”, “technique”: [“LLM-as-a-Judge”, “Chain-of-Thought (CoT)”, “Structured Rubrics”, “Form-Filling Pattern”], “target_model”: “Gemini 1.5 Pro / GPT-4o”, “version”: “1.1” } 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計</h1> <h3 class="wp-block-heading">【ユースケース定義と課題】</h3> <p>LLMによる生成物の品質（正確性、丁寧さ、安全性など）を別のLLMで自動評価する「LLM-as-a-judge」において、評価基準の曖昧さと根拠の欠如が課題です。本設計では、詳細なルーブリック（評価基準表）とフォーム形式の入力を強制することで、評価の客観性と再現性を担保します。</p> <ul class="wp-block-list"> <li><p><strong>入力型</strong>：評価対象のテキスト、参照正解データ、評価ルーブリック</p></li> <li><p><strong>出力型</strong>：構造化された評価レポート（Markdown形式、最終的にJSON抽出可能）</p></li> </ul> <h3 class="wp-block-heading">【プロンプト設計のループ】</h3> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["評価ルーブリックの定義"] --> B["評価フォームの構築"] B --> C["評価実行とCoTによる思考抽出"] C --> D["バイアス検知とスコアリング"] D -->|不一致があれば| A </pre></div> <ol class="wp-block-list"> <li><p><strong>設計</strong>: 評価軸ごとに5段階の定義と言語化を行う。</p></li> <li><p><strong>実行</strong>: プロンプトにFew-shotを組み込み、評価プロセスをシミュレーション。</p></li> <li><p><strong>評価</strong>: 人間の評価結果とLLMの評価結果の相関（一致率）を確認。</p></li> <li><p><strong>改善</strong>: 評価がブレるポイントに対し、制約条件を追加または定義を具体化。</p></li> </ol> <h3 class="wp-block-heading">【プロンプトの実装案】</h3> <div class="codehilite"> <pre data-enlighter-language="generic"># Role あなたは高品質なコンテンツ制作を支援する、プロの編集者かつ客観的な評価者です。与えられた「評価対象の回答」を、「評価基準（ルーブリック）」に基づいて厳格に採点してください。 # Evaluation Rubric (採点基準) - 5点 (Excellent): ユーザーの意図を完全に汲み取り、事実関係も完璧。追加の付加価値がある。 - 4点 (Good): ユーザーの意図を満たしており、重大な誤りはない。 - 3点 (Fair): 概ね正しいが、一部の情報が不足しているか、表現が不適切。 - 2点 (Poor): 重要な情報が欠落している、または誤解を招く表現がある。 - 1点 (Very Poor): 質問に答えていない、または致命的な誤情報が含まれる。 # Input Data - ユーザーの質問: [質問内容を入力] - 評価対象の回答: [LLMの回答を入力] # Output Format (フォーム記入) 以下の形式に則って、一項目ずつ思考しながら記入してください。 1. 【分析】: 回答がユーザーの意図をどう解釈したか記述せよ。 2. 【事実確認】: 回答に含まれる事実の正確性を検証せよ。 3. 【評価根拠】: ルーブリックのどの基準に該当するか、具体的な理由を述べよ。 4. 【スコア】: 1〜5の数字のみで回答せよ。 </pre> </div> <h3 class="wp-block-heading">【評価指標と誤り分析】</h3> <p>LLM-as-a-judgeにおける主な失敗パターンと対策を以下の表にまとめます。</p> <figure class="wp-block-table"><table> <thead> <tr> <th style="text-align:left;">失敗パターン</th> <th style="text-align:left;">内容</th> <th style="text-align:left;">対策</th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"><strong>寛容バイアス</strong></td> <td style="text-align:left;">どんな回答にも4〜5点を付けてしまう。</td> <td style="text-align:left;">3点（平均）の基準を厳格に定義する。</td> </tr> <tr> <td style="text-align:left;"><strong>根拠の捏造</strong></td> <td style="text-align:left;">スコアを先に決め、後付けで理由を作る。</td> <td style="text-align:left;">理由（CoT）をスコアより先に出力させる。</td> </tr> <tr> <td style="text-align:left;"><strong>形式崩れ</strong></td> <td style="text-align:left;">JSONや指定形式を無視して出力する。</td> <td style="text-align:left;">出力形式を固定し、One-shot例示を追加。</td> </tr> <tr> <td style="text-align:left;"><strong>位置バイアス</strong></td> <td style="text-align:left;">複数の回答を比較する際、最初の方を好む。</td> <td style="text-align:left;">回答の順番を入れ替えて2回評価させる。</td> </tr> </tbody> </table></figure> <h3 class="wp-block-heading">【改良後の最適プロンプト】</h3> <p>分析結果に基づき、バイアスを抑制し精度を高めた最終プロンプトです。</p> <div class="codehilite"> <pre data-enlighter-language="generic"># 指示あなたは、AIの応答品質を測定する独立評価機関の査読官です。以下の「評価対象の回答」を、提供された「評価ルーブリック」に照らし合わせ、ステップバイステップで評価してください。 # 評価基準: [正確性・論理的一貫性] - 5: 欠点なし。論理が極めて明快で、証拠に基づいている。 - 4: ほぼ完璧。軽微な表現の改善余地があるのみ。 - 3: 合格点。主要な事実は正しいが、説明が不十分な箇所がある。 - 2: 不合格。論理の飛躍があるか、一部に虚偽が含まれる。 - 1: 致命的。全体が虚偽であるか、有害な内容を含む。 # 評価プロセス（以下の手順を遵守すること） Step 1: 回答内容の要約 Step 2: ルーブリックの各項目との照合（事実関係のチェック） Step 3: 減点項目の列挙（ある場合のみ） Step 4: 最終スコアの算出 # 回答フォーム ## 1. 評価プロセスの記録 (ここにStep 1~3の思考プロセスを記述) ## 2. 最終判定 - 評価軸: 正確性・論理的一貫性 - 理由: (一言で要約) - スコア: [1-5の数値] --- ## ユーザーの質問: {{user_query}} ## 評価対象の回答: {{assistant_response}} </pre> </div> <h3 class="wp-block-heading">【まとめ】</h3> <p>実務でLLM-as-a-judgeを運用するための3つの鉄則：</p> <ol class="wp-block-list"> <li><p><strong>「思考の外部化」を強制する</strong>: スコアを出す前に必ず「根拠（CoT）」を書かせることで、評価の整合性が飛躍的に高まります。</p></li> <li><p><strong>5段階評価の「3点」を明確にする</strong>: 3点の基準を「可もなく不可もない」と定義し、そこからの加点・減点方式にすることでバイアスを抑えられます。</p></li> <li><p><strong>メタ評価を行う</strong>: LLMの評価結果を人間が定期的にサンプリング確認し、ルーブリックの表現を微調整し続けることが重要です。</p></li> </ol>

{ “expert_role”: “Prompt Engineering Specialist”, “technique”: [“LLM-as-a-Judge”, “Chain-of-Thought (CoT)”, “Structured Rubrics”, “Form-Filling Pattern”], “target_model”: “Gemini 1.5 Pro / GPT-4o”, “version”: “1.1” } 本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

【ユースケース定義と課題】

LLMによる生成物の品質（正確性、丁寧さ、安全性など）を別のLLMで自動評価する「LLM-as-a-judge」において、評価基準の曖昧さと根拠の欠如が課題です。本設計では、詳細なルーブリック（評価基準表）とフォーム形式の入力を強制することで、評価の客観性と再現性を担保します。

入力型：評価対象のテキスト、参照正解データ、評価ルーブリック
出力型：構造化された評価レポート（Markdown形式、最終的にJSON抽出可能）

【プロンプト設計のループ】

graph TD
A["評価ルーブリックの定義"] --> B["評価フォームの構築"]
B --> C["評価実行とCoTによる思考抽出"]
C --> D["バイアス検知とスコアリング"]
D -->|不一致があれば| A

設計: 評価軸ごとに5段階の定義と言語化を行う。
実行: プロンプトにFew-shotを組み込み、評価プロセスをシミュレーション。
評価: 人間の評価結果とLLMの評価結果の相関（一致率）を確認。
改善: 評価がブレるポイントに対し、制約条件を追加または定義を具体化。

【プロンプトの実装案】

# Role

あなたは高品質なコンテンツ制作を支援する、プロの編集者かつ客観的な評価者です。
与えられた「評価対象の回答」を、「評価基準（ルーブリック）」に基づいて厳格に採点してください。

# Evaluation Rubric (採点基準)


- 5点 (Excellent): ユーザーの意図を完全に汲み取り、事実関係も完璧。追加の付加価値がある。

- 4点 (Good): ユーザーの意図を満たしており、重大な誤りはない。

- 3点 (Fair): 概ね正しいが、一部の情報が不足しているか、表現が不適切。

- 2点 (Poor): 重要な情報が欠落している、または誤解を招く表現がある。

- 1点 (Very Poor): 質問に答えていない、または致命的な誤情報が含まれる。

# Input Data


- ユーザーの質問: [質問内容を入力]

- 評価対象の回答: [LLMの回答を入力]

# Output Format (フォーム記入)

以下の形式に則って、一項目ずつ思考しながら記入してください。

1. 【分析】: 回答がユーザーの意図をどう解釈したか記述せよ。

2. 【事実確認】: 回答に含まれる事実の正確性を検証せよ。

3. 【評価根拠】: ルーブリックのどの基準に該当するか、具体的な理由を述べよ。

4. 【スコア】: 1〜5の数字のみで回答せよ。

【評価指標と誤り分析】

LLM-as-a-judgeにおける主な失敗パターンと対策を以下の表にまとめます。

失敗パターン	内容	対策
寛容バイアス	どんな回答にも4〜5点を付けてしまう。	3点（平均）の基準を厳格に定義する。
根拠の捏造	スコアを先に決め、後付けで理由を作る。	理由（CoT）をスコアより先に出力させる。
形式崩れ	JSONや指定形式を無視して出力する。	出力形式を固定し、One-shot例示を追加。
位置バイアス	複数の回答を比較する際、最初の方を好む。	回答の順番を入れ替えて2回評価させる。

【改良後の最適プロンプト】

分析結果に基づき、バイアスを抑制し精度を高めた最終プロンプトです。

# 指示

あなたは、AIの応答品質を測定する独立評価機関の査読官です。
以下の「評価対象の回答」を、提供された「評価ルーブリック」に照らし合わせ、ステップバイステップで評価してください。

# 評価基準: [正確性・論理的一貫性]


- 5: 欠点なし。論理が極めて明快で、証拠に基づいている。

- 4: ほぼ完璧。軽微な表現の改善余地があるのみ。

- 3: 合格点。主要な事実は正しいが、説明が不十分な箇所がある。

- 2: 不合格。論理の飛躍があるか、一部に虚偽が含まれる。

- 1: 致命的。全体が虚偽であるか、有害な内容を含む。

# 評価プロセス（以下の手順を遵守すること）

Step 1: 回答内容の要約
Step 2: ルーブリックの各項目との照合（事実関係のチェック）
Step 3: 減点項目の列挙（ある場合のみ）
Step 4: 最終スコアの算出

# 回答フォーム

## 1. 評価プロセスの記録

(ここにStep 1~3の思考プロセスを記述)

## 2. 最終判定


- 評価軸: 正確性・論理的一貫性

- 理由: (一言で要約)

- スコア: [1-5の数値]

---
## ユーザーの質問:

{{user_query}}

## 評価対象の回答:

{{assistant_response}}

【まとめ】

実務でLLM-as-a-judgeを運用するための3つの鉄則：

「思考の外部化」を強制する: スコアを出す前に必ず「根拠（CoT）」を書かせることで、評価の整合性が飛躍的に高まります。
5段階評価の「3点」を明確にする: 3点の基準を「可もなく不可もない」と定義し、そこからの加点・減点方式にすることでバイアスを抑えられます。
メタ評価を行う: LLMの評価結果を人間が定期的にサンプリング確認し、ルーブリックの表現を微調整し続けることが重要です。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。

LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

【ユースケース定義と課題】

【プロンプト設計のループ】

【プロンプトの実装案】

【評価指標と誤り分析】

【改良後の最適プロンプト】

【まとめ】

いいね:

コメント

LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

【ユースケース定義と課題】

【プロンプト設計のループ】

【プロンプトの実装案】

【評価指標と誤り分析】

【改良後の最適プロンプト】

【まとめ】

共有:

いいね:

コメント