<p>本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">LLM-as-a-Judgeの信頼性を極限まで高める「ルーブリック＋フォーム記入型」プロンプト設計</h1> <h2 class="wp-block-heading">【ユースケース定義と課題】</h2> <p>LLM生成物の品質（正確性や安全性等）を客観的基準（ルーブリック）で評価したいが、評価基準のブレやハロー効果が生じて安定しない。</p> <h3 class="wp-block-heading">入出力の「型」定義</h3> <ul class="wp-block-list"> <li><p><strong>入力フォーマット</strong>：JSON（評価対象の「ユーザー入力」、評価対象の「LLM回答」、および「評価ルーブリック」を包含）</p></li> <li><p><strong>出力フォーマット</strong>：JSON（評価項目ごとの思考プロセス、スコア、および最終判定を構造化して出力）</p></li> </ul> <hr/> <h2 class="wp-block-heading">【プロンプト設計のループ】</h2> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["設計: 評価基準と入力フォームの厳密な定義"] --> B["実行: LLM-as-a-judgeによる評価判定の出力"] B --> C["評価: 人間によるアノテーションとの一致率・バイアス検証"] C -->|改善: 評価基準の排他性向上・Few-Shotの追加| A </pre></div> <h3 class="wp-block-heading">各ステップの詳細</h3> <ol class="wp-block-list"> <li><p><strong>設計 (Design)</strong>: 評価したい軸（例：正確性、親切さ）を、グラデーションのある多段階（1〜5点）のルーブリックとして言語化します。また、評価者がハロー効果（1つの良い印象に引きずられて全体を高く評価すること）に陥らないよう、項目ごとに思考を独立させる「フォーム記入形式」の出力スキーマを定義します。</p></li> <li><p><strong>実行 (Execution)</strong>: GPT-4oやGemini 1.5 Proなどの推論能力の高いモデルを「ジャッジ役」とし、定義したプロンプトに入力データを流し込んで評価を実行します。</p></li> <li><p><strong>評価 (Evaluation) & 改善 (Iteration)</strong>: 人間の専門家が評価したスコア（ゴールドデータ）と、LLMの評価スコアの「一致率（Cohen’s Kappa等）」を測定します。不一致が発生したケースを分析し、ルーブリックの記述の曖昧さを排除するか、評価の境界線を示す「Few-Shot（具体的な評価例）」をプロンプトに補強して設計にフィードバックします。</p></li> </ol> <hr/> <h2 class="wp-block-heading">【プロンプトの実装案】</h2> <p>最初の設計段階として、評価基準と記入フォームを分離し、Chain-of-Thought（思考プロセスの記述）を強制するプロンプト例を以下に提示します。</p> <div class="codehilite"> <pre data-enlighter-language="generic"># 役割あなたは極めて客観的で、一貫性のある高度なAI評価アシスタントです。提示された「評価対象のやり取り」を、提供された「評価ルーブリック」に基づいて厳格に評価してください。 # 評価対象 <user_input> {{USER_INPUT}} </user_input> <assistant_response> {{ASSISTANT_RESPONSE}} </assistant_response> # 評価ルーブリック（正確性と事実性） - 5点 (極めて優秀): 回答に事実誤認が一切なく、ユーザーの質問に対して完全かつ過不足なく答えている。 - 4点 (優秀): 回答は正確だが、些細な情報の不足、または評価に影響しない程度の不要な情報が含まれている。 - 3点 (合格): 重大な事実誤認はないが、一部不正確に解釈され得る表現がある。または、核心的な情報の半分程度しかカバーしていない。 - 2点 (不合格): 明らかな事実誤認が1つ以上含まれている、あるいは質問への回答になっていない。 - 1点 (致命的): 完全に事実と異なる情報を生成している（ハルシネーション）、または有害な情報を出力している。 # 評価プロセス（思考の順序）以下の手順で思考し、フォームを埋めてください。 1. **事実検証**: ユーザー入力に対して、アシスタント回答のどの部分が事実として正しいか、あるいは誤っているかを箇条書きで抽出してください。 2. **ルーブリック適合分析**: 事実検証の結果に基づき、上記の評価ルーブリック（1〜5点）のどの定義に最も合致するかを詳細に比較・論述してください。 3. **スコアリング**: 最終的なスコア（1〜5の整数）を決定してください。 # 出力フォーマット必ず以下のJSON形式のみで出力してください。Markdownのコードブロック（```json ... ```）で囲んでください。それ以外のテキストは一切含めないでください。 { "fact_verification": "ステップ1の事実検証プロセスを記述", "rubric_analysis": "ステップ2のルーブリック適合分析を記述", "final_score": 0 } </pre> </div><hr/> <h2 class="wp-block-heading">【評価指標と誤り分析】</h2> <p>上記プロンプトを適用した際、LLM-as-a-Judge特有の課題やエラーが発生する可能性があります。</p> <h3 class="wp-block-heading">期待通りにいかない「失敗パターン」</h3> <ol class="wp-block-list"> <li><p><strong>寛大化バイアス（Leniency Bias）</strong>: LLMは他者の出力に対して甘い評価を下す傾向があり、3〜5点にスコアが偏り、1〜2点を出したがらない現象。</p></li> <li><p><strong>ハロー効果（Halo Effect）</strong>: 文章の「丁寧さ」や「文体」の美しさに騙され、肝心の内容（正確性）が間違っているにもかかわらず高スコアをつけてしまうエラー。</p></li> <li><p><strong>スキーマ崩れ（Format Violation）</strong>: JSON内に改行コードやエスケープされていないダブルクォーテーションが含まれ、後続のシステムでパースエラーが発生する現象。</p></li> </ol> <h3 class="wp-block-heading">LLM-as-a-Judge評価用ルーブリック</h3> <p>LLM-as-a-Judgeプロンプト自体の「性能」を、以下の基準でメタ評価します。</p> <figure class="wp-block-table"><table> <thead> <tr> <th style="text-align:left;">評価項目</th> <th style="text-align:left;">5: 極めて優秀</th> <th style="text-align:left;">3: 合格水準</th> <th style="text-align:left;">1: 致命的</th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"><strong>評価の一貫性 (Reliability)</strong></td> <td style="text-align:left;">同一の評価対象に対して、複数回実行してもスコアのブレが全く生じない（完全な一貫性）。</td> <td style="text-align:left;">複数回実行時にスコアのブレが±1以内に収まる。</td> <td style="text-align:left;">実行するたびにスコアが2以上変動し、全く一貫性がない。</td> </tr> <tr> <td style="text-align:left;"><strong>人間との一致率 (Alignment)</strong></td> <td style="text-align:left;">人間の専門家が付けたスコアとの一致率（Kappa係数）が0.8以上。</td> <td style="text-align:left;">人間の専門家との一致率（Kappa係数）が0.6以上、0.8未満。</td> <td style="text-align:left;">一致率が0.4未満であり、LLMの評価結果を業務で信用できない。</td> </tr> <tr> <td style="text-align:left;"><strong>構造化出力の遵守 (Format Compliance)</strong></td> <td style="text-align:left;">何百回の実行であってもJSON等の出力形式を100%維持し、パースエラーが皆無。</td> <td style="text-align:left;">稀にパースエラー（1%未満）が発生するが、軽微なエスケープ漏れのみ。</td> <td style="text-align:left;">出力形式が頻繁にMarkdownテキストに戻り、パースが全く通らない。</td> </tr> </tbody> </table></figure> <hr/> <h2 class="wp-block-heading">【改良後の最適プロンプト】</h2> <p>誤り分析に基づき、<strong>「ハロー効果の防止措置」「各スコアの境界定義（Few-Shot）」「JSONパースエラーの絶対防止策」</strong>を盛り込んだ、最良のLLM-as-a-Judgeプロンプトです。</p> <div class="codehilite"> <pre data-enlighter-language="generic"># 役割あなたは厳格、客観的、かつ事実に基づいて判定を行うプロの品質監査官（AI）です。感情や文体の丁寧さに一切惑わされることなく、純粋に「事実の正確性」のみに焦点を当てて評価を行ってください。 # 評価対象 <user_input> {{USER_INPUT}} </user_input> <assistant_response> {{ASSISTANT_RESPONSE}} </assistant_response> # 評価ルーブリックおよび判断境界定義 - 5点 (極めて優秀): 回答に誤謬、誇張、誤解を招く表現が一切含まれず、質問に必要な全情報が完全に網羅されている。 - 4点 (優秀): 基本的に正確。ただし、質問の主旨とは直接関係ないトリビア的な軽微な情報不足がある。 * 【境界例】: 質問「日本の人口は？」に対して「約1億2500万人です（※最新の正確な端数まで書いていない）」レベル。 - 3点 (合格): 重大な事実誤認（虚偽）はないが、表現が曖昧で誤解を招く可能性がある。または、質問に対する最重要回答要素のうち、一部が欠落している。 * 【境界例】: 「日本の首都はどこで、人口は？」に対して「首都は東京です」とだけ答え、人口に言及していないレベル。 - 2点 (不合格): 明らかな事実誤認（事実とは異なる記述、推測を事実と言い切るハルシネーション等）が少なくとも1つ以上存在する。 - 1点 (致命的): 提示された情報のほぼすべてが誤りであるか、ユーザーに対して著しく有害・不快な情報を出力している。 # 評価の厳守事項（ハロー効果の排除） - 「回答が丁寧である」「丁寧語が美しい」「構造化されて読みやすい」といった「文体や見栄え」は、スコアに1点も加点してはなりません。 - 回答内容の「事実の正しさ」のみを評価してください。内容が誤っている場合は、どれほど美しい文章であっても必ず「2点」以下にしてください。 # 評価プロセス（思考のステップ順に記述すること）出力用のJSON内に、以下の思考プロセスを順に書き出してください。 1. `fact_checking_notes`: アシスタント回答に含まれる「ファクト（事実主張）」をすべて検出し、それぞれが「客観的事実と一致しているか」を個別に判定・記述してください。 2. `justification`: 「評価ルーブリックおよび判断境界定義」に基づき、なぜそのスコアがふさわしいのか、他スコア（例えば3点ではなく4点である理由）との境界を明確にして論理的に説明してください。 3. `score`: 最終的なスコア（1から5の整数）を設定してください。 # 出力フォーマット定義 (JSON Schema) 必ず以下のJSONスキーマに従った有効なJSONオブジェクトを1つだけ出力してください。余計な挨拶、説明、コードブロックの囲み記号(```)は一切出力に含めず、純粋なJSON文字列としてパースできるようにしてください。キー名の変更や追加は厳禁です。 { "fact_checking_notes": "（ここにステップ1の事実検証を記述。エスケープ処理に注意すること）", "justification": "（ここにステップ2のスコア決定根拠を記述。エスケープ処理に注意すること）", "score": 0 } </pre> </div><hr/> <h2 class="wp-block-heading">【まとめ】</h2> <p>実務でLLM-as-a-judgeを運用するための3つの鉄則：</p> <ol class="wp-block-list"> <li><p><strong>評価の独立性を確保する（ハロー効果の遮断）</strong> 文体の美しさと「内容の正しさ」は完全に独立して評価させます。プロンプト内で「丁寧さに惑わされるな」と直接指示（Negative Prompting）を与えることで、評価精度は劇的に安定します。</p></li> <li><p><strong>判断の「境界（境界例）」をFew-Shotで定義する</strong> 「なぜ3点ではなく4点なのか」の境界線（Boundaries）を曖昧にすると、LLMの評価はすぐにブレます。プロンプト内に「〜の場合は3点だが、〜が含まれる場合は4点とする」という具体的な判定ライン（境界例）を明記することが、一貫性向上への近道です。</p></li> <li><p><strong>「思考」を先に行わせ、その後に「スコア」を出力させる</strong> LLMは「1〜5の数値」をはじめに出力しようとすると、その後の理由付けを数値に合わせるバイアス（確証バイアス）が生じます。必ず <code>JSON</code> フォーマットの最初の方で事実検証や理由（CoT）をテキストで出力させ、最後に出力トークンとして <code>score</code> を配置するようにスキーマを設計してください。</p></li> </ol>

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

LLM-as-a-Judgeの信頼性を極限まで高める「ルーブリック＋フォーム記入型」プロンプト設計

【ユースケース定義と課題】
1. 入出力の「型」定義
【プロンプト設計のループ】
1. 各ステップの詳細
【プロンプトの実装案】
【評価指標と誤り分析】
1. 期待通りにいかない「失敗パターン」
2. LLM-as-a-Judge評価用ルーブリック
【改良後の最適プロンプト】
【まとめ】
1. 共有:
2. いいね:

【ユースケース定義と課題】

LLM生成物の品質（正確性や安全性等）を客観的基準（ルーブリック）で評価したいが、評価基準のブレやハロー効果が生じて安定しない。

入出力の「型」定義

入力フォーマット：JSON（評価対象の「ユーザー入力」、評価対象の「LLM回答」、および「評価ルーブリック」を包含）
出力フォーマット：JSON（評価項目ごとの思考プロセス、スコア、および最終判定を構造化して出力）

【プロンプト設計のループ】

graph TD
A["設計: 評価基準と入力フォームの厳密な定義"] --> B["実行: LLM-as-a-judgeによる評価判定の出力"]
B --> C["評価: 人間によるアノテーションとの一致率・バイアス検証"]
C -->|改善: 評価基準の排他性向上・Few-Shotの追加| A

各ステップの詳細

設計 (Design): 評価したい軸（例：正確性、親切さ）を、グラデーションのある多段階（1〜5点）のルーブリックとして言語化します。また、評価者がハロー効果（1つの良い印象に引きずられて全体を高く評価すること）に陥らないよう、項目ごとに思考を独立させる「フォーム記入形式」の出力スキーマを定義します。
実行 (Execution): GPT-4oやGemini 1.5 Proなどの推論能力の高いモデルを「ジャッジ役」とし、定義したプロンプトに入力データを流し込んで評価を実行します。
評価 (Evaluation) & 改善 (Iteration): 人間の専門家が評価したスコア（ゴールドデータ）と、LLMの評価スコアの「一致率（Cohen’s Kappa等）」を測定します。不一致が発生したケースを分析し、ルーブリックの記述の曖昧さを排除するか、評価の境界線を示す「Few-Shot（具体的な評価例）」をプロンプトに補強して設計にフィードバックします。

【プロンプトの実装案】

最初の設計段階として、評価基準と記入フォームを分離し、Chain-of-Thought（思考プロセスの記述）を強制するプロンプト例を以下に提示します。

# 役割

あなたは極めて客観的で、一貫性のある高度なAI評価アシスタントです。
提示された「評価対象のやり取り」を、提供された「評価ルーブリック」に基づいて厳格に評価してください。

# 評価対象

<user_input>
{{USER_INPUT}}
</user_input>

<assistant_response>
{{ASSISTANT_RESPONSE}}
</assistant_response>

# 評価ルーブリック（正確性と事実性）


- 5点 (極めて優秀): 回答に事実誤認が一切なく、ユーザーの質問に対して完全かつ過不足なく答えている。

- 4点 (優秀): 回答は正確だが、些細な情報の不足、または評価に影響しない程度の不要な情報が含まれている。

- 3点 (合格): 重大な事実誤認はないが、一部不正確に解釈され得る表現がある。または、核心的な情報の半分程度しかカバーしていない。

- 2点 (不合格): 明らかな事実誤認が1つ以上含まれている、あるいは質問への回答になっていない。

- 1点 (致命的): 完全に事実と異なる情報を生成している（ハルシネーション）、または有害な情報を出力している。

# 評価プロセス（思考の順序）

以下の手順で思考し、フォームを埋めてください。

1. **事実検証**: ユーザー入力に対して、アシスタント回答のどの部分が事実として正しいか、あるいは誤っているかを箇条書きで抽出してください。

2. **ルーブリック適合分析**: 事実検証の結果に基づき、上記の評価ルーブリック（1〜5点）のどの定義に最も合致するかを詳細に比較・論述してください。

3. **スコアリング**: 最終的なスコア（1〜5の整数）を決定してください。

# 出力フォーマット

必ず以下のJSON形式のみで出力してください。Markdownのコードブロック（```json ... ```）で囲んでください。それ以外のテキストは一切含めないでください。

{
  "fact_verification": "ステップ1の事実検証プロセスを記述",
  "rubric_analysis": "ステップ2のルーブリック適合分析を記述",
  "final_score": 0 
}

【評価指標と誤り分析】

上記プロンプトを適用した際、LLM-as-a-Judge特有の課題やエラーが発生する可能性があります。

期待通りにいかない「失敗パターン」

寛大化バイアス（Leniency Bias）: LLMは他者の出力に対して甘い評価を下す傾向があり、3〜5点にスコアが偏り、1〜2点を出したがらない現象。
ハロー効果（Halo Effect）: 文章の「丁寧さ」や「文体」の美しさに騙され、肝心の内容（正確性）が間違っているにもかかわらず高スコアをつけてしまうエラー。
スキーマ崩れ（Format Violation）: JSON内に改行コードやエスケープされていないダブルクォーテーションが含まれ、後続のシステムでパースエラーが発生する現象。

LLM-as-a-Judge評価用ルーブリック

LLM-as-a-Judgeプロンプト自体の「性能」を、以下の基準でメタ評価します。

評価項目	5: 極めて優秀	3: 合格水準	1: 致命的
評価の一貫性 (Reliability)	同一の評価対象に対して、複数回実行してもスコアのブレが全く生じない（完全な一貫性）。	複数回実行時にスコアのブレが±1以内に収まる。	実行するたびにスコアが2以上変動し、全く一貫性がない。
人間との一致率 (Alignment)	人間の専門家が付けたスコアとの一致率（Kappa係数）が0.8以上。	人間の専門家との一致率（Kappa係数）が0.6以上、0.8未満。	一致率が0.4未満であり、LLMの評価結果を業務で信用できない。
構造化出力の遵守 (Format Compliance)	何百回の実行であってもJSON等の出力形式を100%維持し、パースエラーが皆無。	稀にパースエラー（1%未満）が発生するが、軽微なエスケープ漏れのみ。	出力形式が頻繁にMarkdownテキストに戻り、パースが全く通らない。

【改良後の最適プロンプト】

誤り分析に基づき、「ハロー効果の防止措置」「各スコアの境界定義（Few-Shot）」「JSONパースエラーの絶対防止策」を盛り込んだ、最良のLLM-as-a-Judgeプロンプトです。

# 役割

あなたは厳格、客観的、かつ事実に基づいて判定を行うプロの品質監査官（AI）です。
感情や文体の丁寧さに一切惑わされることなく、純粋に「事実の正確性」のみに焦点を当てて評価を行ってください。

# 評価対象

<user_input>
{{USER_INPUT}}
</user_input>

<assistant_response>
{{ASSISTANT_RESPONSE}}
</assistant_response>

# 評価ルーブリックおよび判断境界定義


- 5点 (極めて優秀): 回答に誤謬、誇張、誤解を招く表現が一切含まれず、質問に必要な全情報が完全に網羅されている。

- 4点 (優秀): 基本的に正確。ただし、質問の主旨とは直接関係ないトリビア的な軽微な情報不足がある。

  * 【境界例】: 質問「日本の人口は？」に対して「約1億2500万人です（※最新の正確な端数まで書いていない）」レベル。

- 3点 (合格): 重大な事実誤認（虚偽）はないが、表現が曖昧で誤解を招く可能性がある。または、質問に対する最重要回答要素のうち、一部が欠落している。

  * 【境界例】: 「日本の首都はどこで、人口は？」に対して「首都は東京です」とだけ答え、人口に言及していないレベル。

- 2点 (不合格): 明らかな事実誤認（事実とは異なる記述、推測を事実と言い切るハルシネーション等）が少なくとも1つ以上存在する。

- 1点 (致命的): 提示された情報のほぼすべてが誤りであるか、ユーザーに対して著しく有害・不快な情報を出力している。

# 評価の厳守事項（ハロー効果の排除）


- 「回答が丁寧である」「丁寧語が美しい」「構造化されて読みやすい」といった「文体や見栄え」は、スコアに1点も加点してはなりません。

- 回答内容の「事実の正しさ」のみを評価してください。内容が誤っている場合は、どれほど美しい文章であっても必ず「2点」以下にしてください。

# 評価プロセス（思考のステップ順に記述すること）

出力用のJSON内に、以下の思考プロセスを順に書き出してください。

1. `fact_checking_notes`: アシスタント回答に含まれる「ファクト（事実主張）」をすべて検出し、それぞれが「客観的事実と一致しているか」を個別に判定・記述してください。

2. `justification`: 「評価ルーブリックおよび判断境界定義」に基づき、なぜそのスコアがふさわしいのか、他スコア（例えば3点ではなく4点である理由）との境界を明確にして論理的に説明してください。

3. `score`: 最終的なスコア（1から5の整数）を設定してください。

# 出力フォーマット定義 (JSON Schema)

必ず以下のJSONスキーマに従った有効なJSONオブジェクトを1つだけ出力してください。余計な挨拶、説明、コードブロックの囲み記号(```)は一切出力に含めず、純粋なJSON文字列としてパースできるようにしてください。キー名の変更や追加は厳禁です。

{
  "fact_checking_notes": "（ここにステップ1の事実検証を記述。エスケープ処理に注意すること）",
  "justification": "（ここにステップ2のスコア決定根拠を記述。エスケープ処理に注意すること）",
  "score": 0
}

【まとめ】

実務でLLM-as-a-judgeを運用するための3つの鉄則：

評価の独立性を確保する（ハロー効果の遮断） 文体の美しさと「内容の正しさ」は完全に独立して評価させます。プロンプト内で「丁寧さに惑わされるな」と直接指示（Negative Prompting）を与えることで、評価精度は劇的に安定します。
判断の「境界（境界例）」をFew-Shotで定義する 「なぜ3点ではなく4点なのか」の境界線（Boundaries）を曖昧にすると、LLMの評価はすぐにブレます。プロンプト内に「〜の場合は3点だが、〜が含まれる場合は4点とする」という具体的な判定ライン（境界例）を明記することが、一貫性向上への近道です。
「思考」を先に行わせ、その後に「スコア」を出力させる LLMは「1〜5の数値」をはじめに出力しようとすると、その後の理由付けを数値に合わせるバイアス（確証バイアス）が生じます。必ず JSON フォーマットの最初の方で事実検証や理由（CoT）をテキストで出力させ、最後に出力トークンとして score を配置するようにスキーマを設計してください。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。