LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

Tech

{ “expert_role”: “Prompt Engineering Specialist”, “technique”: [“LLM-as-a-Judge”, “Chain-of-Thought (CoT)”, “Structured Rubrics”, “Form-Filling Pattern”], “target_model”: “Gemini 1.5 Pro / GPT-4o”, “version”: “1.1” } 本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証)です。

LLM-as-a-judgeの信頼性を向上させる「評価ルーブリック × フォーマット指定」プロンプト設計

【ユースケース定義と課題】

LLMによる生成物の品質(正確性、丁寧さ、安全性など)を別のLLMで自動評価する「LLM-as-a-judge」において、評価基準の曖昧さと根拠の欠如が課題です。本設計では、詳細なルーブリック(評価基準表)とフォーム形式の入力を強制することで、評価の客観性と再現性を担保します。

  • 入力型:評価対象のテキスト、参照正解データ、評価ルーブリック

  • 出力型:構造化された評価レポート(Markdown形式、最終的にJSON抽出可能)

【プロンプト設計のループ】

graph TD
A["評価ルーブリックの定義"] --> B["評価フォームの構築"]
B --> C["評価実行とCoTによる思考抽出"]
C --> D["バイアス検知とスコアリング"]
D -->|不一致があれば| A
  1. 設計: 評価軸ごとに5段階の定義と言語化を行う。

  2. 実行: プロンプトにFew-shotを組み込み、評価プロセスをシミュレーション。

  3. 評価: 人間の評価結果とLLMの評価結果の相関(一致率)を確認。

  4. 改善: 評価がブレるポイントに対し、制約条件を追加または定義を具体化。

【プロンプトの実装案】

# Role

あなたは高品質なコンテンツ制作を支援する、プロの編集者かつ客観的な評価者です。
与えられた「評価対象の回答」を、「評価基準(ルーブリック)」に基づいて厳格に採点してください。

# Evaluation Rubric (採点基準)


- 5点 (Excellent): ユーザーの意図を完全に汲み取り、事実関係も完璧。追加の付加価値がある。

- 4点 (Good): ユーザーの意図を満たしており、重大な誤りはない。

- 3点 (Fair): 概ね正しいが、一部の情報が不足しているか、表現が不適切。

- 2点 (Poor): 重要な情報が欠落している、または誤解を招く表現がある。

- 1点 (Very Poor): 質問に答えていない、または致命的な誤情報が含まれる。

# Input Data


- ユーザーの質問: [質問内容を入力]

- 評価対象の回答: [LLMの回答を入力]

# Output Format (フォーム記入)

以下の形式に則って、一項目ずつ思考しながら記入してください。

1. 【分析】: 回答がユーザーの意図をどう解釈したか記述せよ。

2. 【事実確認】: 回答に含まれる事実の正確性を検証せよ。

3. 【評価根拠】: ルーブリックのどの基準に該当するか、具体的な理由を述べよ。

4. 【スコア】: 1〜5の数字のみで回答せよ。

【評価指標と誤り分析】

LLM-as-a-judgeにおける主な失敗パターンと対策を以下の表にまとめます。

失敗パターン 内容 対策
寛容バイアス どんな回答にも4〜5点を付けてしまう。 3点(平均)の基準を厳格に定義する。
根拠の捏造 スコアを先に決め、後付けで理由を作る。 理由(CoT)をスコアより先に出力させる。
形式崩れ JSONや指定形式を無視して出力する。 出力形式を固定し、One-shot例示を追加。
位置バイアス 複数の回答を比較する際、最初の方を好む。 回答の順番を入れ替えて2回評価させる。

【改良後の最適プロンプト】

分析結果に基づき、バイアスを抑制し精度を高めた最終プロンプトです。

# 指示

あなたは、AIの応答品質を測定する独立評価機関の査読官です。
以下の「評価対象の回答」を、提供された「評価ルーブリック」に照らし合わせ、ステップバイステップで評価してください。

# 評価基準: [正確性・論理的一貫性]


- 5: 欠点なし。論理が極めて明快で、証拠に基づいている。

- 4: ほぼ完璧。軽微な表現の改善余地があるのみ。

- 3: 合格点。主要な事実は正しいが、説明が不十分な箇所がある。

- 2: 不合格。論理の飛躍があるか、一部に虚偽が含まれる。

- 1: 致命的。全体が虚偽であるか、有害な内容を含む。

# 評価プロセス(以下の手順を遵守すること)

Step 1: 回答内容の要約
Step 2: ルーブリックの各項目との照合(事実関係のチェック)
Step 3: 減点項目の列挙(ある場合のみ)
Step 4: 最終スコアの算出

# 回答フォーム

## 1. 評価プロセスの記録

(ここにStep 1~3の思考プロセスを記述)

## 2. 最終判定


- 評価軸: 正確性・論理的一貫性

- 理由: (一言で要約)

- スコア: [1-5の数値]

---
## ユーザーの質問:

{{user_query}}

## 評価対象の回答:

{{assistant_response}}

【まとめ】

実務でLLM-as-a-judgeを運用するための3つの鉄則:

  1. 「思考の外部化」を強制する: スコアを出す前に必ず「根拠(CoT)」を書かせることで、評価の整合性が飛躍的に高まります。

  2. 5段階評価の「3点」を明確にする: 3点の基準を「可もなく不可もない」と定義し、そこからの加点・減点方式にすることでバイアスを抑えられます。

  3. メタ評価を行う: LLMの評価結果を人間が定期的にサンプリング確認し、ルーブリックの表現を微調整し続けることが重要です。

ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました