LLM評価の客観性を担保する「ルーブリック型フォーム入力」プロンプト設計

Tech

{“expert_role”: “Prompt Engineering Specialist”, “focus”: “LLM-as-a-Judge / Evaluation Reliability”, “version”: “1.0”} 本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証)です。

LLM評価の客観性を担保する「ルーブリック型フォーム入力」プロンプト設計

【ユースケース定義と課題】

AIチャットボットの回答品質を自動評価したいが、採点基準が曖昧でLLMの出力が不安定になる課題を、詳細なルーブリックと理由記述の義務化により解決する。

  • 入力: ユーザーの質問、AIの回答、正解/参照情報

  • 出力: 指定された評価項目ごとのスコアと根拠(Markdownフォーマット)

【プロンプト設計のループ】

graph TD
A["ルーブリック定義"] --> B["思考プロセス(CoT)の強制"]
B --> C["フォーム形式での抽出"]
C --> D["人間による評価一致度検証"]
D -->|不一致箇所の基準修正| A
  1. ルーブリック定義: 1〜5点の各点数に具体的な「どのような状態か」を定義。

  2. 思考プロセス(CoT)の強制: 採点前に「なぜその点数になるか」を分析させる。

  3. フォーム形式での抽出: 出力揺れを防ぐため、Markdownの表形式や特定のKeyを定めた形式で出力。

【プロンプトの実装案】

# Role

あなたは高品質なカスタマーサポートの品質管理(QA)担当者です。
以下の「評価ルーブリック」に基づき、AIの回答を厳格に評価してください。

# 評価ルーブリック


- 1点(不適切): 誤情報を含んでいる、または質問を無視している。

- 2点(不十分): 致命的な誤りはないが、重要な情報が欠けている。

- 3点(許容範囲): 質問に最低限答えているが、説明が不親切。

- 4点(良好): 正確で親切。必要な情報がすべて含まれている。

- 5点(卓越): 完璧な回答に加え、ユーザーの潜在的な懸念にも配慮している。

# 評価ステップ


1. [Analysis]: ユーザーの意図とAIの回答を比較し、相違点や不足点を箇条書きで抽出せよ。

2. [Evidence]: ルーブリックのどの基準に該当するか、回答の具体的一節を引用して説明せよ。

3. [Score]: 1-5の整数で採点せよ。

# Input Data


- ユーザーの質問: {{user_query}}

- AIの回答: {{ai_response}}

# Output Format

## 評価レポート


- 分析: 

- 根拠: 

- スコア: 

【評価指標と誤り分析】

LLM-as-a-Judgeを運用する際、以下の「幻覚」や「バイアス」に注意が必要です。

失敗パターン 内容 対策
中心化傾向 すべての回答に「3」や「4」を付けてしまう 偶数スケール(1-4)の採用や、極端な例をFew-shotで提示
後光効果 文体が丁寧なだけで内容の誤りを見逃す 「正確性」と「丁寧さ」の評価項目を完全に分離する
様式崩れ 理由を書かずにスコアだけ出力する Scoreを最後に出力させるプロンプト順序の徹底

【改良後の最適プロンプト】

分析結果に基づき、バイアスを排除し構造化出力を保証する「最強プロンプト」です。

# Instructions

Evaluate the AI response based on the following specific criteria. 
You must fill out the form step-by-step. Logical reasoning is mandatory before final scoring.

# Criteria


1. Accuracy (1-5): Does the response align with factual truth?

2. Completeness (1-5): Are all parts of the user's question addressed?

3. Tone (1-5): Is the language professional and helpful?

# Evaluation Form (Must be filled)

## Step 1: Internal Thought Process

(Analyze the input and identify any discrepancies, missing info, or excellent points.)

## Step 2: Scoring Rubric Application


- Accuracy Score: [1-5]

- Accuracy Justification: (Max 2 sentences)

- Completeness Score: [1-5]

- Completeness Justification: (Max 2 sentences)

- Tone Score: [1-5]

- Tone Justification: (Max 2 sentences)

## Step 3: Final Judgment


- Overall Grade: [S/A/B/C/D]

- Improvement Suggestion: (Specific advice for the AI)

# Data


- User: {{user_query}}

- Response: {{ai_response}}

【まとめ】

実務でLLM-as-a-judgeを運用するための3つの鉄則:

  1. Reasoning-First: スコアを出す前に必ず「分析」と「根拠」を言語化させる(Chain-of-Thoughtの適用)。

  2. 分離評価: 「正確性」「簡潔さ」「トーン」など、複数の独立した指標で個別に採点させる。

  3. アンカー提示: 満点(5点)と最低点(1点)の具体例をFew-shotとしてプロンプトに組み込む。

ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました