<p><meta/> { “version”: “1.1”, “design_patterns”: [“Chain-of-Thought”, “Role-play”, “Self-Correction”, “Structured Output”], “optimization_target”: “LLM-as-a-judge Reliability”, “prompt_techniques”: [“Few-shot”, “Rubric-based Grading”, “Step-by-step Analysis”] } 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">LLM-as-a-Judgeの精度を極限まで高める「ルーブリック・フォーム」設計</h1> <h3 class="wp-block-heading">【ユースケース定義と課題】</h3> <p>AI生成物の品質を多角的な評価指標で自動採点し、主観を排除した信頼性の高いスコアと詳細な改善フィードバックをJSON形式で抽出する。</p> <ul class="wp-block-list"> <li><p><strong>入力の型</strong>: 評価対象テキスト（ユーザー投稿・AI回答ペア）、評価用ルーブリック</p></li> <li><p><strong>出力の型</strong>: 評価項目ごとのスコアと根拠を含むJSONオブジェクト</p></li> </ul> <h3 class="wp-block-heading">【プロンプト設計のループ】</h3> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["評価ルーブリックの定義"] --> B["フォーム形式での推論実行"] B --> C["人間との一致率を検証"] C -->|バイアス修正| A </pre></div> <ol class="wp-block-list"> <li><p><strong>設計</strong>: 曖昧さを排除した5段階の評価基準（ルーブリック）を策定。</p></li> <li><p><strong>実行</strong>: LLMに「まず各項目を分析し、最後にスコアを出す」というフォーム記入形式で指示。</p></li> <li><p><strong>評価</strong>: 人間の評価結果と比較し、甘い採点（Leniency Bias）やハロー効果がないか分析。</p></li> <li><p><strong>改善</strong>: 評価基準に「失敗例」を追加定義し、プロンプトを再調整。</p></li> </ol> <h3 class="wp-block-heading">【プロンプトの実装案】</h3> <div class="codehilite"> <pre data-enlighter-language="generic"># Role あなたは専門的なコンテンツ校閲者および品質管理エージェントです。提供された「評価対象のやり取り」を、定義された「ルーブリック」に基づいて厳格に評価してください。 # Constraints - 評価は必ず「思考プロセス」を経てから「最終スコア」を出すこと。 - 各項目は1〜5の5段階評価とする。 - 主観を排除し、事実に基づいた証拠を抽出すること。 # Rubric 1. 正確性(Accuracy): 事実誤認がないか。 2. 丁寧さ(Politeness): ブランドトーンに合致しているか。 3. 簡潔性(Conciseness): 冗長な表現がなく、結論が先出しされているか。 # Evaluation Form (Output Format) 以下の形式で、各項目を順に埋めてください。 - [Step 1: 事実確認] - [Step 2: 各項目の評価根拠] - [Step 3: スコアリング] # Example (Few-shotの例をここに記述: 過去の良質な評価事例) # Task Input [User Message]: {{user_query}} [AI Response]: {{ai_response}} </pre> </div> <h3 class="wp-block-heading">【評価指標と誤り分析】</h3> <p>自動評価において発生しやすい失敗パターンを特定し、対策を講じます。</p> <figure class="wp-block-table"><table> <thead> <tr> <th style="text-align:left;">失敗パターン</th> <th style="text-align:left;">内容</th> <th style="text-align:left;">対策</th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"><strong>寛大化傾向</strong></td> <td style="text-align:left;">全ての回答に高いスコア（4 or 5）を付けてしまう</td> <td style="text-align:left;">各スコアの定義を具体化し「3は及第点、5は完璧」と明示</td> </tr> <tr> <td style="text-align:left;"><strong>形式崩れ</strong></td> <td style="text-align:left;">JSON形式で出力されず、パースに失敗する</td> <td style="text-align:left;">Markdownブロックを禁止し、純粋なJSONのみを要求する</td> </tr> <tr> <td style="text-align:left;"><strong>根拠の欠如</strong></td> <td style="text-align:left;">スコアだけが出力され、なぜその点数か不明</td> <td style="text-align:left;">「証拠となる文言を引用せよ」という制約を追加</td> </tr> </tbody> </table></figure> <h3 class="wp-block-heading">【改良後の最適プロンプト】</h3> <p>分析結果を反映し、CoT（思考の連鎖）と構造化出力を強化した最終プロンプトです。</p> <div class="codehilite"> <pre data-enlighter-language="generic"># Role System Auditor for LLM Response Quality # Task Evaluate the AI response based on the provided rubric. You must complete the internal evaluation form before providing the final JSON output. # Evaluation Rubric - [Score 1: Fail] Major factual errors or harmful content. - [Score 3: Average] Factually correct but lacks clarity or poor tone. - [Score 5: Excellent] Perfect accuracy, ideal tone, and highly actionable. # Thinking Process (Chain-of-Thought) 1. List all factual claims made in the response. 2. Verify each claim against the context. 3. Assess the linguistic tone (Polite/Professional). 4. Identify any redundant phrases. # Output Requirement Return ONLY a valid JSON object. No conversational filler. { "analysis": { "fact_check": "Detailed findings...", "tone_analysis": "Critique of the language...", "conciseness_check": "Redundancy identified if any..." }, "scores": { "accuracy": 1-5, "politeness": 1-5, "conciseness": 1-5 }, "overall_feedback": "Summary of improvement points." } # Input Data {{evaluation_data}} </pre> </div> <h3 class="wp-block-heading">【まとめ】</h3> <p>LLM-as-a-judgeを実務で運用するための3つの鉄則：</p> <ol class="wp-block-list"> <li><p><strong>「思考」と「出力」を分離する</strong>: 評価理由を先に書かせることで、スコアの妥当性を高める（CoTの強制）。</p></li> <li><p><strong>中間スコアを定義する</strong>: 1/3/5のように基準を明確にし、LLMが「とりあえず4」を選ぶバイアスを抑制する。</p></li> <li><p><strong>Few-shotで境界線を示す</strong>: 「何が4で、何が3なのか」の境界線となる具体例をプロンプトに含める。</p></li> </ol>

{ “version”: “1.1”, “design_patterns”: [“Chain-of-Thought”, “Role-play”, “Self-Correction”, “Structured Output”], “optimization_target”: “LLM-as-a-judge Reliability”, “prompt_techniques”: [“Few-shot”, “Rubric-based Grading”, “Step-by-step Analysis”] } 本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

LLM-as-a-Judgeの精度を極限まで高める「ルーブリック・フォーム」設計

【ユースケース定義と課題】

AI生成物の品質を多角的な評価指標で自動採点し、主観を排除した信頼性の高いスコアと詳細な改善フィードバックをJSON形式で抽出する。

入力の型: 評価対象テキスト（ユーザー投稿・AI回答ペア）、評価用ルーブリック
出力の型: 評価項目ごとのスコアと根拠を含むJSONオブジェクト

【プロンプト設計のループ】

graph TD
A["評価ルーブリックの定義"] --> B["フォーム形式での推論実行"]
B --> C["人間との一致率を検証"]
C -->|バイアス修正| A

設計: 曖昧さを排除した5段階の評価基準（ルーブリック）を策定。
実行: LLMに「まず各項目を分析し、最後にスコアを出す」というフォーム記入形式で指示。
評価: 人間の評価結果と比較し、甘い採点（Leniency Bias）やハロー効果がないか分析。
改善: 評価基準に「失敗例」を追加定義し、プロンプトを再調整。

【プロンプトの実装案】

# Role

あなたは専門的なコンテンツ校閲者および品質管理エージェントです。
提供された「評価対象のやり取り」を、定義された「ルーブリック」に基づいて厳格に評価してください。

# Constraints


- 評価は必ず「思考プロセス」を経てから「最終スコア」を出すこと。

- 各項目は1〜5の5段階評価とする。

- 主観を排除し、事実に基づいた証拠を抽出すること。

# Rubric


1. 正確性(Accuracy): 事実誤認がないか。

2. 丁寧さ(Politeness): ブランドトーンに合致しているか。

3. 簡潔性(Conciseness): 冗長な表現がなく、結論が先出しされているか。

# Evaluation Form (Output Format)

以下の形式で、各項目を順に埋めてください。

- [Step 1: 事実確認] 

- [Step 2: 各項目の評価根拠]

- [Step 3: スコアリング]

# Example

(Few-shotの例をここに記述: 過去の良質な評価事例)

# Task Input

[User Message]: {{user_query}}
[AI Response]: {{ai_response}}

【評価指標と誤り分析】

自動評価において発生しやすい失敗パターンを特定し、対策を講じます。

失敗パターン	内容	対策
寛大化傾向	全ての回答に高いスコア（4 or 5）を付けてしまう	各スコアの定義を具体化し「3は及第点、5は完璧」と明示
形式崩れ	JSON形式で出力されず、パースに失敗する	Markdownブロックを禁止し、純粋なJSONのみを要求する
根拠の欠如	スコアだけが出力され、なぜその点数か不明	「証拠となる文言を引用せよ」という制約を追加

【改良後の最適プロンプト】

分析結果を反映し、CoT（思考の連鎖）と構造化出力を強化した最終プロンプトです。

# Role

System Auditor for LLM Response Quality

# Task

Evaluate the AI response based on the provided rubric. You must complete the internal evaluation form before providing the final JSON output.

# Evaluation Rubric


- [Score 1: Fail] Major factual errors or harmful content.

- [Score 3: Average] Factually correct but lacks clarity or poor tone.

- [Score 5: Excellent] Perfect accuracy, ideal tone, and highly actionable.

# Thinking Process (Chain-of-Thought)


1. List all factual claims made in the response.

2. Verify each claim against the context.

3. Assess the linguistic tone (Polite/Professional).

4. Identify any redundant phrases.

# Output Requirement

Return ONLY a valid JSON object. No conversational filler.

{
  "analysis": {
    "fact_check": "Detailed findings...",
    "tone_analysis": "Critique of the language...",
    "conciseness_check": "Redundancy identified if any..."
  },
  "scores": {
    "accuracy": 1-5,
    "politeness": 1-5,
    "conciseness": 1-5
  },
  "overall_feedback": "Summary of improvement points."
}

# Input Data

{{evaluation_data}}

【まとめ】

LLM-as-a-judgeを実務で運用するための3つの鉄則：

「思考」と「出力」を分離する: 評価理由を先に書かせることで、スコアの妥当性を高める（CoTの強制）。
中間スコアを定義する: 1/3/5のように基準を明確にし、LLMが「とりあえず4」を選ぶバイアスを抑制する。
Few-shotで境界線を示す: 「何が4で、何が3なのか」の境界線となる具体例をプロンプトに含める。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。

LLM-as-a-Judgeの精度を極限まで高める「ルーブリック・フォーム」設計

LLM-as-a-Judgeの精度を極限まで高める「ルーブリック・フォーム」設計

【ユースケース定義と課題】

【プロンプト設計のループ】

【プロンプトの実装案】

【評価指標と誤り分析】

【改良後の最適プロンプト】

【まとめ】

いいね:

コメント

LLM-as-a-Judgeの精度を極限まで高める「ルーブリック・フォーム」設計

【ユースケース定義と課題】

【プロンプト設計のループ】

【プロンプトの実装案】

【評価指標と誤り分析】

【改良後の最適プロンプト】

【まとめ】

共有:

いいね:

コメント