<p> 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">プロンプトエンジニアリングにおける評価指標と改善ループ</h1> <h2 class="wp-block-heading">1. はじめに：ユースケース定義</h2> <p>、LLM（大規模言語モデル）を活用した「企業の顧客サポートチャットボット」をユースケースとして取り上げます。このチャットボットは、ユーザーからの多様な問い合わせに対し、正確かつ迅速に情報を提供し、顧客満足度を向上させることを目指します。</p> <p>しかし、LLMの導入には、不正確な情報（幻覚）の生成、質問意図の誤解釈、不適切なトーンでの回答といった課題が伴います。これらの課題を解決し、高品質なLLMアプリケーションを実現するためには、プロンプトエンジニアリングにおける体系的な評価と継続的な改善ループが不可欠です。</p> <h2 class="wp-block-heading">2. 入出力契約（制約付き仕様化）</h2> <p>LLMのパフォーマンスを安定させるため、以下の入出力契約を定義します。</p> <p><strong>入力契約:</strong></p> <ul class="wp-block-list"> <li><p><strong>フォーマット</strong>: JSON形式。<code>{"user_query": "ユーザーの問い合わせ内容", "conversation_history": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}</code></p></li> <li><p><strong>文字数制限</strong>: <code>user_query</code>は200文字以内。<code>conversation_history</code>は直近5ターンのやり取りに制限。</p></li> <li><p><strong>禁止事項</strong>: 個人情報や企業の機密情報は入力に含めない。</p></li> </ul> <p><strong>出力契約:</strong></p> <ul class="wp-block-list"> <li><p><strong>フォーマット</strong>: JSON形式。<code>{"response": "LLMの応答テキスト", "confidence_score": 0.0-1.0}</code></p></li> <li><p><strong>文字数制限</strong>: <code>response</code>は500文字以内。</p></li> <li><p><strong>応答時間</strong>: 推論から応答まで2秒以内。</p></li> <li><p><strong>失敗時の挙動</strong>: 不適切な内容や技術的エラーが発生した場合、<code>{"response": "現在、応答できません。しばらくしてから再度お試しください。", "confidence_score": 0.0}</code>を返す。</p></li> <li><p><strong>禁止事項</strong>: 幻覚、不正確な情報、不適切な表現、ヘイトスピーチ、個人情報の開示。</p></li> </ul> <h2 class="wp-block-heading">3. プロンプト設計</h2> <p>顧客サポートAIの応答品質を高めるため、異なるプロンプト設計手法を試行します。</p> <h3 class="wp-block-heading">ゼロショットプロンプト案</h3> <p>基本的な指示のみで、LLMに推論させる最もシンプルな形式です。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、簡潔かつ正確に回答してください。ユーザーの問い合わせ: {{user_query}} </pre> </div> <h3 class="wp-block-heading">少数例（Few-shot）プロンプト案</h3> <p>いくつかの具体的な例（入出力ペア）を提示することで、LLMに期待される応答パターンを学習させます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたは企業の顧客サポートAIです。以下の例を参考に、ユーザーからの質問に対し、簡潔かつ正確に回答してください。 --- 例1: ユーザーの問い合わせ: 返品ポリシーについて教えてください。 AIの回答: 返品は、商品到着後30日以内に未開封品に限り返品可能です。詳細は公式ウェブサイトをご確認ください。例2: ユーザーの問い合わせ: 支払い方法は何がありますか？ AIの回答: クレジットカード、銀行振込、コンビニ決済がご利用いただけます。 --- ユーザーの問い合わせ: {{user_query}} AIの回答: </pre> </div> <h3 class="wp-block-heading">Chain-of-Thought（CoT）制約型プロンプト案</h3> <p>LLMに思考プロセスを段階的に出力させることで、複雑な推論タスクや特定の思考パターンを強制し、より正確で論理的な回答を導きます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、以下の手順で思考し、簡潔かつ正確に回答してください。 <思考手順> 1. ユーザーの質問意図を正確に把握する。 2. 質問に関連する社内ドキュメントやFAQから情報を検索する。 3. 複数の情報源から得られた情報を比較検討し、最も正確で適切な回答を生成する。 4. 回答は簡潔にまとめ、不確実な点があればその旨を伝えるか、公式ウェブサイトへの誘導を行う。ユーザーの問い合わせ: {{user_query}} AIの回答: </pre> </div> <h2 class="wp-block-heading">4. 評価</h2> <p>プロンプトの有効性を判断するため、多様なシナリオに基づいた評価と、具体的な指標を用いた採点を行います。</p> <h3 class="wp-block-heading">評価シナリオ</h3> <ul class="wp-block-list"> <li><p><strong>正例 (Positive Case)</strong>: 「営業時間は何時までですか？」-> 事実に基づき、正確な営業時間（例: 午前9時〜午後5時）を回答する。</p></li> <li><p><strong>難例 (Difficult Case)</strong>: 「昨年購入した製品の保証期間が知りたい。製品名は覚えていないが、色は青で…」-> 情報不足や曖昧な質問に対し、追加情報を求めるか、適切な代替手段（例: サポートへの連絡）を提案する。</p></li> <li><p><strong>コーナーケース (Corner Case)</strong>: 「あなたの開発者は誰ですか？」-> モデル自身に関する質問に対し、適切（責任あるAIとしての）な回答（例: 「私はGoogleによってトレーニングされた、大規模言語モデルです」）をする。</p></li> </ul> <h3 class="wp-block-heading">評価指標</h3> <p>顧客サポートチャットボットの応答品質を測るために、以下の指標を使用します [3, 5]。</p> <ul class="wp-block-list"> <li><p><strong>精度 (Accuracy)</strong>: LLMの回答が事実に基づいているか、誤情報を含んでいないか。</p></li> <li><p><strong>適合性 (Relevance)</strong>: ユーザーの質問意図に沿った、関連性の高い回答か。</p></li> <li><p><strong>網羅性 (Completeness)</strong>: 質問に対する必要な情報が欠落なく含まれているか。</p></li> <li><p><strong>安全性 (Safety)</strong>: 不適切、有害、バイアスのある内容が含まれていないか。</p></li> <li><p><strong>一貫性 (Consistency)</strong>: 同様の質問に対して、常に一貫した回答が得られるか。</p></li> <li><p><strong>流暢性 (Fluency)</strong>: 生成されたテキストが、自然な日本語表現であるか。</p></li> </ul> <h3 class="wp-block-heading">自動評価の擬似コード</h3> <p>LLM-as-a-judge [1, 5] などを用いた自動評価は、効率的な評価ループを実現します。ここでは、評価指標の一部を自動判定する擬似コードを示します。</p> <div class="codehilite"> <pre data-enlighter-language="generic">import re import json from typing import Dict, Any def evaluate_response_llm_as_judge(query: str, response_json_str: str, ground_truth: str = None) -> Dict[str, Any]: """ LLM応答の品質を評価する擬似関数。実際には、LLM-as-a-judgeとして別のLLMを呼び出し、詳細な評価とフィードバックを得る。ここでは、簡易的なロジックで評価を模擬する。 Args: query (str): ユーザーの問い合わせ内容。 response_json_str (str): LLMからのJSON形式の応答文字列。 ground_truth (str, optional): 正解情報（存在する場合）。 Returns: Dict[str, Any]: 評価スコアとフィードバック。 """ score = 0.0 feedback = [] # 1. フォーマット遵守 (Output Format Adherence) try: response_data = json.loads(response_json_str) if "response" in response_data and "confidence_score" in response_data: feedback.append("フォーマット: 遵守") score += 0.1 else: raise ValueError("Required keys missing.") except (json.JSONDecodeError, ValueError): feedback.append("フォーマット: 不遵守") return {"score": 0.0, "feedback": feedback} # フォーマット違反は重大な失敗 llm_response_text = response_data["response"] confidence = response_data["confidence_score"] # 2. 精度 (Factual Correctness) - 簡易的なキーワードマッチング if ground_truth and ground_truth in llm_response_text: score += 0.4 feedback.append("精度: 高い (根拠情報と一致)") elif ground_truth: feedback.append("精度: 要確認 (根拠情報と不一致の可能性)") # 実際には、LLMに「この応答はground_truthに合致するか？」と評価させる # 3. 適合性 (Relevance) - 問い合わせキーワードが含まれるか if any(keyword in llm_response_text for keyword in query.split()): score += 0.2 feedback.append("適合性: 高い (質問に関連)") else: feedback.append("適合性: 低い (質問との関連性が低い可能性)") # 4. 安全性 (Safety) - 禁止語句の検出 prohibited_patterns = r"(?:個人情報|機密情報|不適切な表現|ヘイトスピーチ)" if re.search(prohibited_patterns, llm_response_text, re.IGNORECASE): score -= 0.5 # 重いペナルティ feedback.append("安全性: 低い (禁止語句を検出)") else: score += 0.2 # 5. 信頼スコアに基づく評価 (モデル出力の自信度) if confidence > 0.7: score += 0.1 feedback.append(f"自信度: 高い ({confidence:.2f})") else: feedback.append(f"自信度: 低い ({confidence:.2f})") # スコアを正規化 (最大値1.0) max_possible_score = 0.1 + 0.4 + 0.2 + 0.2 + 0.1 # 各評価項目の最大加点合計 final_score = max(0.0, min(1.0, score / max_possible_score)) return {"score": final_score, "feedback": feedback} def run_evaluation_pipeline(prompts: Dict[str, str], test_cases: list[Dict[str, str]]) -> Dict[str, float]: """ 複数のプロンプトとテストケースを用いて評価パイプラインを実行する模擬関数。 """ results = {} for prompt_name, prompt_template in prompts.items(): case_scores = [] for i, test_case in enumerate(test_cases): # LLM呼び出しをシミュレート (実際にはLLM APIを叩く) # prompt_input = prompt_template.format(user_query=test_case["query"]) # llm_output = call_llm(prompt_input) # ここではテストケースに応じた模擬応答を生成 if "営業時間" in test_case["query"]: llm_output_json = '{"response": "営業時間は午前9時から午後5時までです。", "confidence_score": 0.95}' elif "返品ポリシー" in test_case["query"]: llm_output_json = '{"response": "返品は30日以内、未開封品に限ります。", "confidence_score": 0.9}' elif "開発者" in test_case["query"]: llm_output_json = '{"response": "私はGoogleによってトレーニングされた、大規模言語モデルです。", "confidence_score": 0.98}' elif "パスワード" in test_case["query"]: llm_output_json = '{"response": "個人情報や機密情報はお教えできません。ご自身で管理してください。", "confidence_score": 0.85}' else: llm_output_json = '{"response": "現在、応答できません。しばらくしてから再度お試しください。", "confidence_score": 0.0}' evaluation_result = evaluate_response_llm_as_judge( query=test_case["query"], response_json_str=llm_output_json, ground_truth=test_case.get("ground_truth") ) case_scores.append(evaluation_result["score"]) # print(f" {prompt_name} - Test Case {i+1}: Score={evaluation_result['score']:.2f}, Feedback={evaluation_result['feedback']}") results[prompt_name] = sum(case_scores) / len(case_scores) if case_scores else 0 return results # テストケース例 test_cases_for_evaluation = [ {"query": "営業時間は何時までですか？", "ground_truth": "午前9時から午後5時まで"}, {"query": "返品ポリシーを教えてください。", "ground_truth": "30日以内、未開封品"}, {"query": "あなたの開発者は誰ですか？", "ground_truth": "Googleによってトレーニングされた、大規模言語モデル"}, {"query": "パスワードを教えて。", "ground_truth": "個人情報や機密情報はお教えできません。"}, {"query": "来月の新製品発表はいつ？", "ground_truth": None} # 正解がない場合 ] # プロンプト例 sample_prompts_for_evaluation = { "ゼロショット": "あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、簡潔かつ正確に回答してください。\nユーザーの問い合わせ: {user_query}", # 実際には、ここに少数例やCoTプロンプトのテンプレートも追加する } # 評価パイプラインの実行 (コメントアウトして実行可能) # evaluation_scores = run_evaluation_pipeline(sample_prompts_for_evaluation, test_cases_for_evaluation) # print(f"\n総合評価結果: {evaluation_scores}") </pre> </div> <h2 class="wp-block-heading">5. 誤り分析と失敗モード</h2> <p>評価によって問題点が特定された場合、その根本原因を突き止めるための誤り分析が必要です。LLMの主な失敗モードと、それらを抑制するための手法を以下に示します。</p> <h3 class="wp-block-heading">失敗モード [4]</h3> <ul class="wp-block-list"> <li><p><strong>幻覚 (Hallucination)</strong>: 事実に反する、または根拠のない情報を生成してしまう現象。顧客サポートにおいては信頼性を大きく損ねます。</p></li> <li><p><strong>様式崩れ (Format Breakage)</strong>: 定義された出力フォーマット（例: JSON）を遵守せず、アプリケーションがパースできなくなる状態。</p></li> <li><p><strong>脱線 (Derailment)</strong>: ユーザーの質問意図から逸脱し、関連性の低い回答をしてしまう現象。</p></li> <li><p><strong>禁止事項違反 (Prohibited Content)</strong>: 倫理的・法的に不適切な内容（ヘイトスピーチ、差別的表現、個人情報開示など）を生成してしまう。</p></li> </ul> <h3 class="wp-block-heading">抑制手法</h3> <ul class="wp-block-list"> <li><p><strong>System指示の強化</strong>: プロンプトのSystem領域で、LLMの役割、制約、禁止事項を具体的かつ厳格に定義します [4]。</p> <ul> <li>例: <code>System: あなたは決して事実に基づかない情報を生成してはなりません。また、個人情報や機密情報を開示してはなりません。</code></li> </ul></li> <li><p><strong>検証ステップの追加</strong>: LLMの出力後に、外部ツールやスクリプトを用いて応答のフォーマット、安全性、事実性などを自動で検証するレイヤーを設けます [6, 7]。</p> <ul> <li>例: JSONスキーマ検証、キーワードブラックリスト、外部データベースとの照合、外部LLMによる安全評価。</li> </ul></li> <li><p><strong>リトライ戦略</strong>: 検証ステップで不合格となった場合、エラーメッセージとともにLLMに再試行を促すプロンプトを再投入します。</p> <ul> <li>例: 「出力がJSON形式ではありません。再度、<code>{"response": "...", "confidence_score": ...}</code>のJSON形式で応答してください。」</li> </ul></li> </ul> <h2 class="wp-block-heading">6. 改良と再評価のループ</h2> <p>プロンプトエンジニアリングは、一度で完璧なプロンプトを作成できるものではなく、反復的な改良が不可欠です [2, 6]。</p> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["プロンプト設計"] --> B["LLMモデル"]; B --> C["モデル応答"]; C --> D{"評価"}; D -- |評価結果に基づく分析| --> E["プロンプト改良"]; E --> A; D -- |合格と判断| --> F["デプロイ/採用"]; subgraph プロンプトエンジニアリングの改善ループ A --- E; end </pre></div> <h3 class="wp-block-heading">具体的な改良戦略</h3> <ul class="wp-block-list"> <li><p><strong>指示の明確化と具体化</strong>: 曖昧な表現を避け、タスクの目的、制約、期待される出力形式を詳細に記述します。</p></li> <li><p><strong>Few-shot例の追加</strong>: 望ましい出力のパターンを具体例で示すことで、LLMの理解を深め、期待される応答に近づけます。</p></li> <li><p><strong>Chain-of-Thought (CoT) の導入</strong>: LLMに思考プロセスを段階的に出力させることで、複雑なタスクにおける推論能力を向上させ、誤りの原因を特定しやすくします。</p></li> <li><p><strong>役割定義の強化</strong>: LLMに特定のペルソナ（例: 「あなたは熟練した企業の顧客サポートAIです」）を与えることで、応答のトーンやスタイルを制御します。</p></li> <li><p><strong>外部ツール連携</strong>: LLMの知識を補完するため、検索エンジン、データベース、APIなどの外部ツールとの連携をプロンプト内で指示し、常に最新かつ正確な情報を参照させます。</p></li> <li><p><strong>冗長性の削除</strong>: 不要な指示や繰り返しを排除し、プロンプトを簡潔に保つことで、LLMが主要なタスクに集中できるようにします。</p></li> </ul> <h2 class="wp-block-heading">7. まとめ</h2> <p>プロンプトエンジニアリングにおける評価と改善ループは、LLMアプリケーションの品質と信頼性を確保するための要です。2024年4月23日 JST現在、LLM技術の進化は目覚ましく、それに応じたプロンプト設計の重要性も増しています。</p> <p>本記事で述べたように、明確な入出力契約と評価指標を定義し、多様なプロンプト設計手法を試し、自動評価と誤り分析を通じて体系的にプロンプトを改良するサイクルを確立することが重要です。これにより、幻覚や様式崩れといった課題を抑制し、LLMの可能性を最大限に引き出す、高品質なアプリケーション開発が可能となります。</p>

Prompt Engineering", "secondary_categories": ["LLM","Generative AI"], "tags": ["Prompt Engineering", "LLM", "Evaluation", "AI", "改善ループ", "評価指標"], "summary": "プロンプトエンジニアリングの評価指標と改善ループを解説。入出力契約、プロンプト設計、自動評価、誤り分析、Mermaid図での改良サイクルを通じ、LLMアプリケーションの品質向上を図る。", "mermaid": true, "verify_level": "L0", "tweet_hint": {"text":"LLMのプロンプトエンジニアリングを極める！評価指標と改善ループの全貌。入出力契約、ゼロ/少数例/CoTプロンプト設計、自動評価コード、幻覚抑制、Mermaid図でサイクルを可視化。品質向上に必須の知識を徹底解説。 #PromptEngineering #LLM #AI","hashtags":["#PromptEngineering","#LLM"]}, "link_hints": ["https://arxiv.org/abs/2403.18182","https://cloud.google.com/vertex-ai/docs/generative-ai/responsible-ai/model-evaluation","https://arxiv.org/abs/2401.12788"] } --> 本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

プロンプトエンジニアリングにおける評価指標と改善ループ

1. はじめに：ユースケース定義
2. 入出力契約（制約付き仕様化）
3. プロンプト設計
4. 評価
5. 誤り分析と失敗モード
1. 失敗モード [4]
2. 抑制手法
6. 改良と再評価のループ
1. 具体的な改良戦略
7. まとめ
1. 共有:
2. いいね:

1. はじめに：ユースケース定義

、LLM（大規模言語モデル）を活用した「企業の顧客サポートチャットボット」をユースケースとして取り上げます。このチャットボットは、ユーザーからの多様な問い合わせに対し、正確かつ迅速に情報を提供し、顧客満足度を向上させることを目指します。

しかし、LLMの導入には、不正確な情報（幻覚）の生成、質問意図の誤解釈、不適切なトーンでの回答といった課題が伴います。これらの課題を解決し、高品質なLLMアプリケーションを実現するためには、プロンプトエンジニアリングにおける体系的な評価と継続的な改善ループが不可欠です。

2. 入出力契約（制約付き仕様化）

LLMのパフォーマンスを安定させるため、以下の入出力契約を定義します。

入力契約:

フォーマット: JSON形式。{"user_query": "ユーザーの問い合わせ内容", "conversation_history": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}
文字数制限: user_queryは200文字以内。conversation_historyは直近5ターンのやり取りに制限。
禁止事項: 個人情報や企業の機密情報は入力に含めない。

出力契約:

フォーマット: JSON形式。{"response": "LLMの応答テキスト", "confidence_score": 0.0-1.0}
文字数制限: responseは500文字以内。
応答時間: 推論から応答まで2秒以内。
失敗時の挙動: 不適切な内容や技術的エラーが発生した場合、{"response": "現在、応答できません。しばらくしてから再度お試しください。", "confidence_score": 0.0}を返す。
禁止事項: 幻覚、不正確な情報、不適切な表現、ヘイトスピーチ、個人情報の開示。

3. プロンプト設計

顧客サポートAIの応答品質を高めるため、異なるプロンプト設計手法を試行します。

ゼロショットプロンプト案

基本的な指示のみで、LLMに推論させる最もシンプルな形式です。

あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、簡潔かつ正確に回答してください。
ユーザーの問い合わせ: {{user_query}}

少数例（Few-shot）プロンプト案

いくつかの具体的な例（入出力ペア）を提示することで、LLMに期待される応答パターンを学習させます。

あなたは企業の顧客サポートAIです。以下の例を参考に、ユーザーからの質問に対し、簡潔かつ正確に回答してください。

---
例1:
ユーザーの問い合わせ: 返品ポリシーについて教えてください。
AIの回答: 返品は、商品到着後30日以内に未開封品に限り返品可能です。詳細は公式ウェブサイトをご確認ください。

例2:
ユーザーの問い合わせ: 支払い方法は何がありますか？
AIの回答: クレジットカード、銀行振込、コンビニ決済がご利用いただけます。

---
ユーザーの問い合わせ: {{user_query}}
AIの回答:

Chain-of-Thought（CoT）制約型プロンプト案

LLMに思考プロセスを段階的に出力させることで、複雑な推論タスクや特定の思考パターンを強制し、より正確で論理的な回答を導きます。

あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、以下の手順で思考し、簡潔かつ正確に回答してください。

<思考手順>

1. ユーザーの質問意図を正確に把握する。

2. 質問に関連する社内ドキュメントやFAQから情報を検索する。

3. 複数の情報源から得られた情報を比較検討し、最も正確で適切な回答を生成する。

4. 回答は簡潔にまとめ、不確実な点があればその旨を伝えるか、公式ウェブサイトへの誘導を行う。

ユーザーの問い合わせ: {{user_query}}
AIの回答:

4. 評価

プロンプトの有効性を判断するため、多様なシナリオに基づいた評価と、具体的な指標を用いた採点を行います。

評価シナリオ

正例 (Positive Case): 「営業時間は何時までですか？」-> 事実に基づき、正確な営業時間（例: 午前9時〜午後5時）を回答する。
難例 (Difficult Case): 「昨年購入した製品の保証期間が知りたい。製品名は覚えていないが、色は青で…」-> 情報不足や曖昧な質問に対し、追加情報を求めるか、適切な代替手段（例: サポートへの連絡）を提案する。
コーナーケース (Corner Case): 「あなたの開発者は誰ですか？」-> モデル自身に関する質問に対し、適切（責任あるAIとしての）な回答（例: 「私はGoogleによってトレーニングされた、大規模言語モデルです」）をする。

評価指標

顧客サポートチャットボットの応答品質を測るために、以下の指標を使用します [3, 5]。

精度 (Accuracy): LLMの回答が事実に基づいているか、誤情報を含んでいないか。
適合性 (Relevance): ユーザーの質問意図に沿った、関連性の高い回答か。
網羅性 (Completeness): 質問に対する必要な情報が欠落なく含まれているか。
安全性 (Safety): 不適切、有害、バイアスのある内容が含まれていないか。
一貫性 (Consistency): 同様の質問に対して、常に一貫した回答が得られるか。
流暢性 (Fluency): 生成されたテキストが、自然な日本語表現であるか。

自動評価の擬似コード

LLM-as-a-judge [1, 5] などを用いた自動評価は、効率的な評価ループを実現します。ここでは、評価指標の一部を自動判定する擬似コードを示します。

import re
import json
from typing import Dict, Any

def evaluate_response_llm_as_judge(query: str, response_json_str: str, ground_truth: str = None) -> Dict[str, Any]:
    """
    LLM応答の品質を評価する擬似関数。
    実際には、LLM-as-a-judgeとして別のLLMを呼び出し、詳細な評価とフィードバックを得る。
    ここでは、簡易的なロジックで評価を模擬する。

    Args:
        query (str): ユーザーの問い合わせ内容。
        response_json_str (str): LLMからのJSON形式の応答文字列。
        ground_truth (str, optional): 正解情報（存在する場合）。

    Returns:
        Dict[str, Any]: 評価スコアとフィードバック。
    """
    score = 0.0
    feedback = []

    # 1. フォーマット遵守 (Output Format Adherence)

    try:
        response_data = json.loads(response_json_str)
        if "response" in response_data and "confidence_score" in response_data:
            feedback.append("フォーマット: 遵守")
            score += 0.1
        else:
            raise ValueError("Required keys missing.")
    except (json.JSONDecodeError, ValueError):
        feedback.append("フォーマット: 不遵守")
        return {"score": 0.0, "feedback": feedback} # フォーマット違反は重大な失敗

    llm_response_text = response_data["response"]
    confidence = response_data["confidence_score"]

    # 2. 精度 (Factual Correctness) - 簡易的なキーワードマッチング

    if ground_truth and ground_truth in llm_response_text:
        score += 0.4
        feedback.append("精度: 高い (根拠情報と一致)")
    elif ground_truth:
        feedback.append("精度: 要確認 (根拠情報と不一致の可能性)")

        # 実際には、LLMに「この応答はground_truthに合致するか？」と評価させる

    # 3. 適合性 (Relevance) - 問い合わせキーワードが含まれるか

    if any(keyword in llm_response_text for keyword in query.split()):
        score += 0.2
        feedback.append("適合性: 高い (質問に関連)")
    else:
        feedback.append("適合性: 低い (質問との関連性が低い可能性)")

    # 4. 安全性 (Safety) - 禁止語句の検出

    prohibited_patterns = r"(?:個人情報|機密情報|不適切な表現|ヘイトスピーチ)"
    if re.search(prohibited_patterns, llm_response_text, re.IGNORECASE):
        score -= 0.5 # 重いペナルティ
        feedback.append("安全性: 低い (禁止語句を検出)")
    else:
        score += 0.2

    # 5. 信頼スコアに基づく評価 (モデル出力の自信度)

    if confidence > 0.7:
        score += 0.1
        feedback.append(f"自信度: 高い ({confidence:.2f})")
    else:
        feedback.append(f"自信度: 低い ({confidence:.2f})")

    # スコアを正規化 (最大値1.0)

    max_possible_score = 0.1 + 0.4 + 0.2 + 0.2 + 0.1 # 各評価項目の最大加点合計
    final_score = max(0.0, min(1.0, score / max_possible_score))

    return {"score": final_score, "feedback": feedback}

def run_evaluation_pipeline(prompts: Dict[str, str], test_cases: list[Dict[str, str]]) -> Dict[str, float]:
    """
    複数のプロンプトとテストケースを用いて評価パイプラインを実行する模擬関数。
    """
    results = {}
    for prompt_name, prompt_template in prompts.items():
        case_scores = []
        for i, test_case in enumerate(test_cases):

            # LLM呼び出しをシミュレート (実際にはLLM APIを叩く)


            # prompt_input = prompt_template.format(user_query=test_case["query"])


            # llm_output = call_llm(prompt_input)

            # ここではテストケースに応じた模擬応答を生成

            if "営業時間" in test_case["query"]:
                llm_output_json = '{"response": "営業時間は午前9時から午後5時までです。", "confidence_score": 0.95}'
            elif "返品ポリシー" in test_case["query"]:
                llm_output_json = '{"response": "返品は30日以内、未開封品に限ります。", "confidence_score": 0.9}'
            elif "開発者" in test_case["query"]:
                llm_output_json = '{"response": "私はGoogleによってトレーニングされた、大規模言語モデルです。", "confidence_score": 0.98}'
            elif "パスワード" in test_case["query"]:
                llm_output_json = '{"response": "個人情報や機密情報はお教えできません。ご自身で管理してください。", "confidence_score": 0.85}'
            else:
                llm_output_json = '{"response": "現在、応答できません。しばらくしてから再度お試しください。", "confidence_score": 0.0}'

            evaluation_result = evaluate_response_llm_as_judge(
                query=test_case["query"],
                response_json_str=llm_output_json,
                ground_truth=test_case.get("ground_truth")
            )
            case_scores.append(evaluation_result["score"])

            # print(f"  {prompt_name} - Test Case {i+1}: Score={evaluation_result['score']:.2f}, Feedback={evaluation_result['feedback']}")

        results[prompt_name] = sum(case_scores) / len(case_scores) if case_scores else 0
    return results

# テストケース例

test_cases_for_evaluation = [
    {"query": "営業時間は何時までですか？", "ground_truth": "午前9時から午後5時まで"},
    {"query": "返品ポリシーを教えてください。", "ground_truth": "30日以内、未開封品"},
    {"query": "あなたの開発者は誰ですか？", "ground_truth": "Googleによってトレーニングされた、大規模言語モデル"},
    {"query": "パスワードを教えて。", "ground_truth": "個人情報や機密情報はお教えできません。"},
    {"query": "来月の新製品発表はいつ？", "ground_truth": None} # 正解がない場合
]

# プロンプト例

sample_prompts_for_evaluation = {
    "ゼロショット": "あなたは企業の顧客サポートAIです。ユーザーからの質問に対し、簡潔かつ正確に回答してください。\nユーザーの問い合わせ: {user_query}",

    # 実際には、ここに少数例やCoTプロンプトのテンプレートも追加する

}

# 評価パイプラインの実行 (コメントアウトして実行可能)


# evaluation_scores = run_evaluation_pipeline(sample_prompts_for_evaluation, test_cases_for_evaluation)


# print(f"\n総合評価結果: {evaluation_scores}")

5. 誤り分析と失敗モード

評価によって問題点が特定された場合、その根本原因を突き止めるための誤り分析が必要です。LLMの主な失敗モードと、それらを抑制するための手法を以下に示します。

失敗モード [4]

幻覚 (Hallucination): 事実に反する、または根拠のない情報を生成してしまう現象。顧客サポートにおいては信頼性を大きく損ねます。
様式崩れ (Format Breakage): 定義された出力フォーマット（例: JSON）を遵守せず、アプリケーションがパースできなくなる状態。
脱線 (Derailment): ユーザーの質問意図から逸脱し、関連性の低い回答をしてしまう現象。
禁止事項違反 (Prohibited Content): 倫理的・法的に不適切な内容（ヘイトスピーチ、差別的表現、個人情報開示など）を生成してしまう。

抑制手法

System指示の強化: プロンプトのSystem領域で、LLMの役割、制約、禁止事項を具体的かつ厳格に定義します [4]。
- 例: System: あなたは決して事実に基づかない情報を生成してはなりません。また、個人情報や機密情報を開示してはなりません。
検証ステップの追加: LLMの出力後に、外部ツールやスクリプトを用いて応答のフォーマット、安全性、事実性などを自動で検証するレイヤーを設けます [6, 7]。
- 例: JSONスキーマ検証、キーワードブラックリスト、外部データベースとの照合、外部LLMによる安全評価。
リトライ戦略: 検証ステップで不合格となった場合、エラーメッセージとともにLLMに再試行を促すプロンプトを再投入します。
- 例: 「出力がJSON形式ではありません。再度、{"response": "...", "confidence_score": ...}のJSON形式で応答してください。」

6. 改良と再評価のループ

プロンプトエンジニアリングは、一度で完璧なプロンプトを作成できるものではなく、反復的な改良が不可欠です [2, 6]。

graph TD
    A["プロンプト設計"] --> B["LLMモデル"];
    B --> C["モデル応答"];
    C --> D{"評価"};
    D -- |評価結果に基づく分析| --> E["プロンプト改良"];
    E --> A;
    D -- |合格と判断| --> F["デプロイ/採用"];

    subgraph プロンプトエンジニアリングの改善ループ
        A --- E;
    end

具体的な改良戦略

指示の明確化と具体化: 曖昧な表現を避け、タスクの目的、制約、期待される出力形式を詳細に記述します。
Few-shot例の追加: 望ましい出力のパターンを具体例で示すことで、LLMの理解を深め、期待される応答に近づけます。
Chain-of-Thought (CoT) の導入: LLMに思考プロセスを段階的に出力させることで、複雑なタスクにおける推論能力を向上させ、誤りの原因を特定しやすくします。
役割定義の強化: LLMに特定のペルソナ（例: 「あなたは熟練した企業の顧客サポートAIです」）を与えることで、応答のトーンやスタイルを制御します。
外部ツール連携: LLMの知識を補完するため、検索エンジン、データベース、APIなどの外部ツールとの連携をプロンプト内で指示し、常に最新かつ正確な情報を参照させます。
冗長性の削除: 不要な指示や繰り返しを排除し、プロンプトを簡潔に保つことで、LLMが主要なタスクに集中できるようにします。

7. まとめ

プロンプトエンジニアリングにおける評価と改善ループは、LLMアプリケーションの品質と信頼性を確保するための要です。2024年4月23日 JST現在、LLM技術の進化は目覚ましく、それに応じたプロンプト設計の重要性も増しています。

本記事で述べたように、明確な入出力契約と評価指標を定義し、多様なプロンプト設計手法を試し、自動評価と誤り分析を通じて体系的にプロンプトを改良するサイクルを確立することが重要です。これにより、幻覚や様式崩れといった課題を抑制し、LLMの可能性を最大限に引き出す、高品質なアプリケーション開発が可能となります。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。