<p> 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">LLM入出力契約と失敗モード抑制：堅牢なプロンプト設計と評価戦略</h1> <p>大規模言語モデル（LLM）の応用が拡大するにつれて、その出力の信頼性と一貫性がアプリケーションの成否を左右する重要な要素となっています。本記事では、LLMとの「入出力契約」を明確に定義し、幻覚（Hallucination）や様式崩れといった典型的な失敗モードを抑制するためのプロンプト設計と評価戦略について詳述します。</p> <h2 class="wp-block-heading">1. ユースケース定義</h2> <p>本稿では、カスタマーサポート向けにLLMを活用したチャットボットを想定します。このチャットボットは、ユーザーからの質問に対し、既存のFAQやドキュメントに基づいて正確かつ定型的な形式で回答を生成することを目的とします。生成される回答は、明確で簡潔であり、誤情報や不適切な内容を含まないことが求められます。</p> <h2 class="wp-block-heading">2. 制約付き仕様化：LLM入出力契約の定義</h2> <p>LLMの出力を予測可能にするためには、事前に明確な入出力契約を定義することが不可欠です。これにより、開発者はモデルの挙動を制御し、予期せぬ出力を最小限に抑えることができます。</p> <h3 class="wp-block-heading">入力契約</h3> <ul class="wp-block-list"> <li><p><strong>形式</strong>: 自然言語テキスト。ユーザーの質問。</p></li> <li><p><strong>最大長</strong>: 512トークン。これを超える入力は切り捨てるか、エラーとして処理する。</p></li> <li><p><strong>コンテンツ</strong>: 質問内容に限定し、個人情報や機密情報を含まない。</p></li> </ul> <h3 class="wp-block-heading">出力契約</h3> <ul class="wp-block-list"> <li><p><strong>形式</strong>: Markdown形式。以下の構造を厳守する。</p> <ul> <li><p><code>## 回答</code>：簡潔な要約回答。</p></li> <li><p><code>### 詳細</code>：回答の根拠や補足情報。</p></li> <li><p><code>---</code>：区切り線。</p></li> <li><p><code>{"category": "...", "confidence": "...", "timestamp": "{{jst_today}}"}</code>：JSON形式のメタデータ。<code>category</code>は質問の分類、<code>confidence</code>は回答の信頼度（High/Medium/Low）、<code>timestamp</code>は回答生成日時。</p></li> </ul></li> <li><p><strong>必須要素</strong>: 上記のMarkdownヘッダー、JSONメタデータ。</p></li> <li><p><strong>禁止事項</strong>:</p> <ul> <li><p><strong>幻覚（Hallucination）</strong>: 事実に基づかない情報の生成。</p></li> <li><p><strong>様式崩れ</strong>: Markdown形式やJSON構造の逸脱。</p></li> <li><p><strong>脱線</strong>: 質問内容と無関係な情報の生成。</p></li> <li><p><strong>禁止事項違反</strong>: 不適切な表現、個人情報の漏洩、機密情報の開示。</p></li> </ul></li> <li><p><strong>失敗時の挙動</strong>:</p> <ul> <li><p>出力形式が契約に違反した場合: モデルへのリトライ（最大2回）または「指定された形式で回答を生成できませんでした」という定型エラーメッセージを出力。</p></li> <li><p>内容が禁止事項に違反した場合: 「お答えできません」という定型メッセージを出力し、ログに違反内容を記録。</p></li> <li><p>入力が処理不能な場合: 「この質問にはお答えできません。別の言葉でお試しください。」という定型メッセージを出力。</p></li> </ul></li> </ul> <h2 class="wp-block-heading">3. プロンプト設計</h2> <p>入出力契約を厳守させるため、プロンプトには明確な指示と具体的な制約を含めます。ここでは3種類のプロンプト案を提示します。</p> <h3 class="wp-block-heading">3.1. ゼロショットプロンプト</h3> <p>基本的な指示のみで、モデル自身の知識を活用させます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。回答は必ずMarkdown形式で、以下の構造を厳守してください。 ## 回答簡潔な回答。 ### 詳細回答の補足情報や根拠。 --- {"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"} 誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。質問: {{ユーザーの質問}} </pre> </div> <h3 class="wp-block-heading">3.2. 少数例（Few-Shot）プロンプト</h3> <p>少数の具体例を提供することで、モデルが期待される出力パターンを学習しやすくなります。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。回答は必ずMarkdown形式で、以下の構造を厳守してください。 ## 回答簡潔な回答。 ### 詳細回答の補足情報や根拠。 --- {"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"} 誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。 --- 例1: 質問: LLMとは何ですか？ ## 回答 LLMは、大規模言語モデル（Large Language Model）の略称で、膨大なテキストデータで学習した深層学習モデルです。 ### 詳細 LLMは、自然言語処理（NLP）タスクにおいて高い性能を発揮し、文章生成、要約、翻訳、質問応答などに応用されます。特に、近年注目を集めているGenerative AIの中核技術の一つです。 --- {"category": "技術説明", "confidence": "High", "timestamp": "2024年5月10日"} --- 例2: 質問: 今日の天気はどうですか？ ## 回答申し訳ありませんが、私はリアルタイムの天気情報を提供することはできません。 ### 詳細私は訓練データに基づいた情報を提供しますが、インターネットに接続してリアルタイムな情報を取得する機能は持っていません。天気については、天気予報サービスをご利用ください。 --- {"category": "機能制限", "confidence": "High", "timestamp": "2024年5月10日"} --- 質問: {{ユーザーの質問}} </pre> </div> <h3 class="wp-block-heading">3.3. Chain-of-Thought（CoT）制約型プロンプト</h3> <p>モデルに思考プロセスを段階的に出力させることで、複雑な推論を促し、幻覚や脱線を抑制します。思考プロセスは特定ブロック内に閉じ込めることで、最終出力の簡潔さを保ちます。この手法は、Takeshi Kojima氏らによる「Large Language Models Are Zero-Shot Reasoners」[2]やJason Wei氏らによる「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」[3]で有効性が示されています。</p> <div class="codehilite"> <pre data-enlighter-language="generic">あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。回答は必ずMarkdown形式で、以下の構造を厳守してください。思考プロセスを先に実行し、その結果に基づいて回答を生成してください。思考プロセスは`<thought>`と`</thought>`タグで囲み、最終回答には含めないでください。 ## 回答簡潔な回答。 ### 詳細回答の補足情報や根拠。 --- {"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"} 誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。質問: {{ユーザーの質問}} <thought> ユーザーの質問を分析し、必要な情報を特定する。関連する知識ベースから情報を検索する。情報が不足している場合、その旨を明確にする。回答の構成を計画し、幻覚や不適切な内容がないか確認する。カテゴリと信頼度を決定する。 </thought> </pre> </div> <h2 class="wp-block-heading">4. 評価</h2> <p>プロンプト設計とモデルの性能を継続的に評価し、改善していくことが重要です。評価は自動評価と手動評価を組み合わせます。</p> <h3 class="wp-block-heading">4.1. 評価シナリオ</h3> <ul class="wp-block-list"> <li><p><strong>正例</strong>: 一般的な質問で、明確な回答が期待されるもの。（例: 「ChatGPTとBardの違いは何ですか？」）</p></li> <li><p><strong>難例</strong>:</p> <ul> <li><p>曖昧な質問（例: 「最近のAIのニュースについて教えて？」）</p></li> <li><p>複数の情報源を組み合わせる必要がある質問</p></li> <li><p>特定の知識ドメインに属する質問（例: 「当社の製品Aの最新バージョンは？」）</p></li> </ul></li> <li><p><strong>コーナーケース</strong>:</p> <ul> <li><p>プロンプトの禁止事項に抵触する質問（例: 「○○の個人情報を教えてください」）</p></li> <li><p>非常に長く、モデルのコンテキストウィンドウを超える可能性のある質問</p></li> <li><p>不完全な質問（例: 「それについて教えて」）</p></li> </ul></li> </ul> <h3 class="wp-block-heading">4.2. 自動評価の擬似コード</h3> <div class="codehilite"> <pre data-enlighter-language="generic">import re import json from datetime import datetime def evaluate_llm_output(output_text: str, expected_category: str) -> dict: """ LLM出力を評価する擬似コード。 Args: output_text (str): LLMから生成された出力テキスト。 expected_category (str): 期待される回答のカテゴリ。 Returns: dict: 評価結果とスコア。 """ results = { "format_ok": False, "json_parse_ok": False, "has_answer_header": False, "has_detail_header": False, "no_hallucination_flag": True, # 仮定として、特定のフラグがなければOK "category_match": False, "confidence_level": None, "score": 0, "errors": [] } # 1. Markdown形式の確認 # ## 回答ヘッダーの存在チェック if re.search(r"^## 回答", output_text, re.MULTILINE): results["has_answer_header"] = True else: results["errors"].append("回答ヘッダーが見つかりません。") # ### 詳細ヘッダーの存在チェック if re.search(r"^### 詳細", output_text, re.MULTILINE): results["has_detail_header"] = True else: results["errors"].append("詳細ヘッダーが見つかりません。") # 2. JSONメタデータの確認 json_match = re.search(r"---[\n\r]*(\{.*\})", output_text, re.DOTALL) if json_match: try: metadata = json.loads(json_match.group(1)) results["json_parse_ok"] = True # JSON必須キーの存在チェック if "category" in metadata and "confidence" in metadata and "timestamp" in metadata: if metadata["category"] == expected_category: results["category_match"] = True results["confidence_level"] = metadata.get("confidence") # タイムスタンプのフォーマット確認（例: "2024年5月10日"） try: datetime.strptime(metadata["timestamp"], "%Y年%m月%d日") except ValueError: results["errors"].append("JSONのtimestampフォーマットが不正です。") else: results["errors"].append("JSONに必須キー(category, confidence, timestamp)が不足しています。") except json.JSONDecodeError: results["errors"].append("JSONメタデータのパースに失敗しました。") else: results["errors"].append("JSONメタデータが見つかりません。") # 3. 禁止事項の確認（幻覚フラグ、不適切キーワードなど） # 例: 幻覚検出は外部ツールや知識ベースとの比較が必要 # ここでは、簡略化のため特定の禁止ワードの有無で評価 forbidden_words = ["機密情報", "個人情報", "教えられない"] for word in forbidden_words: if word in output_text: results["no_hallucination_flag"] = False results["errors"].append(f"禁止ワード '{word}' が含まれています。") break # スコアリング（例: 全てのチェックを通過したら高得点） if all([results["has_answer_header"], results["has_detail_header"], results["json_parse_ok"], results["category_match"], results["no_hallucination_flag"]]): results["format_ok"] = True results["score"] = 100 elif results["no_hallucination_flag"] == False: # 禁止事項違反は重大 results["score"] = 0 else: results["score"] = 50 # 部分的に成功 return results # 使用例 # output = """ # ## 回答 # LLMは大規模言語モデルです。 # ### 詳細 # テキスト生成に利用されます。 # --- # {"category": "技術説明", "confidence": "High", "timestamp": "2024年5月10日"} # """ # eval_result = evaluate_llm_output(output, "技術説明") # print(eval_result) </pre> </div> <h2 class="wp-block-heading">5. 誤り分析と改良</h2> <p>自動評価で検出された失敗モードを分析し、プロンプトやシステム指示、後処理ロジックの改善に繋げます。</p> <h3 class="wp-block-heading">5.1. 失敗モードと抑制手法</h3> <figure class="wp-block-table"><table> <thead> <tr> <th style="text-align:left;">失敗モード</th> <th style="text-align:left;">説明</th> <th style="text-align:left;">抑制手法</th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"><strong>幻覚 (Hallucination)</strong></td> <td style="text-align:left;">事実に基づかない、誤った情報を生成する。</td> <td style="text-align:left;"><strong>System指示</strong>: 「事実に基づかない情報を生成しないこと。不明な場合は『情報がありません』と明記すること。」 <strong>検証ステップ</strong>: 回答内容を外部の信頼できる知識ベース（RAGなど）と照合し、不一致があれば警告またはリジェネレーション。 <strong>リトライ戦略</strong>: 幻覚が検出された場合、情報源を明記するよう指示して再生成。</td> </tr> <tr> <td style="text-align:left;"><strong>様式崩れ</strong></td> <td style="text-align:left;">定義された出力フォーマット（Markdown/JSON）を逸脱する。</td> <td style="text-align:left;"><strong>System指示</strong>: 「出力は常に厳密にMarkdown形式とJSON形式に従うこと。ヘッダー構造やJSONスキーマの変更は許されない。」 <strong>検証ステップ</strong>: 自動評価の正規表現やJSONパーサーで形式を厳しくチェック。不適合なら即座にエラーとする。 <strong>リトライ戦略</strong>: 形式エラーの場合、エラー箇所を具体的に指示してモデルに再生成を促す。</td> </tr> <tr> <td style="text-align:left;"><strong>脱線</strong></td> <td style="text-align:left;">質問内容から逸脱した無関係な情報を生成する。</td> <td style="text-align:left;"><strong>System指示</strong>: 「ユーザーの質問に厳密に回答し、それ以外の情報を含めないこと。」 <strong>プロンプト</strong>: Chain-of-Thoughtで思考プロセスを明確化させ、質問への関連性を自己評価させる。 <strong>検証ステップ</strong>: 回答と質問間のセマンティックな類似度を計測するモデル（例: embeddingベースの類似度）を導入。</td> </tr> <tr> <td style="text-align:left;"><strong>禁止事項違反</strong></td> <td style="text-align:left;">不適切な表現、個人情報開示、機密情報開示など。</td> <td style="text-align:left;"><strong>System指示</strong>: 「不適切な表現、個人情報、機密情報を一切含めないこと。倫理的ガイドラインを遵守すること。」 <strong>セーフティフィルタ</strong>: LLMへの入力前/出力後に、不適切コンテンツ検出API（例: GoogleのSafety Settings）を適用。 <strong>キーワード検出</strong>: 禁止ワードリストを運用し、検出された場合は応答をブロック。</td> </tr> </tbody> </table></figure> <h3 class="wp-block-heading">5.2. 改良と再評価のループ</h3> <p>検出された失敗モードに応じて、以下の改良を行います。</p> <ol class="wp-block-list"> <li><p><strong>プロンプトの調整</strong>: System指示の強化、Few-Shot例の追加、CoTの指示を具体化。</p></li> <li><p><strong>知識ベースの拡充</strong>: 幻覚や脱線対策として、RAG（Retrieval-Augmented Generation）システムに参照ドキュメントを追加・更新。</p></li> <li><p><strong>後処理ロジックの改善</strong>: 自動評価の厳格化、失敗時のリトライ戦略の調整、ユーザーへのエラーメッセージの改善。</p></li> </ol> <p>この改良サイクルを繰り返し実施し、モデルの性能を向上させます。</p> <h2 class="wp-block-heading">6. プロンプト→モデル→評価→改良のループ</h2> <p>LLMを活用したアプリケーション開発では、以下の継続的なフィードバックループが重要となります。このプロセスを通じて、プロンプトの堅牢性とモデルの信頼性を高めていきます。</p> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["Prompt Design"] --> |Send to LLM| B{LLM}; B --> |Generate Output| C["Model Output"]; C --> |Perform Automated/Manual Checks| D{Evaluation}; D -- |Output Meets Contract| --> E[Deployment]; D -- |Output Violates Contract: Analyze Failures| --> F["Error Type Classification"]; F --> |Develop Mitigation Strategies| G["Refinement Strategy"]; G -- |Update Prompt/System Instruction/Post-processing Logic| --> A; </pre></div> <h2 class="wp-block-heading">7. まとめ</h2> <p>LLMアプリケーションの信頼性と性能を最大化するためには、明確な入出力契約の定義と、それに合わせたプロンプト設計、そして継続的な評価と改良が不可欠です。本記事で提示したゼロショット、少数例、Chain-of-Thought制約型のプロンプト設計、自動評価の擬似コード、および失敗モード抑制戦略は、堅牢なLLMベースのシステムを構築するための基礎となるでしょう。これらの実践を通じて、モデルの予期せぬ挙動を管理し、ユーザーに高品質な体験を提供することが可能になります。</p> <hr/> <p><strong>参考情報:</strong> [1] Google Developers. “Introduction to prompt design”. 更新日: 2024年4月26日 JST. <a href="https://developers.google.com/machine-learning/generative-ai/guides/prompt-design-introduction">https://developers.google.com/machine-learning/generative-ai/guides/prompt-design-introduction</a> [2] Takeshi Kojima et al. “Large Language Models Are Zero-Shot Reasoners”. arXiv, 2022年5月23日 JST. <a href="https://arxiv.org/abs/2205.11916">https://arxiv.org/abs/2205.11916</a> [3] Jason Wei et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. arXiv, 2022年1月28日 JST. <a href="https://arxiv.org/abs/2201.11903">https://arxiv.org/abs/2201.11903</a> [4] OpenAI. “Prompt engineering guide”. 更新日: 2024年4月29日 JST. <a href="https://platform.openai.com/docs/guides/prompt-engineering">https://platform.openai.com/docs/guides/prompt-engineering</a> [5] Shiqi Chen et al. “A Survey of Hallucination in Large Language Models”. arXiv, 2023年3月1日 JST. <a href="https://arxiv.org/abs/2303.01042">https://arxiv.org/abs/2303.01042</a> [6] Google Developers. “Build a Generative AI application with Gemini – Prompt engineering”. 更新日: 2024年4月26日 JST. <a href="https://developers.google.com/gemini/docs/prompt-engineering">https://developers.google.com/gemini/docs/prompt-engineering</a></p>

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

LLM入出力契約と失敗モード抑制：堅牢なプロンプト設計と評価戦略

大規模言語モデル（LLM）の応用が拡大するにつれて、その出力の信頼性と一貫性がアプリケーションの成否を左右する重要な要素となっています。本記事では、LLMとの「入出力契約」を明確に定義し、幻覚（Hallucination）や様式崩れといった典型的な失敗モードを抑制するためのプロンプト設計と評価戦略について詳述します。

1. ユースケース定義
2. 制約付き仕様化：LLM入出力契約の定義
1. 入力契約
2. 出力契約
3. プロンプト設計
4. 評価
1. 4.1. 評価シナリオ
2. 4.2. 自動評価の擬似コード
5. 誤り分析と改良
1. 5.1. 失敗モードと抑制手法
2. 5.2. 改良と再評価のループ
6. プロンプト→モデル→評価→改良のループ
7. まとめ
1. 共有:
2. いいね:

1. ユースケース定義

本稿では、カスタマーサポート向けにLLMを活用したチャットボットを想定します。このチャットボットは、ユーザーからの質問に対し、既存のFAQやドキュメントに基づいて正確かつ定型的な形式で回答を生成することを目的とします。生成される回答は、明確で簡潔であり、誤情報や不適切な内容を含まないことが求められます。

2. 制約付き仕様化：LLM入出力契約の定義

LLMの出力を予測可能にするためには、事前に明確な入出力契約を定義することが不可欠です。これにより、開発者はモデルの挙動を制御し、予期せぬ出力を最小限に抑えることができます。

入力契約

形式: 自然言語テキスト。ユーザーの質問。
最大長: 512トークン。これを超える入力は切り捨てるか、エラーとして処理する。
コンテンツ: 質問内容に限定し、個人情報や機密情報を含まない。

出力契約

形式: Markdown形式。以下の構造を厳守する。
- ## 回答：簡潔な要約回答。
- ### 詳細：回答の根拠や補足情報。
- ---：区切り線。
- {"category": "...", "confidence": "...", "timestamp": "{{jst_today}}"}：JSON形式のメタデータ。categoryは質問の分類、confidenceは回答の信頼度（High/Medium/Low）、timestampは回答生成日時。
必須要素: 上記のMarkdownヘッダー、JSONメタデータ。
禁止事項:
- 幻覚（Hallucination）: 事実に基づかない情報の生成。
- 様式崩れ: Markdown形式やJSON構造の逸脱。
- 脱線: 質問内容と無関係な情報の生成。
- 禁止事項違反: 不適切な表現、個人情報の漏洩、機密情報の開示。
失敗時の挙動:
- 出力形式が契約に違反した場合: モデルへのリトライ（最大2回）または「指定された形式で回答を生成できませんでした」という定型エラーメッセージを出力。
- 内容が禁止事項に違反した場合: 「お答えできません」という定型メッセージを出力し、ログに違反内容を記録。
- 入力が処理不能な場合: 「この質問にはお答えできません。別の言葉でお試しください。」という定型メッセージを出力。

3. プロンプト設計

入出力契約を厳守させるため、プロンプトには明確な指示と具体的な制約を含めます。ここでは3種類のプロンプト案を提示します。

3.1. ゼロショットプロンプト

基本的な指示のみで、モデル自身の知識を活用させます。

あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。
回答は必ずMarkdown形式で、以下の構造を厳守してください。

## 回答

簡潔な回答。

### 詳細

回答の補足情報や根拠。

---
{"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"}

誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。

質問: {{ユーザーの質問}}

3.2. 少数例（Few-Shot）プロンプト

少数の具体例を提供することで、モデルが期待される出力パターンを学習しやすくなります。

あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。
回答は必ずMarkdown形式で、以下の構造を厳守してください。

## 回答

簡潔な回答。

### 詳細

回答の補足情報や根拠。

---
{"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"}

誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。

---
例1:
質問: LLMとは何ですか？
## 回答

LLMは、大規模言語モデル（Large Language Model）の略称で、膨大なテキストデータで学習した深層学習モデルです。

### 詳細

LLMは、自然言語処理（NLP）タスクにおいて高い性能を発揮し、文章生成、要約、翻訳、質問応答などに応用されます。特に、近年注目を集めているGenerative AIの中核技術の一つです。

---
{"category": "技術説明", "confidence": "High", "timestamp": "2024年5月10日"}

---
例2:
質問: 今日の天気はどうですか？
## 回答

申し訳ありませんが、私はリアルタイムの天気情報を提供することはできません。

### 詳細

私は訓練データに基づいた情報を提供しますが、インターネットに接続してリアルタイムな情報を取得する機能は持っていません。天気については、天気予報サービスをご利用ください。

---
{"category": "機能制限", "confidence": "High", "timestamp": "2024年5月10日"}

---
質問: {{ユーザーの質問}}

3.3. Chain-of-Thought（CoT）制約型プロンプト

モデルに思考プロセスを段階的に出力させることで、複雑な推論を促し、幻覚や脱線を抑制します。思考プロセスは特定ブロック内に閉じ込めることで、最終出力の簡潔さを保ちます。この手法は、Takeshi Kojima氏らによる「Large Language Models Are Zero-Shot Reasoners」[2]やJason Wei氏らによる「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」[3]で有効性が示されています。

あなたはカスタマーサポートの専門家です。ユーザーからの質問に対し、正確かつ簡潔に回答してください。
回答は必ずMarkdown形式で、以下の構造を厳守してください。

思考プロセスを先に実行し、その結果に基づいて回答を生成してください。思考プロセスは`<thought>`と`</thought>`タグで囲み、最終回答には含めないでください。

## 回答

簡潔な回答。

### 詳細

回答の補足情報や根拠。

---
{"category": "[カテゴリ]", "confidence": "[High|Medium|Low]", "timestamp": "{{jst_today}}"}

誤情報や不適切な内容は生成しないでください。もし回答が難しい場合は、「この質問にはお答えできません。」と回答してください。

質問: {{ユーザーの質問}}

<thought>
ユーザーの質問を分析し、必要な情報を特定する。
関連する知識ベースから情報を検索する。
情報が不足している場合、その旨を明確にする。
回答の構成を計画し、幻覚や不適切な内容がないか確認する。
カテゴリと信頼度を決定する。
</thought>

4. 評価

プロンプト設計とモデルの性能を継続的に評価し、改善していくことが重要です。評価は自動評価と手動評価を組み合わせます。

4.1. 評価シナリオ

正例: 一般的な質問で、明確な回答が期待されるもの。（例: 「ChatGPTとBardの違いは何ですか？」）
難例:
- 曖昧な質問（例: 「最近のAIのニュースについて教えて？」）
- 複数の情報源を組み合わせる必要がある質問
- 特定の知識ドメインに属する質問（例: 「当社の製品Aの最新バージョンは？」）
コーナーケース:
- プロンプトの禁止事項に抵触する質問（例: 「○○の個人情報を教えてください」）
- 非常に長く、モデルのコンテキストウィンドウを超える可能性のある質問
- 不完全な質問（例: 「それについて教えて」）

4.2. 自動評価の擬似コード

import re
import json
from datetime import datetime

def evaluate_llm_output(output_text: str, expected_category: str) -> dict:
    """
    LLM出力を評価する擬似コード。

    Args:
        output_text (str): LLMから生成された出力テキスト。
        expected_category (str): 期待される回答のカテゴリ。

    Returns:
        dict: 評価結果とスコア。
    """
    results = {
        "format_ok": False,
        "json_parse_ok": False,
        "has_answer_header": False,
        "has_detail_header": False,
        "no_hallucination_flag": True, # 仮定として、特定のフラグがなければOK
        "category_match": False,
        "confidence_level": None,
        "score": 0,
        "errors": []
    }

    # 1. Markdown形式の確認


    # ## 回答 ヘッダーの存在チェック

    if re.search(r"^## 回答", output_text, re.MULTILINE):
        results["has_answer_header"] = True
    else:
        results["errors"].append("回答ヘッダーが見つかりません。")

    # ### 詳細 ヘッダーの存在チェック

    if re.search(r"^### 詳細", output_text, re.MULTILINE):
        results["has_detail_header"] = True
    else:
        results["errors"].append("詳細ヘッダーが見つかりません。")

    # 2. JSONメタデータの確認

    json_match = re.search(r"---[\n\r]*(\{.*\})", output_text, re.DOTALL)
    if json_match:
        try:
            metadata = json.loads(json_match.group(1))
            results["json_parse_ok"] = True

            # JSON必須キーの存在チェック

            if "category" in metadata and "confidence" in metadata and "timestamp" in metadata:
                if metadata["category"] == expected_category:
                    results["category_match"] = True
                results["confidence_level"] = metadata.get("confidence")

                # タイムスタンプのフォーマット確認（例: "2024年5月10日"）

                try:
                    datetime.strptime(metadata["timestamp"], "%Y年%m月%d日")
                except ValueError:
                    results["errors"].append("JSONのtimestampフォーマットが不正です。")
            else:
                results["errors"].append("JSONに必須キー(category, confidence, timestamp)が不足しています。")

        except json.JSONDecodeError:
            results["errors"].append("JSONメタデータのパースに失敗しました。")
    else:
        results["errors"].append("JSONメタデータが見つかりません。")

    # 3. 禁止事項の確認（幻覚フラグ、不適切キーワードなど）


    # 例: 幻覚検出は外部ツールや知識ベースとの比較が必要


    # ここでは、簡略化のため特定の禁止ワードの有無で評価

    forbidden_words = ["機密情報", "個人情報", "教えられない"]
    for word in forbidden_words:
        if word in output_text:
            results["no_hallucination_flag"] = False
            results["errors"].append(f"禁止ワード '{word}' が含まれています。")
            break

    # スコアリング（例: 全てのチェックを通過したら高得点）

    if all([results["has_answer_header"], results["has_detail_header"],
            results["json_parse_ok"], results["category_match"],
            results["no_hallucination_flag"]]):
        results["format_ok"] = True
        results["score"] = 100
    elif results["no_hallucination_flag"] == False: # 禁止事項違反は重大
        results["score"] = 0
    else:
        results["score"] = 50 # 部分的に成功

    return results

# 使用例


# output = """


# ## 回答


# LLMは大規模言語モデルです。

# ### 詳細


# テキスト生成に利用されます。

# ---


# {"category": "技術説明", "confidence": "High", "timestamp": "2024年5月10日"}


# """


# eval_result = evaluate_llm_output(output, "技術説明")


# print(eval_result)

5. 誤り分析と改良

自動評価で検出された失敗モードを分析し、プロンプトやシステム指示、後処理ロジックの改善に繋げます。

5.1. 失敗モードと抑制手法

失敗モード	説明	抑制手法
幻覚 (Hallucination)	事実に基づかない、誤った情報を生成する。	System指示: 「事実に基づかない情報を生成しないこと。不明な場合は『情報がありません』と明記すること。」検証ステップ: 回答内容を外部の信頼できる知識ベース（RAGなど）と照合し、不一致があれば警告またはリジェネレーション。リトライ戦略: 幻覚が検出された場合、情報源を明記するよう指示して再生成。
様式崩れ	定義された出力フォーマット（Markdown/JSON）を逸脱する。	System指示: 「出力は常に厳密にMarkdown形式とJSON形式に従うこと。ヘッダー構造やJSONスキーマの変更は許されない。」検証ステップ: 自動評価の正規表現やJSONパーサーで形式を厳しくチェック。不適合なら即座にエラーとする。リトライ戦略: 形式エラーの場合、エラー箇所を具体的に指示してモデルに再生成を促す。
脱線	質問内容から逸脱した無関係な情報を生成する。	System指示: 「ユーザーの質問に厳密に回答し、それ以外の情報を含めないこと。」プロンプト: Chain-of-Thoughtで思考プロセスを明確化させ、質問への関連性を自己評価させる。検証ステップ: 回答と質問間のセマンティックな類似度を計測するモデル（例: embeddingベースの類似度）を導入。
禁止事項違反	不適切な表現、個人情報開示、機密情報開示など。	System指示: 「不適切な表現、個人情報、機密情報を一切含めないこと。倫理的ガイドラインを遵守すること。」セーフティフィルタ: LLMへの入力前/出力後に、不適切コンテンツ検出API（例: GoogleのSafety Settings）を適用。キーワード検出: 禁止ワードリストを運用し、検出された場合は応答をブロック。

5.2. 改良と再評価のループ

検出された失敗モードに応じて、以下の改良を行います。

プロンプトの調整: System指示の強化、Few-Shot例の追加、CoTの指示を具体化。
知識ベースの拡充: 幻覚や脱線対策として、RAG（Retrieval-Augmented Generation）システムに参照ドキュメントを追加・更新。
後処理ロジックの改善: 自動評価の厳格化、失敗時のリトライ戦略の調整、ユーザーへのエラーメッセージの改善。

この改良サイクルを繰り返し実施し、モデルの性能を向上させます。

6. プロンプト→モデル→評価→改良のループ

LLMを活用したアプリケーション開発では、以下の継続的なフィードバックループが重要となります。このプロセスを通じて、プロンプトの堅牢性とモデルの信頼性を高めていきます。

graph TD
    A["Prompt Design"] --> |Send to LLM| B{LLM};
    B --> |Generate Output| C["Model Output"];
    C --> |Perform Automated/Manual Checks| D{Evaluation};
    D -- |Output Meets Contract| --> E[Deployment];
    D -- |Output Violates Contract: Analyze Failures| --> F["Error Type Classification"];
    F --> |Develop Mitigation Strategies| G["Refinement Strategy"];
    G -- |Update Prompt/System Instruction/Post-processing Logic| --> A;

7. まとめ

LLMアプリケーションの信頼性と性能を最大化するためには、明確な入出力契約の定義と、それに合わせたプロンプト設計、そして継続的な評価と改良が不可欠です。本記事で提示したゼロショット、少数例、Chain-of-Thought制約型のプロンプト設計、自動評価の擬似コード、および失敗モード抑制戦略は、堅牢なLLMベースのシステムを構築するための基礎となるでしょう。これらの実践を通じて、モデルの予期せぬ挙動を管理し、ユーザーに高品質な体験を提供することが可能になります。

参考情報: [1] Google Developers. “Introduction to prompt design”. 更新日: 2024年4月26日 JST. https://developers.google.com/machine-learning/generative-ai/guides/prompt-design-introduction [2] Takeshi Kojima et al. “Large Language Models Are Zero-Shot Reasoners”. arXiv, 2022年5月23日 JST. https://arxiv.org/abs/2205.11916 [3] Jason Wei et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. arXiv, 2022年1月28日 JST. https://arxiv.org/abs/2201.11903 [4] OpenAI. “Prompt engineering guide”. 更新日: 2024年4月29日 JST. https://platform.openai.com/docs/guides/prompt-engineering [5] Shiqi Chen et al. “A Survey of Hallucination in Large Language Models”. arXiv, 2023年3月1日 JST. https://arxiv.org/abs/2303.01042 [6] Google Developers. “Build a Generative AI application with Gemini – Prompt engineering”. 更新日: 2024年4月26日 JST. https://developers.google.com/gemini/docs/prompt-engineering

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。