本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。 <h1 class="wp-block-heading">Personaプロンプトの設計と効果的な評価戦略</h1> LLMを用いたアプリケーション開発において、特定の役割や専門性を持たせた回答を生成させるPersonaプロンプトは非常に強力な手法です。本稿では、Personaプロンプトの設計から評価、改良までのプロセスを、Azure DevOps専門エンジニアのユースケースを例に解説します。 <h2 class="wp-block-heading">ユースケース定義</h2> 目的: ユーザーからのAzure DevOpsに関する技術的な質問に対して、実践的な知見を交えながら専門的かつ簡潔に回答するLLMエージェントを構築する。 ペルソナ: Azure DevOps専門エンジニア（5年以上の実務経験、MVPレベルの知識を持つものとする）。 利用シナリオ: 社内ヘルプデスク、技術ブログのQ&Aセクション、顧客サポートの初期応答など。 <h2 class="wp-block-heading">入出力契約と制約付き仕様化</h2> LLMエージェントが期待通りの挙動をするために、入出力の契約と詳細な仕様を定義します。 入力契約: <ul class="wp-block-list"> <li>形式: 自然言語によるAzure DevOpsに関する質問。</li> <li>例: “Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。”</li> </ul> 出力契約: <ul class="wp-block-list"> <li>形式: 指定されたペルソナ（Azure DevOps専門エンジニア）として、専門知識に基づいた簡潔かつ正確なMarkdown形式の回答。</li> <li>出力フォーマット: <ol> <li>回答の冒頭に「[Azure DevOps専門エンジニア]として回答します。」を付記。</li> <li>主要なキーワードは太字にする。</li> <li>コード例が必要な場合は、適切な言語（例: <code>yaml</code>, <code>bash</code>）を指定したコードブロックで提供。</li> <li>回答は常に200文字以上500文字以下とする。</li> </ol></li> <li>失敗時の挙動: 関連情報が見つからない場合やAzure DevOpsの範囲外である場合、無理に回答せず「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答する。</li> <li>禁止事項: <ul> <li>個人的な意見や感情の表明。</li> <li>不正確な情報や古い情報の提供。</li> <li>セキュリティに関する具体的な脆弱性や攻撃手法の開示（一般的なガイダンスは可）。</li> <li>倫理に反する内容、差別的な表現。</li> </ul></li> </ul> 制約付き仕様化: <ul class="wp-block-list"> <li>ペルソナ詳細: Azure DevOps専門エンジニア（5年以上の実務経験、MVPレベルの知識）。</li> <li>タスク: Azure DevOpsの設計、実装、運用に関する技術的な質問への回答。</li> <li>回答スタイル: 権威的、簡潔、明瞭、実務的、問題解決指向。</li> <li>語調: 丁寧語、客観的。</li> <li>回答の構造: <ol> <li>質問の核心を捉えた要約（任意）。</li> <li>具体的な解決策や情報。</li> <li>関連するベストプラクティスや考慮事項。</li> </ol></li> <li>情報源: Azure公式ドキュメント、業界のベストプラクティス。</li> </ul> <h2 class="wp-block-heading">プロンプト設計</h2> 異なる複雑性を持つ3種類のプロンプト案を提示します。 <h3 class="wp-block-heading">1. ゼロショットプロンプト</h3> 基本的なペルソナとタスクの指示のみで構成されます。 <div class="codehilite"> <pre data-enlighter-language="generic">あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。回答は200文字以上500文字以下に収めてください。関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。ユーザーの質問: Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。 </pre> </div> <h3 class="wp-block-heading">2. 少数例 (Few-shot) プロンプト</h3> ゼロショットに加えて、望ましい出力の具体例を一つ提示します。 <div class="codehilite"> <pre data-enlighter-language="generic">あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。回答は200文字以上500文字以下に収めてください。関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。以下に質問と回答の例を示します。 --- 質問例: Azure Boardsでアジャイル開発を行う際の推奨設定はありますか？回答例: [Azure DevOps専門エンジニア]として回答します。 Azure Boardsでアジャイル開発を効果的に進めるには、いくつかの推奨設定とプラクティスがあります。まず、**プロセステンプレート**として「**Agile**」または「**Scrum**」を選択し、組織の運用に合わせます。 **Work Item Types**（ユーザーーストーリー、タスク、バグなど）を適切に活用し、各アイテムの状態遷移を明確に定義してください。 **Backlogs**と**Sprints**を使い、計画と進捗管理を行います。特にスプリントのキャパシティプランニングとデイリースクラムの連携が重要です。 **Dashboard**や**Analytics Widgets**を活用して、チームのベロシティやバーンダウンチャートを可視化し、継続的な改善に役立てましょう。 --- ユーザーの質問: Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。 </pre> </div> <h3 class="wp-block-heading">3. Chain-of-Thought制約型プロンプト</h3> モデルに思考プロセスを明示的に指示し、回答の質と一貫性を向上させます。 <div class="codehilite"> <pre data-enlighter-language="generic">あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。回答は200文字以上500文字以下に収めてください。関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報が見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。回答を生成する際は、以下の思考プロセスを厳守してください。 1. **質問意図の把握**: ユーザーが具体的に何を求めているのか、その背景にある課題は何かを分析する。 2. **関連知識の想起**: Azure DevOpsのどのサービス（Pipelines, Repos, Artifactsなど）が関連するか特定し、該当する専門知識を想起する。 3. **解決策の構造化**: 想起した知識に基づき、最も効果的で実践的な解決策を段階的に構造化する。 4. **ベストプラクティスと補足**: 解決策に加えて、一般的なベストプラクティスや考慮すべき点を加える。 5. **出力フォーマットの適用**: 上記の内容をMarkdown形式で、指定されたペルソナ、太字、コードブロック、文字数制限に沿って整形する。ユーザーの質問: Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。 </pre> </div> <h2 class="wp-block-heading">評価</h2> 設計したプロンプトの有効性を確認するため、以下のシナリオで評価を行います。 <h3 class="wp-block-heading">評価シナリオ</h3> <ol class="wp-block-list"> <li>正例: <ul> <li>質問: “Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。”</li> <li>期待される応答: YAMLパイプラインの活用、環境ごとのデプロイ、テスト自動化、アーティファクト管理などに関する専門的なアドバイス。</li> <li>期待キーワード: YAML Pipeline, CI/CD, テスト自動化, 環境, 承認, セキュリティ</li> </ul></li> <li>難例: <ul> <li>質問: “Azure Kubernetes Service (AKS) にデプロイする際、カナリアリリース戦略をAzure DevOpsで実現するための具体的なパイプライン設計と承認フローを教えてください。”</li> <li>期待される応答: AKSとAzure DevOpsを組み合わせたカナリアリリース戦略に関する具体的なステップ（多段階パイプライン、環境、ゲート、Blue/Greenデプロイメントの考慮など）と、それに伴う承認フローの設計。</li> <li>期待キーワード: AKS, カナリアリリース, 多段階パイプライン, 環境, 承認ゲート, Service Mesh</li> </ul></li> <li>コーナーケース（範囲外の質問）: <ul> <li>質問: “AWS Lambda関数をデプロイするCI/CDパイプラインをAzure DevOpsで構築できますか？また、その際の注意点は？”</li> <li>期待される応答: Azure DevOpsがAWS Lambdaデプロイメントに利用可能であることと、その際の統合方法や考慮事項を簡潔に述べるか、またはAzure DevOpsの主要な焦点がAzureサービスにあることを示唆し、詳細情報がない場合は失敗時の挙動を適用する。</li> <li>期待キーワード: AWS Lambda, Azure DevOps, Service Connection, クロスクラウド, 注意点, 統合</li> </ul></li> </ol> <h3 class="wp-block-heading">自動評価の擬似コード</h3> 採点ルーブリックと正規表現、関数評価を組み合わせた擬似コードです。 <div class="codehilite"> <pre data-enlighter-language="generic">import re def evaluate_persona_response(response: str, scenario_type: str, expected_keywords: list) -> dict: score = 0 feedback = [] max_score = 10 # 基本点 # 1. ペルソナヘッダーのチェック (2点) if response.startswith("[Azure DevOps専門エンジニア]として回答します。"): score += 2 feedback.append("Persona Header: OK") else: feedback.append("Persona Header: NG - Missing or incorrect.") # 2. 文字数チェック (2点) char_count = len(response) if 200 <= char_count <= 500: score += 2 feedback.append(f"Character Count: OK ({char_count} chars)") else: feedback.append(f"Character Count: NG - {char_count} chars (Expected 200-500)") # 3. キーワードの太字化チェック (2点) if re.search(r'\*\*[^*]+\*\*', response): score += 2 feedback.append("Bold Keywords: OK - Found at least one bold keyword.") else: feedback.append("Bold Keywords: NG - No bold keywords found.") # 4. コードブロックの形式チェック (2点) if '```' in response: if re.search(r'```(yaml|bash|json|sh)\n.*?```', response, re.DOTALL): score += 2 feedback.append("Code Block Format: OK") else: feedback.append("Code Block Format: NG - Invalid code block language or format.") else: score += 2 # コードブロックが不要な場合もあるため、ない場合はOKとする feedback.append("Code Block: Not required/Found - OK") # 5. 内容の正確性と関連性 (シナリオにより配点変動) content_match_count = sum(1 for keyword in expected_keywords if keyword.lower() in response.lower()) keyword_coverage = content_match_count / len(expected_keywords) if expected_keywords else 0 if scenario_type == "正例": if keyword_coverage >= 0.7: score += 5; feedback.append("Content Accuracy (正例): OK.") else: feedback.append(f"Content Accuracy (正例): NG - Keyword coverage {keyword_coverage:.2f}.") max_score += 5 elif scenario_type == "難例": if keyword_coverage >= 0.8: score += 8; feedback.append("Content Accuracy (難例): OK.") else: feedback.append(f"Content Accuracy (難例): NG - Keyword coverage {keyword_coverage:.2f}.") max_score += 8 elif scenario_type == "コーナーケース": if "現在、その情報は見つかりません" in response: score += 5; feedback.append("Content Accuracy (コーナーケース): OK - Correctly identified as out of scope.") elif keyword_coverage >= 0.5: score += 3; feedback.append("Content Accuracy (コーナーケース): OK - Provided partial relevant info.") else: feedback.append("Content Accuracy (コーナーケース): NG - Irrelevant or failed to respond appropriately.") max_score += 5 # 6. 禁止事項チェック (違反ごとに5点減点) forbidden_patterns = [r"個人的な意見", r"感情的", r"セキュリティ脆弱性", r"攻撃手法", r"憶測"] for pattern in forbidden_patterns: if re.search(pattern, response, re.IGNORECASE): score -= 5 feedback.append(f"Forbidden Content: NG - Matched pattern '{pattern}'.") return {"total_score": max(0, score), "max_score": max_score, "feedback": feedback, "char_count": char_count} # 採点ルーブリック (例) # - ヘッダー (2点) # - 文字数 (2点) # - 太字 (2点) # - コードブロック (2点) # - 内容の正確性: 正例 (+5点), 難例 (+8点), コーナーケース適切な応答 (+5点) # - 禁止事項違反 (-5点/件) </pre> </div> <h2 class="wp-block-heading">誤り分析</h2> 評価結果に基づき、以下の失敗モードを特定し分析します。 <ol class="wp-block-list"> <li>幻覚 (Hallucination): 存在しない機能や誤った手順を生成する。Azure DevOpsのドキュメントにない情報を事実として提供する。</li> <li>様式崩れ: 指定された回答フォーマット（ヘッダー、太字、コードブロック、文字数）を遵守しない。ペルソナの一貫性が失われる（例: カジュアルな口調になる）。</li> <li>脱線: 質問の意図から外れた回答を生成する。例えば、CI/CDの質問に対してAzure Reposの一般的な使い方を述べるなど。</li> <li>禁止事項の違反: 個人的な意見を述べたり、不正確なセキュリティに関する助言を行ったり、倫理に反する内容を含む。</li> <li>不完全な回答: 質問の核心を捉えつつも、専門的な深みが不足しているか、簡潔すぎて情報が足りない。</li> </ol> <h2 class="wp-block-heading">改良と再評価</h2> 誤り分析で特定された課題に対し、プロンプトの改良を行います。 <ol class="wp-block-list"> <li>System指示の強化: ペルソナの役割、専門性、口調、禁止事項をさらに詳細かつ明確に定義します。</li> <li>Few-shot例の追加・修正: 望ましい出力だけでなく、NG例も提示し、避けるべきパターンを具体的に示します。</li> <li>Chain-of-Thought (CoT) の深化: モデルに課す思考ステップをより細分化し、特定の知識領域への誘導を強化します。</li> <li>ネガティブ制約の追加: 「〜してはいけません」といった禁止ルールを明示的に記述します。</li> <li>RAG (Retrieval-Augmented Generation) の検討: 信頼できる情報源（Azure公式ドキュメントなど）を外部から取得し、プロンプトに埋め込むことで、幻覚を大幅に抑制し、情報の正確性を高めます。</li> </ol> 改良後、再度評価シナリオを用いてプロンプトの性能を測定し、このループを繰り返します。 <h2 class="wp-block-heading">失敗モードと抑制手法</h2> <h3 class="wp-block-heading">失敗モード</h3> <ul class="wp-block-list"> <li>幻覚: 事実とは異なる情報や存在しない機能を生成する。</li> <li>様式崩れ: 出力フォーマット（ヘッダー、太字、コードブロック、文字数）やペルソナ（口調、専門性）が不適切になる。</li> <li>脱線: 質問の意図から逸脱した、無関係または広すぎる回答をする。</li> <li>禁止事項違反: 個人的な意見の表明、不正確なセキュリティ情報の提供、倫理に反する発言など。</li> <li>不完全な回答: 質問の核心を捉えているが、専門的な深みや網羅性に欠ける。</li> </ul> <h3 class="wp-block-heading">抑制手法</h3> <ol class="wp-block-list"> <li>System指示の厳格化: プロンプトの先頭に、ペルソナ、タスク、フォーマット、禁止事項に関する網羅的かつ具体的な指示を記述します。特に禁止事項は箇条書きで明確に提示します。</li> <li>Few-shot例でのポジティブ/ネガティブ教育: 成功例だけでなく、失敗例（例: 「この例のように専門外の質問に深入りしないでください」）も提示することで、モデルに望ましい挙動と避けるべき挙動を学習させます。</li> <li>Chain-of-Thought (CoT) プロンプティング: モデルに「まずユーザーの質問意図を明確にする」「次にAzure DevOpsの関連サービスを特定する」「最後に解決策を構築し、ベストプラクティスを付記する」といった段階的な思考プロセスを強制し、思考の脱線を防ぎます。</li> <li>検証ステップ (Post-processing): LLMからの出力後、自動評価スクリプト（正規表現、キーワードチェック、文字数カウントなど）を用いて出力が契約を満たしているか検証します。</li> <li>リトライ戦略: 検証ステップで失敗した場合、具体的な失敗理由を添えてプロンプトを再送信し、再生成を促します。複数回の失敗後には、より制約の強いプロンプトに切り替えるなど、フォールバック機構を導入します。</li> <li>RAG (Retrieval-Augmented Generation) の導入: LLMが回答を生成する前に、信頼性の高い外部データベースやドキュメントから関連情報を取得し、それをプロンプトに含めることで、幻覚を抑制し、情報の正確性を保証します。</li> </ol> <h2 class="wp-block-heading">プロンプト→モデル→評価→改良のループ</h2> プロンプトエンジニアリングは反復的なプロセスです。このループを通じてプロンプトの質を継続的に向上させます。 <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph LR A["プロンプト設計"] -->|プロンプト入力| B("LLMモデル"); B -->|モデル出力| C{"出力評価"}; C -->|評価結果 (スコア/フィードバック)| D["誤り分析"]; D -->|改良計画| E["プロンプト改良"]; E -->|改良済みプロンプト| A; </pre></div> <h2 class="wp-block-heading">まとめ</h2> Personaプロンプトの設計は、LLMが特定の役割を演じ、専門的で一貫性のある出力を生成するために不可欠です。本稿で示したように、入出力契約の明確化、多様なプロンプト設計、自動評価シナリオと擬似コードによる定量的な評価、そして失敗モードと抑制手法の理解が、効果的なLLMエージェントを構築するための鍵となります。この反復的なプロセスを通じて、LLMの性能を最大限に引き出し、ビジネス価値を創出することが可能です。

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

Personaプロンプトの設計と効果的な評価戦略

LLMを用いたアプリケーション開発において、特定の役割や専門性を持たせた回答を生成させるPersonaプロンプトは非常に強力な手法です。本稿では、Personaプロンプトの設計から評価、改良までのプロセスを、Azure DevOps専門エンジニアのユースケースを例に解説します。

ユースケース定義
入出力契約と制約付き仕様化
プロンプト設計
評価
1. 評価シナリオ
2. 自動評価の擬似コード
誤り分析
改良と再評価
失敗モードと抑制手法
1. 失敗モード
2. 抑制手法
プロンプト→モデル→評価→改良のループ
まとめ
1. 共有:
2. いいね:

ユースケース定義

目的: ユーザーからのAzure DevOpsに関する技術的な質問に対して、実践的な知見を交えながら専門的かつ簡潔に回答するLLMエージェントを構築する。 ペルソナ: Azure DevOps専門エンジニア（5年以上の実務経験、MVPレベルの知識を持つものとする）。 利用シナリオ: 社内ヘルプデスク、技術ブログのQ&Aセクション、顧客サポートの初期応答など。

入出力契約と制約付き仕様化

LLMエージェントが期待通りの挙動をするために、入出力の契約と詳細な仕様を定義します。

入力契約:

形式: 自然言語によるAzure DevOpsに関する質問。
例: “Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。”

出力契約:

形式: 指定されたペルソナ（Azure DevOps専門エンジニア）として、専門知識に基づいた簡潔かつ正確なMarkdown形式の回答。
出力フォーマット:
1. 回答の冒頭に「[Azure DevOps専門エンジニア]として回答します。」を付記。
2. 主要なキーワードは太字にする。
3. コード例が必要な場合は、適切な言語（例: yaml, bash）を指定したコードブロックで提供。
4. 回答は常に200文字以上500文字以下とする。
失敗時の挙動: 関連情報が見つからない場合やAzure DevOpsの範囲外である場合、無理に回答せず「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答する。
禁止事項:
- 個人的な意見や感情の表明。
- 不正確な情報や古い情報の提供。
- セキュリティに関する具体的な脆弱性や攻撃手法の開示（一般的なガイダンスは可）。
- 倫理に反する内容、差別的な表現。

制約付き仕様化:

ペルソナ詳細: Azure DevOps専門エンジニア（5年以上の実務経験、MVPレベルの知識）。
タスク: Azure DevOpsの設計、実装、運用に関する技術的な質問への回答。
回答スタイル: 権威的、簡潔、明瞭、実務的、問題解決指向。
語調: 丁寧語、客観的。
回答の構造:
1. 質問の核心を捉えた要約（任意）。
2. 具体的な解決策や情報。
3. 関連するベストプラクティスや考慮事項。
情報源: Azure公式ドキュメント、業界のベストプラクティス。

プロンプト設計

異なる複雑性を持つ3種類のプロンプト案を提示します。

1. ゼロショットプロンプト

基本的なペルソナとタスクの指示のみで構成されます。

あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。
ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。
回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。
コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。
回答は200文字以上500文字以下に収めてください。
関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。

ユーザーの質問:
Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。

2. 少数例 (Few-shot) プロンプト

ゼロショットに加えて、望ましい出力の具体例を一つ提示します。

あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。
ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。
回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。
コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。
回答は200文字以上500文字以下に収めてください。
関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報は見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。

以下に質問と回答の例を示します。

---
質問例:
Azure Boardsでアジャイル開発を行う際の推奨設定はありますか？

回答例:
[Azure DevOps専門エンジニア]として回答します。
Azure Boardsでアジャイル開発を効果的に進めるには、いくつかの推奨設定とプラクティスがあります。
まず、**プロセステンプレート**として「**Agile**」または「**Scrum**」を選択し、組織の運用に合わせます。
**Work Item Types**（ユーザーーストーリー、タスク、バグなど）を適切に活用し、各アイテムの状態遷移を明確に定義してください。
**Backlogs**と**Sprints**を使い、計画と進捗管理を行います。特にスプリントのキャパシティプランニングとデイリースクラムの連携が重要です。
**Dashboard**や**Analytics Widgets**を活用して、チームのベロシティやバーンダウンチャートを可視化し、継続的な改善に役立てましょう。
---

ユーザーの質問:
Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。

3. Chain-of-Thought制約型プロンプト

モデルに思考プロセスを明示的に指示し、回答の質と一貫性を向上させます。

あなたはAzure DevOps専門エンジニアです。5年以上の実務経験を持ち、MVPレベルの知識を持つものとします。
ユーザーからのAzure DevOpsに関する技術的な質問に対し、専門知識に基づいた簡潔かつ正確な回答をMarkdown形式で提供してください。
回答の冒頭には必ず「[Azure DevOps専門エンジニア]として回答します。」と付記し、主要なキーワードは太字にしてください。
コード例が必要な場合は、適切な言語を指定したコードブロックで提供してください。
回答は200文字以上500文字以下に収めてください。
関連情報が見つからない場合やAzure DevOpsの範囲外である場合は、「現在、その情報が見つかりません。Azure DevOpsの範囲外であるか、詳細な情報が不足しています。」と応答してください。

回答を生成する際は、以下の思考プロセスを厳守してください。

1.  **質問意図の把握**: ユーザーが具体的に何を求めているのか、その背景にある課題は何かを分析する。

2.  **関連知識の想起**: Azure DevOpsのどのサービス（Pipelines, Repos, Artifactsなど）が関連するか特定し、該当する専門知識を想起する。

3.  **解決策の構造化**: 想起した知識に基づき、最も効果的で実践的な解決策を段階的に構造化する。

4.  **ベストプラクティスと補足**: 解決策に加えて、一般的なベストプラクティスや考慮すべき点を加える。

5.  **出力フォーマットの適用**: 上記の内容をMarkdown形式で、指定されたペルソナ、太字、コードブロック、文字数制限に沿って整形する。

ユーザーの質問:
Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。

評価

設計したプロンプトの有効性を確認するため、以下のシナリオで評価を行います。

評価シナリオ

正例:
- 質問: “Azure PipelinesでCI/CDを構築する際のベストプラクティスを教えてください。”
- 期待される応答: YAMLパイプラインの活用、環境ごとのデプロイ、テスト自動化、アーティファクト管理などに関する専門的なアドバイス。
- 期待キーワード: YAML Pipeline, CI/CD, テスト自動化, 環境, 承認, セキュリティ
難例:
- 質問: “Azure Kubernetes Service (AKS) にデプロイする際、カナリアリリース戦略をAzure DevOpsで実現するための具体的なパイプライン設計と承認フローを教えてください。”
- 期待される応答: AKSとAzure DevOpsを組み合わせたカナリアリリース戦略に関する具体的なステップ（多段階パイプライン、環境、ゲート、Blue/Greenデプロイメントの考慮など）と、それに伴う承認フローの設計。
- 期待キーワード: AKS, カナリアリリース, 多段階パイプライン, 環境, 承認ゲート, Service Mesh
コーナーケース（範囲外の質問）:
- 質問: “AWS Lambda関数をデプロイするCI/CDパイプラインをAzure DevOpsで構築できますか？また、その際の注意点は？”
- 期待される応答: Azure DevOpsがAWS Lambdaデプロイメントに利用可能であることと、その際の統合方法や考慮事項を簡潔に述べるか、またはAzure DevOpsの主要な焦点がAzureサービスにあることを示唆し、詳細情報がない場合は失敗時の挙動を適用する。
- 期待キーワード: AWS Lambda, Azure DevOps, Service Connection, クロスクラウド, 注意点, 統合

自動評価の擬似コード

採点ルーブリックと正規表現、関数評価を組み合わせた擬似コードです。

import re

def evaluate_persona_response(response: str, scenario_type: str, expected_keywords: list) -> dict:
    score = 0
    feedback = []
    max_score = 10 # 基本点

    # 1. ペルソナヘッダーのチェック (2点)

    if response.startswith("[Azure DevOps専門エンジニア]として回答します。"):
        score += 2
        feedback.append("Persona Header: OK")
    else:
        feedback.append("Persona Header: NG - Missing or incorrect.")

    # 2. 文字数チェック (2点)

    char_count = len(response)
    if 200 <= char_count <= 500:
        score += 2
        feedback.append(f"Character Count: OK ({char_count} chars)")
    else:
        feedback.append(f"Character Count: NG - {char_count} chars (Expected 200-500)")

    # 3. キーワードの太字化チェック (2点)

    if re.search(r'\*\*[^*]+\*\*', response):
        score += 2
        feedback.append("Bold Keywords: OK - Found at least one bold keyword.")
    else:
        feedback.append("Bold Keywords: NG - No bold keywords found.")

    # 4. コードブロックの形式チェック (2点)

    if '```' in response:
        if re.search(r'```(yaml|bash|json|sh)\n.*?```', response, re.DOTALL):
            score += 2
            feedback.append("Code Block Format: OK")
        else:
            feedback.append("Code Block Format: NG - Invalid code block language or format.")
    else:
        score += 2 # コードブロックが不要な場合もあるため、ない場合はOKとする
        feedback.append("Code Block: Not required/Found - OK")

    # 5. 内容の正確性と関連性 (シナリオにより配点変動)

    content_match_count = sum(1 for keyword in expected_keywords if keyword.lower() in response.lower())
    keyword_coverage = content_match_count / len(expected_keywords) if expected_keywords else 0

    if scenario_type == "正例":
        if keyword_coverage >= 0.7: score += 5; feedback.append("Content Accuracy (正例): OK.")
        else: feedback.append(f"Content Accuracy (正例): NG - Keyword coverage {keyword_coverage:.2f}.")
        max_score += 5
    elif scenario_type == "難例":
        if keyword_coverage >= 0.8: score += 8; feedback.append("Content Accuracy (難例): OK.")
        else: feedback.append(f"Content Accuracy (難例): NG - Keyword coverage {keyword_coverage:.2f}.")
        max_score += 8
    elif scenario_type == "コーナーケース":
        if "現在、その情報は見つかりません" in response:
            score += 5; feedback.append("Content Accuracy (コーナーケース): OK - Correctly identified as out of scope.")
        elif keyword_coverage >= 0.5:
            score += 3; feedback.append("Content Accuracy (コーナーケース): OK - Provided partial relevant info.")
        else:
            feedback.append("Content Accuracy (コーナーケース): NG - Irrelevant or failed to respond appropriately.")
        max_score += 5

    # 6. 禁止事項チェック (違反ごとに5点減点)

    forbidden_patterns = [r"個人的な意見", r"感情的", r"セキュリティ脆弱性", r"攻撃手法", r"憶測"]
    for pattern in forbidden_patterns:
        if re.search(pattern, response, re.IGNORECASE):
            score -= 5
            feedback.append(f"Forbidden Content: NG - Matched pattern '{pattern}'.")

    return {"total_score": max(0, score), "max_score": max_score, "feedback": feedback, "char_count": char_count}

# 採点ルーブリック (例)


# - ヘッダー (2点)


# - 文字数 (2点)


# - 太字 (2点)


# - コードブロック (2点)


# - 内容の正確性: 正例 (+5点), 難例 (+8点), コーナーケース適切な応答 (+5点)


# - 禁止事項違反 (-5点/件)

誤り分析

評価結果に基づき、以下の失敗モードを特定し分析します。

幻覚 (Hallucination): 存在しない機能や誤った手順を生成する。Azure DevOpsのドキュメントにない情報を事実として提供する。
様式崩れ: 指定された回答フォーマット（ヘッダー、太字、コードブロック、文字数）を遵守しない。ペルソナの一貫性が失われる（例: カジュアルな口調になる）。
脱線: 質問の意図から外れた回答を生成する。例えば、CI/CDの質問に対してAzure Reposの一般的な使い方を述べるなど。
禁止事項の違反: 個人的な意見を述べたり、不正確なセキュリティに関する助言を行ったり、倫理に反する内容を含む。
不完全な回答: 質問の核心を捉えつつも、専門的な深みが不足しているか、簡潔すぎて情報が足りない。

改良と再評価

誤り分析で特定された課題に対し、プロンプトの改良を行います。

System指示の強化: ペルソナの役割、専門性、口調、禁止事項をさらに詳細かつ明確に定義します。
Few-shot例の追加・修正: 望ましい出力だけでなく、NG例も提示し、避けるべきパターンを具体的に示します。
Chain-of-Thought (CoT) の深化: モデルに課す思考ステップをより細分化し、特定の知識領域への誘導を強化します。
ネガティブ制約の追加: 「〜してはいけません」といった禁止ルールを明示的に記述します。
RAG (Retrieval-Augmented Generation) の検討: 信頼できる情報源（Azure公式ドキュメントなど）を外部から取得し、プロンプトに埋め込むことで、幻覚を大幅に抑制し、情報の正確性を高めます。

改良後、再度評価シナリオを用いてプロンプトの性能を測定し、このループを繰り返します。

失敗モードと抑制手法

失敗モード

幻覚: 事実とは異なる情報や存在しない機能を生成する。
様式崩れ: 出力フォーマット（ヘッダー、太字、コードブロック、文字数）やペルソナ（口調、専門性）が不適切になる。
脱線: 質問の意図から逸脱した、無関係または広すぎる回答をする。
禁止事項違反: 個人的な意見の表明、不正確なセキュリティ情報の提供、倫理に反する発言など。
不完全な回答: 質問の核心を捉えているが、専門的な深みや網羅性に欠ける。

抑制手法

System指示の厳格化: プロンプトの先頭に、ペルソナ、タスク、フォーマット、禁止事項に関する網羅的かつ具体的な指示を記述します。特に禁止事項は箇条書きで明確に提示します。
Few-shot例でのポジティブ/ネガティブ教育: 成功例だけでなく、失敗例（例: 「この例のように専門外の質問に深入りしないでください」）も提示することで、モデルに望ましい挙動と避けるべき挙動を学習させます。
Chain-of-Thought (CoT) プロンプティング: モデルに「まずユーザーの質問意図を明確にする」「次にAzure DevOpsの関連サービスを特定する」「最後に解決策を構築し、ベストプラクティスを付記する」といった段階的な思考プロセスを強制し、思考の脱線を防ぎます。
検証ステップ (Post-processing): LLMからの出力後、自動評価スクリプト（正規表現、キーワードチェック、文字数カウントなど）を用いて出力が契約を満たしているか検証します。
リトライ戦略: 検証ステップで失敗した場合、具体的な失敗理由を添えてプロンプトを再送信し、再生成を促します。複数回の失敗後には、より制約の強いプロンプトに切り替えるなど、フォールバック機構を導入します。
RAG (Retrieval-Augmented Generation) の導入: LLMが回答を生成する前に、信頼性の高い外部データベースやドキュメントから関連情報を取得し、それをプロンプトに含めることで、幻覚を抑制し、情報の正確性を保証します。

プロンプト→モデル→評価→改良のループ

プロンプトエンジニアリングは反復的なプロセスです。このループを通じてプロンプトの質を継続的に向上させます。

graph LR
    A["プロンプト設計"] -->|プロンプト入力| B("LLMモデル");
    B -->|モデル出力| C{"出力評価"};
    C -->|評価結果 (スコア/フィードバック)| D["誤り分析"];
    D -->|改良計画| E["プロンプト改良"];
    E -->|改良済みプロンプト| A;

まとめ

Personaプロンプトの設計は、LLMが特定の役割を演じ、専門的で一貫性のある出力を生成するために不可欠です。本稿で示したように、入出力契約の明確化、多様なプロンプト設計、自動評価シナリオと擬似コードによる定量的な評価、そして失敗モードと抑制手法の理解が、効果的なLLMエージェントを構築するための鍵となります。この反復的なプロセスを通じて、LLMの性能を最大限に引き出し、ビジネス価値を創出することが可能です。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。