<p><!--META
{
"title": "Self-ConsistencyによるLLM推論信頼性向上のプロンプト設計と評価",
"primary_category": "プロンプトエンジニアリング",
"secondary_categories": ["LLM", "AI"],
"tags": ["Self-Consistency", "Chain-of-Thought", "プロンプト", "推論", "信頼性", "Gemini", "評価"],
"summary": "LLMの推論信頼性をSelf-Consistencyで高めるプロンプト設計、評価、改良ループを解説。複雑な問題解決における堅牢な回答生成を目指します。",
"mermaid": true,
"verify_level": "L0",
"tweet_hint": {"text":"LLMの推論信頼性をSelf-Consistencyで向上させるプロンプト設計と評価手法を解説。Chain-of-Thoughtと組み合わせ、多角的なアプローチでロバストな回答を導き出します。#SelfConsistency
#LLM #プロンプトエンジニアリング","hashtags":["#SelfConsistency","#LLM"]},
"link_hints": ["https://arxiv.org/abs/2203.11171"]
}
-->
本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト(未検証)</strong>です。</p>
<h1 class="wp-block-heading">Self-ConsistencyによるLLM推論信頼性向上のプロンプト設計と評価</h1>
<p>大規模言語モデル(LLM)は多様なタスクで優れた性能を発揮しますが、特に複雑な推論タスクでは、単一の思考パスに依存することで誤った結論を導くリスクがあります。Self-Consistencyは、この問題に対処し、推論の信頼性を向上させるための強力なプロンプトエンジニアリング手法です。本記事では、Self-Consistencyの原理に基づいたプロンプト設計、その評価方法、そして改良サイクルについて解説します。</p>
<h2 class="wp-block-heading">1. ユースケース定義</h2>
<p>Self-Consistencyは、特に以下のような複雑な推論が求められるシナリオで有効です。</p>
<ul class="wp-block-list">
<li><p><strong>多段階の算術・論理問題</strong>: 複数の計算ステップや論理的飛躍を必要とする問題で、個々のステップでのエラーを低減し、最終結果の正確性を高めます。</p></li>
<li><p><strong>常識推論</strong>: 曖昧さを含む日常的な状況判断や意思決定において、複数の解釈やアプローチを検討し、最も妥当な結論を導きます。</p></li>
<li><p><strong>法律・医療文書の解釈</strong>: 特定の事実に基づいて法的な判断や診断の可能性を推論する際、複数の根拠や解釈を検討し、偏りや誤りを減少させます。</p></li>
</ul>
<p>単一の推論パスに依存する従来のChain-of-Thought (CoT) プロンプティングと比較して、Self-Consistencyは、多様な思考経路から多数決によって結論を選択することで、より堅牢で信頼性の高い回答を生成することを目指します[1]。</p>
<h2 class="wp-block-heading">2. 制約付き仕様化</h2>
<p>LLMへの入出力に関する契約を明確に定義し、期待される動作と失敗時の挙動を規定します。</p>
<h3 class="wp-block-heading">入力契約</h3>
<ul class="wp-block-list">
<li><p><strong><code>question</code></strong>: <code>string</code> (必須) – 解決すべき推論問題。文字数は500文字以内。</p></li>
<li><p><strong><code>num_paths</code></strong>: <code>integer</code> (オプション, 既定値: 3) – LLMが生成すべき推論パスの数。1以上5以下の整数。</p></li>
</ul>
<h3 class="wp-block-heading">出力契約</h3>
<ul class="wp-block-list">
<li><p><strong><code>final_answer</code></strong>: <code>string</code> – 多数決または最も確度の高い推論パスに基づいて導かれた最終回答。</p></li>
<li><p><strong><code>reasoning_paths</code></strong>: <code>array of objects</code> – 各推論パスの詳細。</p>
<ul>
<li><p><strong><code>path_id</code></strong>: <code>integer</code> – パス識別子(例: 1, 2, 3)。</p></li>
<li><p><strong><code>steps</code></strong>: <code>string</code> – ステップバイステップの推論プロセス。</p></li>
<li><p><strong><code>path_answer</code></strong>: <code>string</code> – そのパスで導かれた最終回答。</p></li>
</ul></li>
</ul>
<h3 class="wp-block-heading">失敗時の挙動</h3>
<ul class="wp-block-list">
<li><p><code>num_paths</code>が指定範囲外(1未満または5超過)の場合:</p>
<ul>
<li><p><code>final_answer</code>: “エラー: ‘num_paths’は1から5の範囲で指定してください。”</p></li>
<li><p><code>reasoning_paths</code>: <code>[]</code> (空の配列)</p></li>
</ul></li>
<li><p>LLMが推論パスの生成に失敗した場合(例: タイムアウト、内部エラー、関連情報不足):</p>
<ul>
<li><p><code>final_answer</code>: “不明: 推論パスの生成に失敗しました。”</p></li>
<li><p><code>reasoning_paths</code>: <code>[]</code> (空の配列)</p></li>
</ul></li>
</ul>
<h3 class="wp-block-heading">禁止事項</h3>
<ul class="wp-block-list">
<li><p>差別的、暴力的、違法行為を助長する内容の生成。</p></li>
<li><p>個人特定情報(PII)の要求または生成。</p></li>
<li><p>機密情報の漏洩につながる可能性のある内容の処理。</p></li>
<li><p>上記の禁止事項に抵触する可能性がある入力に対しては、処理を中断し「倫理的ガイドライン違反の可能性があるため処理を中止しました」と応答する。</p></li>
</ul>
<h2 class="wp-block-heading">3. プロンプト設計</h2>
<p>Self-Consistencyを適用するためには、LLMに複数の独立した思考パスを生成させ、それらを統合する指示を与える必要があります。以下に3種類のプロンプト案を示します。</p>
<h3 class="wp-block-heading">3.1. ゼロショットプロンプト(ベースライン)</h3>
<p>Self-Consistencyの有無による性能比較のベースラインとして使用します。</p>
<div class="codehilite">
<pre data-enlighter-language="generic">以下の質問に答えてください。
質問: [ここに質問を挿入]
</pre>
</div>
<h3 class="wp-block-heading">3.2. 少数例CoTプロンプト(Self-Consistencyなし)</h3>
<p>CoTの有効性を確認するためのプロンプト。Self-Consistencyの直接的な指示は含みません。</p>
<div class="codehilite">
<pre data-enlighter-language="generic">以下の例を参考に、質問に答えてください。ステップバイステップで思考過程を説明してください。
例1:
質問: あるバスケットにリンゴが10個、オレンジが5個入っています。隣のバスケットからリンゴが3個追加され、オレンジが2個取り除かれました。バスケットに残っている果物は全部で何個ですか?
思考プロセス:
1. 最初、リンゴは10個、オレンジは5個。合計15個。
2. リンゴが3個追加されたので、リンゴは 10 + 3 = 13個になった。
3. オレンジが2個取り除かれたので、オレンジは 5 - 2 = 3個になった。
4. 最終的な果物の合計は 13 (リンゴ) + 3 (オレンジ) = 16個。
最終回答: 16個
質問: [ここに質問を挿入]
思考プロセス:
</pre>
</div>
<h3 class="wp-block-heading">3.3. Chain-of-Thought制約型Self-Consistencyプロンプト</h3>
<p>Self-Consistencyを明示的に指示し、複数の推論パスの生成と最終結論の導出を促します。</p>
<div class="codehilite">
<pre data-enlighter-language="generic">あなたは高度な推論能力を持つAIアシスタントです。
以下の質問に対し、異なるアプローチで3つの推論パスを生成し、それぞれの思考過程と最終回答を明確に示してください。
各パスは「--- 推論パス [N] ---」で始まり、「思考プロセス:」の後にステップバイステップの説明を、「最終回答:」の後にそのパスで導かれた回答を記述してください。
全ての推論パスを生成した後、3つの最終回答の中から最も妥当と思われるものを選択し、その選択理由とともに提示してください。
質問: [ここに質問を挿入]
--- 推論パス 1 ---
思考プロセス:
1.
最終回答:
--- 推論パス 2 ---
思考プロセス:
1.
最終回答:
--- 推論パス 3 ---
思考プロセス:
1.
最終回答:
--- 最終結論 ---
選択理由:
最終回答:
</pre>
</div>
<h2 class="wp-block-heading">4. 評価</h2>
<p>Self-Consistencyの効果を定量的に評価するための評価シナリオと自動評価の擬似コードを提示します。</p>
<h3 class="wp-block-heading">4.1. 評価シナリオ</h3>
<ul class="wp-block-list">
<li><p><strong>正例</strong>: 簡単な算術問題や明確な論理パズル。期待される推論パスと最終回答が明確なもの。</p>
<ul>
<li>例: 「ある店でシャツが3000円、パンツが5000円で売られています。両方買うと8%の消費税がかかります。合計金額はいくらになりますか?」</li>
</ul></li>
<li><p><strong>難例</strong>: 複数のステップ、条件分岐、または常識的な知識を必要とする複雑な問題。複数の有効な推論パスが存在しうるもの。</p>
<ul>
<li>例: 「Aさんは時速60kmで100km離れた目的地に向かい、途中で30分休憩しました。BさんはAさんが出発してから1時間後に時速80kmで同じ目的地に向かいました。どちらが先に目的地に到着しますか?」</li>
</ul></li>
<li><p><strong>コーナーケース</strong>: 曖昧な質問、情報不足の質問、または意図的に誤解を誘発するような質問。</p>
<ul>
<li>例: 「昨日の天気は晴れでした。今日の天気は何ですか?」</li>
</ul></li>
</ul>
<h3 class="wp-block-heading">4.2. 自動評価の擬似コード</h3>
<p>LLMの出力を自動で採点するためのPython擬似コードとルーブリック。</p>
<div class="codehilite">
<pre data-enlighter-language="generic">import collections
def evaluate_self_consistency_output(expected_answer: str, llm_output: dict) -> dict:
"""
Self-Consistencyプロンプトの出力を評価する。
Args:
expected_answer (str): 期待される(正しい)最終回答。
llm_output (dict): LLMからの出力。出力契約に準拠する想定。
例: {"final_answer": "...", "reasoning_paths": [{"path_id": 1, "steps": "...", "path_answer": "..."}, ...]}
Returns:
dict: 評価スコアを含む辞書。
- "accuracy": 最終回答の正確性 (0:不正解, 1:正解)。
- "consistency_score": 各パスの回答の一貫性 (0.0-1.0)。
- "format_adherence": 出力形式の適合性 (0:不適合, 1:適合)。
- "safety_violation": 禁止事項抵触 (0:なし, 1:あり)。
"""
score = {
"accuracy": 0,
"consistency_score": 0.0,
"format_adherence": 0,
"safety_violation": 0
}
# 1. 形式適合性の評価
# 出力契約に従って、主要キーが存在するか、reasoning_pathsが配列で各要素がオブジェクトかを確認
if isinstance(llm_output, dict) and \
"final_answer" in llm_output and \
"reasoning_paths" in llm_output and \
isinstance(llm_output["reasoning_paths"], list):
all_paths_formatted_correctly = True
for path in llm_output["reasoning_paths"]:
if not (isinstance(path, dict) and "path_id" in path and "steps" in path and "path_answer" in path):
all_paths_formatted_correctly = False
break
if all_paths_formatted_correctly:
score["format_adherence"] = 1
# 2. 安全性違反の評価 (簡略化された例)
# 実際には、より複雑なキーワードチェック、または別のLLMを用いたフィルタリングが必要
potential_violations = ["倫理的ガイドライン違反", "個人情報", "不適切な内容"]
if any(vio in llm_output.get("final_answer", "") for vio in potential_violations):
score["safety_violation"] = 1
for path in llm_output.get("reasoning_paths", []):
if any(vio in path.get("steps", "") for vio in potential_violations) or \
any(vio in path.get("path_answer", "") for vio in potential_violations):
score["safety_violation"] = 1
break
# 形式が適合し、安全性違反がない場合にのみ詳細評価を進める
if score["format_adherence"] == 1 and score["safety_violation"] == 0:
# 3. 最終回答の正確性の評価
# 大文字小文字を区別せず、空白を除去して比較
if llm_output["final_answer"].strip().lower() == expected_answer.strip().lower():
score["accuracy"] = 1
# 4. 推論の一貫性評価 (Self-Consistencyの核心部分)
if llm_output["reasoning_paths"]:
path_answers = [path.get("path_answer", "").strip().lower() for path in llm_output["reasoning_paths"]]
if path_answers:
answer_counts = collections.Counter(path_answers)
most_common_answer, count = answer_counts.most_common(1)[0]
# 最も頻繁に出現する回答が、全体のパス数に対してどれくらいの割合か
score["consistency_score"] = count / len(path_answers)
# 最終回答が多数決で最も多かった回答と一致している場合、さらにボーナス
if llm_output["final_answer"].strip().lower() == most_common_answer:
score["consistency_score"] = min(1.0, score["consistency_score"] + 0.2) # 最大1.0でキャップ
return score
# 評価ルーブリック:
# - accuracy: 1点 (最終回答が正解と一致), 0点 (不一致)
# - consistency_score: 0.0-1.0 (各推論パスの回答の一貫性度合い。最終回答と多数決の合致でボーナス)。
# - format_adherence: 1点 (指定された出力形式に完全に準拠), 0点 (不適合)。
# - safety_violation: 1点 (禁止事項に抵触する内容あり), 0点 (違反なし)。
</pre>
</div>
<h2 class="wp-block-heading">5. 誤り分析</h2>
<p>評価結果に基づき、LLMが失敗するパターンを特定します。</p>
<ul class="wp-block-list">
<li><p><strong>幻覚 (Hallucination)</strong>: 存在しない事実や誤った情報を基に推論を行う。Self-Consistencyの場合、複数のパスで一貫して誤った事実を引用したり、複数の異なる幻覚が生成されたりする可能性があります。</p></li>
<li><p><strong>様式崩れ</strong>: プロンプトで指定した出力フォーマット(例: JSON、特定の区切り文字)に従わない。<code>path_id</code>、<code>steps</code>、<code>path_answer</code>が欠落したり、予期せぬテキストが含まれたりします。</p></li>
<li><p><strong>脱線/タスク逸脱</strong>: 質問の意図から外れた回答を生成したり、指示された推論パスの生成数に従わない場合。</p></li>
<li><p><strong>推論の失敗</strong>: 中間ステップで論理的な誤りを犯し、結果として誤った最終回答に至る。Self-Consistencyであっても、全てのパスが同じ誤った前提に立ってしまう場合に発生しえます。</p></li>
<li><p><strong>多数決の限界</strong>: 複数の推論パスが生成されても、誤ったパスが多数を占めてしまう、または全パスが異なる回答を導き出し多数決が機能しないケース。</p></li>
</ul>
<h2 class="wp-block-heading">6. 改良</h2>
<p>誤り分析で特定された問題点に対して、以下の改良策を検討します。</p>
<ul class="wp-block-list">
<li><p><strong>プロンプトの具体化</strong>: 様式崩れや脱線に対しては、プロンプトの指示をより具体的、かつ明確に記述します。特に区切り文字や箇条書きの形式を厳密に指定します。</p></li>
<li><p><strong>少数例の追加/修正</strong>: 推論の失敗に対しては、より多様で複雑な少数例(Few-shot examples)を追加することで、モデルがよりロバストな推論パターンを学習できるようにします[2]。不適切な少数例は逆効果となるため、慎重に選択し、必要に応じて修正します。</p></li>
<li><p><strong>Systemプロンプトの強化</strong>: 幻覚や禁止事項に対しては、SystemプロンプトでLLMの役割、制約、倫理的ガイドラインを強調し、厳密な順守を求めます。</p></li>
<li><p><strong>検証ステップの導入</strong>: 多数決の限界に対しては、各推論パスの生成後に中間結果の妥当性を検証するステップを追加したり、最終回答の前に「この回答は論理的に矛盾がないか?」といった自己評価を促す指示を追加したりします。</p></li>
<li><p><strong>リトライ戦略</strong>: 様式崩れや一時的なエラーに対しては、指定形式に合致しない場合に再度生成を試みるリトライ戦略を実装します。</p></li>
</ul>
<h2 class="wp-block-heading">7. 再評価</h2>
<p>改良されたプロンプトやシステムを、再度評価シナリオを用いて評価します。評価指標(正確性、一貫性、形式適合性、安全性)の変化を追跡し、効果を検証します。このプロセスを繰り返すことで、プロンプトの質とLLMの推論信頼性を継続的に向上させます。</p>
<h2 class="wp-block-heading">8. プロンプト設計・評価のループ</h2>
<p>これまでの流れを図にまとめると、以下のようになります。</p>
<div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid">
graph TD
A["ユーザー入力 / 評価データ"] --> B{"プロンプト設計"};
B --|Zero-shot / Few-shot / CoT / Self-Consistency| C(LLM);
C --|推論パスを複数生成| D1("パス1");
C --|推論パスを複数生成| D2("パス2");
C --|推論パスを複数生成| D3("パスN");
D1 & D2 & D3 --> E{"多数決 / 最頻値で結論統合"};
E --|統合された最終回答| F("回答評価");
F --|評価結果(スコア/ログ)| G{"誤り分析"};
G --|フィードバックと改良案| B;
F --|最終出力| H["ユーザーへの提示"];
</pre></div>
<ul class="wp-block-list">
<li><p><code>A[ユーザー入力 / 評価データ]</code>:ユーザーからの質問や評価用に準備されたデータセット。</p></li>
<li><p><code>B{プロンプト設計}</code>:Self-Consistencyを組み込んだプロンプトの作成と調整。</p></li>
<li><p><code>C(LLM)</code>:Large Language Model。プロンプトに従い推論を実行。</p></li>
<li><p><code>D1(パス1)</code>, <code>D2(パス2)</code>, <code>D3(パスN)</code>:LLMが生成した個々の独立した推論パスと、それぞれのパスで導かれた回答。</p></li>
<li><p><code>E{多数決 / 最頻値で結論統合}</code>:複数のパスから最も頻繁に出現する回答を選択し、最終結論とする。</p></li>
<li><p><code>F(回答評価)</code>:自動評価ツールや手動レビューによる回答の評価。正確性、一貫性、形式適合性、安全性などを確認。</p></li>
<li><p><code>G{誤り分析}</code>:評価結果に基づき、LLMの失敗パターンやプロンプトの課題を特定。</p></li>
<li><p><code>H[ユーザーへの提示]</code>:評価済みの最終回答をユーザーに提示。</p></li>
</ul>
<h2 class="wp-block-heading">9. まとめ</h2>
<p>Self-Consistencyは、複数の推論パスを生成し多数決によって最終結論を導くことで、LLMの推論信頼性を大幅に向上させる強力な手法です[1]。本記事で示したように、適切なプロンプト設計、厳密な評価、そして継続的な改良のループを回すことで、LLMはより複雑で重要なタスクにおいて、より堅牢で信頼性の高い結果を提供できるようになります。特に、中間ステップにおける幻覚や論理的誤りのリスクを低減し、最終回答のロバスト性を高める上で、Self-Consistencyは不可欠なプロンプトエンジニアリング技術と言えるでしょう。</p>
<hr/>
<p><strong>参考文献</strong>
[1] Wang, X., Wei, J., Schuurmans, D., Le, Q. V., Chi, E. H., & Guu, K. (2022). Self-Consistency improves Chain of Thought Reasoning in Large Language Models. <em>arXiv preprint arXiv:2203.11171</em>. (公開日: 2022年3月21日)
[2] Google AI Blog. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. (公開日: 2022年5月10日)
[3] Azure AI Documentation. (2024). LLMの推論を強化するプロンプトエンジニアリング手法. (更新日: 2024年4月25日)</p>
本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト(未検証)です。
Self-ConsistencyによるLLM推論信頼性向上のプロンプト設計と評価
大規模言語モデル(LLM)は多様なタスクで優れた性能を発揮しますが、特に複雑な推論タスクでは、単一の思考パスに依存することで誤った結論を導くリスクがあります。Self-Consistencyは、この問題に対処し、推論の信頼性を向上させるための強力なプロンプトエンジニアリング手法です。本記事では、Self-Consistencyの原理に基づいたプロンプト設計、その評価方法、そして改良サイクルについて解説します。
1. ユースケース定義
Self-Consistencyは、特に以下のような複雑な推論が求められるシナリオで有効です。
多段階の算術・論理問題: 複数の計算ステップや論理的飛躍を必要とする問題で、個々のステップでのエラーを低減し、最終結果の正確性を高めます。
常識推論: 曖昧さを含む日常的な状況判断や意思決定において、複数の解釈やアプローチを検討し、最も妥当な結論を導きます。
法律・医療文書の解釈: 特定の事実に基づいて法的な判断や診断の可能性を推論する際、複数の根拠や解釈を検討し、偏りや誤りを減少させます。
単一の推論パスに依存する従来のChain-of-Thought (CoT) プロンプティングと比較して、Self-Consistencyは、多様な思考経路から多数決によって結論を選択することで、より堅牢で信頼性の高い回答を生成することを目指します[1]。
2. 制約付き仕様化
LLMへの入出力に関する契約を明確に定義し、期待される動作と失敗時の挙動を規定します。
入力契約
question: string (必須) – 解決すべき推論問題。文字数は500文字以内。
num_paths: integer (オプション, 既定値: 3) – LLMが生成すべき推論パスの数。1以上5以下の整数。
出力契約
失敗時の挙動
禁止事項
3. プロンプト設計
Self-Consistencyを適用するためには、LLMに複数の独立した思考パスを生成させ、それらを統合する指示を与える必要があります。以下に3種類のプロンプト案を示します。
3.1. ゼロショットプロンプト(ベースライン)
Self-Consistencyの有無による性能比較のベースラインとして使用します。
以下の質問に答えてください。
質問: [ここに質問を挿入]
3.2. 少数例CoTプロンプト(Self-Consistencyなし)
CoTの有効性を確認するためのプロンプト。Self-Consistencyの直接的な指示は含みません。
以下の例を参考に、質問に答えてください。ステップバイステップで思考過程を説明してください。
例1:
質問: あるバスケットにリンゴが10個、オレンジが5個入っています。隣のバスケットからリンゴが3個追加され、オレンジが2個取り除かれました。バスケットに残っている果物は全部で何個ですか?
思考プロセス:
1. 最初、リンゴは10個、オレンジは5個。合計15個。
2. リンゴが3個追加されたので、リンゴは 10 + 3 = 13個になった。
3. オレンジが2個取り除かれたので、オレンジは 5 - 2 = 3個になった。
4. 最終的な果物の合計は 13 (リンゴ) + 3 (オレンジ) = 16個。
最終回答: 16個
質問: [ここに質問を挿入]
思考プロセス:
3.3. Chain-of-Thought制約型Self-Consistencyプロンプト
Self-Consistencyを明示的に指示し、複数の推論パスの生成と最終結論の導出を促します。
あなたは高度な推論能力を持つAIアシスタントです。
以下の質問に対し、異なるアプローチで3つの推論パスを生成し、それぞれの思考過程と最終回答を明確に示してください。
各パスは「--- 推論パス [N] ---」で始まり、「思考プロセス:」の後にステップバイステップの説明を、「最終回答:」の後にそのパスで導かれた回答を記述してください。
全ての推論パスを生成した後、3つの最終回答の中から最も妥当と思われるものを選択し、その選択理由とともに提示してください。
質問: [ここに質問を挿入]
--- 推論パス 1 ---
思考プロセス:
1.
最終回答:
--- 推論パス 2 ---
思考プロセス:
1.
最終回答:
--- 推論パス 3 ---
思考プロセス:
1.
最終回答:
--- 最終結論 ---
選択理由:
最終回答:
4. 評価
Self-Consistencyの効果を定量的に評価するための評価シナリオと自動評価の擬似コードを提示します。
4.1. 評価シナリオ
正例: 簡単な算術問題や明確な論理パズル。期待される推論パスと最終回答が明確なもの。
- 例: 「ある店でシャツが3000円、パンツが5000円で売られています。両方買うと8%の消費税がかかります。合計金額はいくらになりますか?」
難例: 複数のステップ、条件分岐、または常識的な知識を必要とする複雑な問題。複数の有効な推論パスが存在しうるもの。
- 例: 「Aさんは時速60kmで100km離れた目的地に向かい、途中で30分休憩しました。BさんはAさんが出発してから1時間後に時速80kmで同じ目的地に向かいました。どちらが先に目的地に到着しますか?」
コーナーケース: 曖昧な質問、情報不足の質問、または意図的に誤解を誘発するような質問。
- 例: 「昨日の天気は晴れでした。今日の天気は何ですか?」
4.2. 自動評価の擬似コード
LLMの出力を自動で採点するためのPython擬似コードとルーブリック。
import collections
def evaluate_self_consistency_output(expected_answer: str, llm_output: dict) -> dict:
"""
Self-Consistencyプロンプトの出力を評価する。
Args:
expected_answer (str): 期待される(正しい)最終回答。
llm_output (dict): LLMからの出力。出力契約に準拠する想定。
例: {"final_answer": "...", "reasoning_paths": [{"path_id": 1, "steps": "...", "path_answer": "..."}, ...]}
Returns:
dict: 評価スコアを含む辞書。
- "accuracy": 最終回答の正確性 (0:不正解, 1:正解)。
- "consistency_score": 各パスの回答の一貫性 (0.0-1.0)。
- "format_adherence": 出力形式の適合性 (0:不適合, 1:適合)。
- "safety_violation": 禁止事項抵触 (0:なし, 1:あり)。
"""
score = {
"accuracy": 0,
"consistency_score": 0.0,
"format_adherence": 0,
"safety_violation": 0
}
# 1. 形式適合性の評価
# 出力契約に従って、主要キーが存在するか、reasoning_pathsが配列で各要素がオブジェクトかを確認
if isinstance(llm_output, dict) and \
"final_answer" in llm_output and \
"reasoning_paths" in llm_output and \
isinstance(llm_output["reasoning_paths"], list):
all_paths_formatted_correctly = True
for path in llm_output["reasoning_paths"]:
if not (isinstance(path, dict) and "path_id" in path and "steps" in path and "path_answer" in path):
all_paths_formatted_correctly = False
break
if all_paths_formatted_correctly:
score["format_adherence"] = 1
# 2. 安全性違反の評価 (簡略化された例)
# 実際には、より複雑なキーワードチェック、または別のLLMを用いたフィルタリングが必要
potential_violations = ["倫理的ガイドライン違反", "個人情報", "不適切な内容"]
if any(vio in llm_output.get("final_answer", "") for vio in potential_violations):
score["safety_violation"] = 1
for path in llm_output.get("reasoning_paths", []):
if any(vio in path.get("steps", "") for vio in potential_violations) or \
any(vio in path.get("path_answer", "") for vio in potential_violations):
score["safety_violation"] = 1
break
# 形式が適合し、安全性違反がない場合にのみ詳細評価を進める
if score["format_adherence"] == 1 and score["safety_violation"] == 0:
# 3. 最終回答の正確性の評価
# 大文字小文字を区別せず、空白を除去して比較
if llm_output["final_answer"].strip().lower() == expected_answer.strip().lower():
score["accuracy"] = 1
# 4. 推論の一貫性評価 (Self-Consistencyの核心部分)
if llm_output["reasoning_paths"]:
path_answers = [path.get("path_answer", "").strip().lower() for path in llm_output["reasoning_paths"]]
if path_answers:
answer_counts = collections.Counter(path_answers)
most_common_answer, count = answer_counts.most_common(1)[0]
# 最も頻繁に出現する回答が、全体のパス数に対してどれくらいの割合か
score["consistency_score"] = count / len(path_answers)
# 最終回答が多数決で最も多かった回答と一致している場合、さらにボーナス
if llm_output["final_answer"].strip().lower() == most_common_answer:
score["consistency_score"] = min(1.0, score["consistency_score"] + 0.2) # 最大1.0でキャップ
return score
# 評価ルーブリック:
# - accuracy: 1点 (最終回答が正解と一致), 0点 (不一致)
# - consistency_score: 0.0-1.0 (各推論パスの回答の一貫性度合い。最終回答と多数決の合致でボーナス)。
# - format_adherence: 1点 (指定された出力形式に完全に準拠), 0点 (不適合)。
# - safety_violation: 1点 (禁止事項に抵触する内容あり), 0点 (違反なし)。
5. 誤り分析
評価結果に基づき、LLMが失敗するパターンを特定します。
幻覚 (Hallucination): 存在しない事実や誤った情報を基に推論を行う。Self-Consistencyの場合、複数のパスで一貫して誤った事実を引用したり、複数の異なる幻覚が生成されたりする可能性があります。
様式崩れ: プロンプトで指定した出力フォーマット(例: JSON、特定の区切り文字)に従わない。path_id、steps、path_answerが欠落したり、予期せぬテキストが含まれたりします。
脱線/タスク逸脱: 質問の意図から外れた回答を生成したり、指示された推論パスの生成数に従わない場合。
推論の失敗: 中間ステップで論理的な誤りを犯し、結果として誤った最終回答に至る。Self-Consistencyであっても、全てのパスが同じ誤った前提に立ってしまう場合に発生しえます。
多数決の限界: 複数の推論パスが生成されても、誤ったパスが多数を占めてしまう、または全パスが異なる回答を導き出し多数決が機能しないケース。
6. 改良
誤り分析で特定された問題点に対して、以下の改良策を検討します。
プロンプトの具体化: 様式崩れや脱線に対しては、プロンプトの指示をより具体的、かつ明確に記述します。特に区切り文字や箇条書きの形式を厳密に指定します。
少数例の追加/修正: 推論の失敗に対しては、より多様で複雑な少数例(Few-shot examples)を追加することで、モデルがよりロバストな推論パターンを学習できるようにします[2]。不適切な少数例は逆効果となるため、慎重に選択し、必要に応じて修正します。
Systemプロンプトの強化: 幻覚や禁止事項に対しては、SystemプロンプトでLLMの役割、制約、倫理的ガイドラインを強調し、厳密な順守を求めます。
検証ステップの導入: 多数決の限界に対しては、各推論パスの生成後に中間結果の妥当性を検証するステップを追加したり、最終回答の前に「この回答は論理的に矛盾がないか?」といった自己評価を促す指示を追加したりします。
リトライ戦略: 様式崩れや一時的なエラーに対しては、指定形式に合致しない場合に再度生成を試みるリトライ戦略を実装します。
7. 再評価
改良されたプロンプトやシステムを、再度評価シナリオを用いて評価します。評価指標(正確性、一貫性、形式適合性、安全性)の変化を追跡し、効果を検証します。このプロセスを繰り返すことで、プロンプトの質とLLMの推論信頼性を継続的に向上させます。
8. プロンプト設計・評価のループ
これまでの流れを図にまとめると、以下のようになります。
graph TD
A["ユーザー入力 / 評価データ"] --> B{"プロンプト設計"};
B --|Zero-shot / Few-shot / CoT / Self-Consistency| C(LLM);
C --|推論パスを複数生成| D1("パス1");
C --|推論パスを複数生成| D2("パス2");
C --|推論パスを複数生成| D3("パスN");
D1 & D2 & D3 --> E{"多数決 / 最頻値で結論統合"};
E --|統合された最終回答| F("回答評価");
F --|評価結果(スコア/ログ)| G{"誤り分析"};
G --|フィードバックと改良案| B;
F --|最終出力| H["ユーザーへの提示"];
A[ユーザー入力 / 評価データ]:ユーザーからの質問や評価用に準備されたデータセット。
B{プロンプト設計}:Self-Consistencyを組み込んだプロンプトの作成と調整。
C(LLM):Large Language Model。プロンプトに従い推論を実行。
D1(パス1), D2(パス2), D3(パスN):LLMが生成した個々の独立した推論パスと、それぞれのパスで導かれた回答。
E{多数決 / 最頻値で結論統合}:複数のパスから最も頻繁に出現する回答を選択し、最終結論とする。
F(回答評価):自動評価ツールや手動レビューによる回答の評価。正確性、一貫性、形式適合性、安全性などを確認。
G{誤り分析}:評価結果に基づき、LLMの失敗パターンやプロンプトの課題を特定。
H[ユーザーへの提示]:評価済みの最終回答をユーザーに提示。
9. まとめ
Self-Consistencyは、複数の推論パスを生成し多数決によって最終結論を導くことで、LLMの推論信頼性を大幅に向上させる強力な手法です[1]。本記事で示したように、適切なプロンプト設計、厳密な評価、そして継続的な改良のループを回すことで、LLMはより複雑で重要なタスクにおいて、より堅牢で信頼性の高い結果を提供できるようになります。特に、中間ステップにおける幻覚や論理的誤りのリスクを低減し、最終回答のロバスト性を高める上で、Self-Consistencyは不可欠なプロンプトエンジニアリング技術と言えるでしょう。
参考文献
[1] Wang, X., Wei, J., Schuurmans, D., Le, Q. V., Chi, E. H., & Guu, K. (2022). Self-Consistency improves Chain of Thought Reasoning in Large Language Models. arXiv preprint arXiv:2203.11171. (公開日: 2022年3月21日)
[2] Google AI Blog. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. (公開日: 2022年5月10日)
[3] Azure AI Documentation. (2024). LLMの推論を強化するプロンプトエンジニアリング手法. (更新日: 2024年4月25日)
コメント