graph TD
A["設計"] --> B["実行"]
B --> C["評価"]
C -->|改善| A
設計: 思考のステップ(CoT)を明示的に定義し、Few-shotで推論の「型」を示す。
実行: Gemini 1.5 Pro等の高コンテキストモデルで推論プロセスを走らせる。
評価: LLM-as-a-Judgeを用い、結論の正誤だけでなく「推論過程の妥当性」を採点。
改善: 誤答パターンを抽出し、プロンプトの制約事項やFew-shotを更新する。
【プロンプトの実装案】
# Role
あなたは複雑な契約法務に精通した論理分析エキスパートです。
# Task
入力された複数の条項間に矛盾や論理的整合性の欠如がないか分析してください。
# Thought Process (Chain-of-Thought)
回答を出す前に、以下の手順で思考してください:
1. 各条項の適用条件と効果を箇条書きで抽出する。
2. 条項Aの条件が満たされた時、条項Bと衝突するケースがないかシミュレーションする。
3. 結論を導く。
# Examples
Input:
条項A:全社員は月曜日の出社を必須とする。
条項B:育児休暇中の社員は、すべての出社義務を免除される。
Thought:
1. 条項Aの条件:全社員、効果:月曜出社必須。
2. 条項Bの条件:育児休暇中、効果:出社免除。
3. 衝突の検証:「全社員」には育児休暇中の社員も含まれるが、条項Bが例外規定として機能しているか確認が必要。この場合、一般的規定(A)と特別規定(B)の関係にあり、論理的矛盾はない。
Result: {"status": "consistent", "analysis": "条項Bが条項Aの例外規定として明確に機能しているため。"}
# Input Data
[ここに分析したいテキストを貼り付け]
# Output Format
JSON形式で出力してください。
【評価指標と誤り分析】
指標
評価基準
失敗時の対策
推論の論理整合性
思考プロセスに飛躍や矛盾がないか
Step-by-stepの指示をより細分化する
JSONフォーマット
パース可能な正しいJSON構造か
構造指定を厳格化し、末尾に例を置く
根拠の妥当性
条文に基づいた正確な引用があるか
「引用句を必ず含めること」と指示を追加
【改良後の最適プロンプト】
# System
You are a highly logical reasoning engine. You must analyze the input text for internal contradictions.
# Constraints
- You MUST think step-by-step.
- Output the final result in JSON format only.
- Ensure the "reasoning" field explains the logic based on the extracted rules.
# Execution Protocol
1. EXTRACT: identify all rules and conditions.
2. HYPOTHESIZE: test edge cases where rules might overlap.
3. VERIFY: check if any overlap leads to mutually exclusive outcomes.
4. JSON OUTPUT.
# Few-shot Example
(Similar to implementation proposal, but with more complex edge cases)
# Input
[TEXT_TO_ANALYZE]
# Final Output Template
{
"thought_process": "...",
"findings": [
{"issue": "...", "severity": "high/medium/low", "details": "..."}
],
"is_consistent": boolean
}
【まとめ】
思考を強制的に外部化させる: Thought Processセクションを設け、結論の前に分析を書き出させることで、Gemini 1.5 Pro等のモデルの推論精度は飛躍的に向上する。
コメント