<p> 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">kubectl debug を活用したKubernetes Pod診断の深化</h1> <p>DevOpsエンジニアにとって、Kubernetes環境におけるアプリケーションの安定稼働は最優先事項です。しかし、予期せぬ問題が発生した際に、既存のPodの内部状態を詳細に把握し、迅速に診断を行うことは容易ではありません。<code>kubectl debug</code>コマンドは、このような課題を解決するための強力なツールとして、Kubernetes v1.25でEphemeral ContainersのGAとともにその有用性を確立しました[1, 2]。、<code>kubectl debug</code>コマンドの様々な機能を活用し、Kubernetes Podの診断を効率的かつ安全に行うための実践的なアプローチを解説します。エフェメラルコンテナやPodコピーモードの利用法から、権限管理、さらにはsystemdを用いた診断プロセスの自動化例までを網羅し、DevOpsエンジニアが直面するであろうシナリオに対応します。</p> <h2 class="wp-block-heading">1. 要件と前提</h2> <p><code>kubectl debug</code>コマンドを効果的に利用するためには、以下の要件と前提が満たされている必要があります。</p> <ul class="wp-block-list"> <li><p><strong>Kubernetesクラスター</strong>:</p> <ul> <li><p>Kubernetes v1.25以降のクラスターを推奨します。Ephemeral Containers機能が安定版として提供され、デフォルトで有効になっています。</p></li> <li><p><code>EphemeralContainers</code> feature gateが有効である必要があります。</p></li> </ul></li> <li><p><strong>kubectlコマンドラインツール</strong>:</p> <ul> <li>クラスターのバージョンに対応する<code>kubectl</code>がクライアントマシンにインストールされていること。</li> </ul></li> <li><p><strong>適切なRBAC権限</strong>:</p> <ul> <li><p><code>kubectl debug</code>を実行するユーザーまたはServiceAccountには、以下の権限が必要です。</p> <ul> <li><p><code>pods/ephemeralcontainers</code>リソースに対する<code>create</code>権限</p></li> <li><p><code>pods</code>リソースに対する<code>patch</code>権限</p></li> <li><p><code>pods</code>リソースに対する<code>get</code>権限 (情報を取得するため)</p></li> </ul></li> </ul></li> <li><p><strong>デバッグ用イメージ</strong>:</p> <ul> <li>診断に必要なツール（例: <code>curl</code>, <code>ping</code>, <code>tcpdump</code>, <code>strace</code>, <code>jq</code>など）を含む軽量なコンテナイメージ（例: <code>busybox</code>, <code>ubuntu</code>, <code>nixos/nix</code>など）を用意してください。</li> </ul></li> </ul> <h2 class="wp-block-heading">2. <code>kubectl debug</code> の実装</h2> <p><code>kubectl debug</code>は、既存のPodに一時的なコンテナを追加したり、Podのコピーを作成したりすることで、Podの内部状態を検査する柔軟な方法を提供します。</p> <h3 class="wp-block-heading">2.1. <code>kubectl debug</code> の概要と利点</h3> <p><code>kubectl debug</code>は、以下の3つの主要なモードで動作します。</p> <ol class="wp-block-list"> <li><p><strong>エフェメラルコンテナの追加</strong>: 既存のPodに一時的なデバッグ用コンテナを追加します。このコンテナは、既存のPodと同じPID、ネットワーク、IPC名前空間を共有し、プロセス、ネットワーク、ファイルシステムなどの検査に最適です。アプリケーションコンテナを再起動することなく診断が可能です。</p></li> <li><p><strong>Podのコピーと変更</strong>: 既存のPodの定義をコピーし、その定義にデバッグ用の変更（例: コマンドの変更、イメージの変更）を加えて新しいPodを作成します。これにより、問題のPodの環境を再現しつつ、インタラクティブにデバッグできます。</p></li> <li><p><strong>新規Podの作成</strong>: 特定のイメージとコマンドを指定して新しいPodを作成し、ホストの名前空間にアクセスするなど、より高度なデバッグシナリオに対応します。</p></li> </ol> <p>これらのモードにより、<code>kubectl debug</code>は以下のような利点をもたらします。</p> <ul class="wp-block-list"> <li><p><strong>非侵襲的診断</strong>: アプリケーションコンテナのサービス中断を最小限に抑えながら診断できます。</p></li> <li><p><strong>環境再現性</strong>: 問題が発生している実際の環境に近い条件でデバッグを行えます。</p></li> <li><p><strong>柔軟性</strong>: さまざまなデバッグシナリオに対応するための複数のオプションを提供します。</p></li> </ul> <h3 class="wp-block-heading">2.2. デバッグフロー</h3> <p><code>kubectl debug</code>コマンドを使用する際の一般的なデバッグフローは以下の通りです。</p> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["Pod診断開始"] --> B{"診断対象Podは実行中か？"}; B -- Yes --> C{"インタラクティブなシェルが必要か？"}; B -- No --> D{"設定を変更して起動したいか？"}; C -- Yes --> E["エフェメラルコンテナを利用"]; E --> F["kubectl debug -it <pod> --image=<debug-image>"]; F --> G["Pod名前空間で診断"]; C -- No --> H["コンテナ定義を変更して再起動"]; H --> I["kubectl debug --copy-to=<new-pod> <pod> --container=<container-name> --command=[\"sh\""]]; I --> J["新しいPodで診断"]; D -- Yes --> K["設定を調整した新規Pod作成"]; K --> L["kubectl debug --image=<image> --target=/host -- <command>"]; L --> J; G --> M["診断終了"]; J --> M; </pre></div> <h3 class="wp-block-heading">2.3. エフェメラルコンテナの利用</h3> <p>最も一般的な利用ケースは、既存のPodにエフェメラルコンテナを追加してインタラクティブなシェルセッションを開始することです。</p> <h4 class="wp-block-heading">2.3.1. 基本的な使用法</h4> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail # Pod名とデバッグ対象コンテナ名を指定 POD_NAME="my-app-pod" TARGET_CONTAINER="my-app-container" DEBUG_IMAGE="busybox:stable" # 診断ツールを含む軽量イメージ echo "--- 既存のPod ${POD_NAME} にエフェメラルコンテナを追加 ---" # ephemeral-containersはkubectl logsでは表示されないため、kubectl describeで確認 kubectl describe pod "${POD_NAME}" | grep "Ephemeral Containers" || true # エフェメラルコンテナを追加し、インタラクティブシェルを起動 # --targetオプションで、エフェメラルコンテナが既存のアプリケーションコンテナと同じ名前空間を共有するよう指定 # --imageオプションで、デバッグ用イメージを指定 kubectl debug -it "${POD_NAME}" --image="${DEBUG_IMAGE}" --target="${TARGET_CONTAINER}" -- /bin/sh echo "--- エフェメラルコンテナセッション終了 ---" </pre> </div> <p>上記コマンドを実行すると、<code>my-app-pod</code>内の<code>my-app-container</code>と同じ名前空間で<code>busybox</code>イメージをベースとしたシェルが起動します。このシェルから、対象アプリケーションのファイルシステム、ネットワーク、プロセスリストなどを検査できます。</p> <h4 class="wp-block-heading">2.3.2. 権限分離とroot権限の扱いに関する注意点</h4> <p>エフェメラルコンテナは、本質的に既存のPodのコンテキスト内で実行されるため、そのコンテナに割り当てられたSecurityContextやNamespace設定を継承します。診断の際に<code>root</code>権限が必要な場合、<code>--security-context='{"runAsUser": 0}'</code>などのオプションで明示的に<code>root</code>ユーザーとして実行することも可能ですが、これには以下の注意が必要です。</p> <ul class="wp-block-list"> <li><p><strong>セキュリティリスク</strong>: <code>root</code>権限で実行されるデバッグコンテナは、Pod内の他のプロセスや、ホストの特定のファイルシステム（<code>hostPath</code>マウントされている場合）に意図しない変更を加える可能性があります。最小限の権限（Principle of Least Privilege）を遵守し、必要な場合にのみ<code>root</code>権限を使用してください。</p></li> <li><p><strong>イメージの選択</strong>: <code>root</code>として実行する場合でも、デバッグイメージは信頼できるソースから取得し、必要なツールのみを含む軽量なものを選定してください。</p></li> <li><p><strong>ログと監査</strong>: 診断プロセスと実行されたコマンドは、可能であればログとして記録し、監査できるようにすることが重要です。</p></li> </ul> <h3 class="wp-block-heading">2.4. Podのコピーモードの利用</h3> <p>特定のコンテナの設定（コマンド、環境変数など）を変更してデバッグしたいが、元のPodに影響を与えたくない場合に、Podのコピーモードが役立ちます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail POD_NAME="my-app-pod" NEW_POD_NAME="${POD_NAME}-debug-$(date +%s)" TARGET_CONTAINER="my-app-container" DEBUG_IMAGE="ubuntu:latest" # より多くのツールが含まれるイメージ TMP_DIR=$(mktemp -d) # cleanup function trap 'rm -rf "${TMP_DIR}"' EXIT echo "--- Pod ${POD_NAME} を ${NEW_POD_NAME} としてコピーし、デバッグ ---" # 元のPodのYAMLを一時ファイルに保存 kubectl get pod "${POD_NAME}" -o yaml > "${TMP_DIR}/original-pod.yaml" # --copy-toオプションでPodをコピーし、デバッグ用の変更を加える # --set-container-image: 特定のコンテナのイメージを変更 # --container: 変更対象のコンテナを指定 # --command: コンテナの起動コマンドを上書き kubectl debug "${POD_NAME}" \ --copy-to="${NEW_POD_NAME}" \ --set-container-image="${TARGET_CONTAINER}=${DEBUG_IMAGE}" \ --container="${TARGET_CONTAINER}" \ --command -- /bin/bash # 新しいPodが起動し、インタラクティブシェルが提供される echo "--- デバッグ用Pod ${NEW_POD_NAME} のセッション終了 ---" echo "--- デバッグ用Pod ${NEW_POD_NAME} を削除 ---" kubectl delete pod "${NEW_POD_NAME}" </pre> </div> <p>このモードは、<code>command</code>や<code>args</code>を変更してPodの起動動作をテストしたい場合や、別のバージョンのイメージでテストしたい場合に特に有効です。</p> <h3 class="wp-block-heading">2.5. 新規Podの作成モード</h3> <p>より低レベルなデバッグや、ホストOSレベルでの診断が必要な場合、<code>kubectl debug node/<node-name></code>形式で、特定のノード上で新しいPodをデバッグモードで起動できます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail NODE_NAME="node01" # 診断対象のノード名 DEBUG_IMAGE="ubuntu:latest" echo "--- ノード ${NODE_NAME} 上でデバッグ用Podを起動 ---" # 特定のノードにデバッグPodをスケジュールし、ホストのファイルシステムをマウント # --target=/hostオプションで、ホストの名前空間へのアクセスを容易にする kubectl debug node/"${NODE_NAME}" -it --image="${DEBUG_IMAGE}" --target=/host echo "--- ノードレベルデバッグセッション終了 ---" </pre> </div> <p>このモードでは、ホストのファイルシステムが<code>/host</code>にマウントされるため、<code>chroot /host</code>を実行することで、ホストOSのコンテキストに切り替えて診断を行うことができます。これにより、<code>kubelet</code>の問題やCNIプラグインの問題など、より深いレベルの問題を調査することが可能になります。ただし、<strong>この操作は非常に強力であり、セキュリティリスクが伴うため、十分な理解と注意が必要です。</strong></p> <h2 class="wp-block-heading">3. 検証</h2> <p><code>kubectl debug</code>コマンドによってデバッグ用コンテナやPodが正しく起動し、期待通りに機能しているかを確認することは重要です。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail POD_NAME="my-app-pod" # 診断対象のPod名 echo "--- デバッグ対象Podの状態確認 ---" kubectl get pod "${POD_NAME}" # エフェメラルコンテナが追加されたことを確認 # ephemeral-containersはkubectl getには表示されないため、describeを使用 echo "--- エフェメラルコンテナの存在確認 (kubectl describe) ---" kubectl describe pod "${POD_NAME}" | grep "Ephemeral Containers" || echo "No ephemeral containers found yet." # 例: エフェメラルコンテナからネットワーク疎通を確認 # まずエフェメラルコンテナが起動している状態で、別途ターミナルから以下を実行 # kubectl debug -it "${POD_NAME}" --image=busybox --target=my-app-container -- ping google.com -c 3 echo "--- デバッグ用Podのログ確認 (必要に応じて) ---" # もしコピーモードで新しいPodを作成した場合、そのログを確認 # kubectl logs my-app-pod-debug-1234567890 echo "--- 検証完了 ---" </pre> </div> <h2 class="wp-block-heading">4. 運用</h2> <p><code>kubectl debug</code>はアドホックな診断に強力ですが、特定のシナリオでは自動化された運用の一部として組み込むことも考えられます。ここでは、<code>systemd</code>の<code>Unit</code>と<code>Timer</code>を用いて、定期的にKubernetes APIから情報を取得し、その結果をログに出力する例を示します。これにより、特定の状態変化や異常を監視しやすくなります。</p> <h3 class="wp-block-heading">4.1. systemd unit/timer を用いた定期診断/ログ収集</h3> <p>Kubernetes APIサーバーから特定の情報を定期的に取得し、ログとして保存する<code>systemd</code>の例です。ここでは、すべてのPodのリストとステータスを<code>jq</code>で整形して取得します。</p> <h4 class="wp-block-heading">4.1.1. Kubernetes APIへのアクセス例（<code>curl</code>と<code>jq</code>）</h4> <p><code>kubectl</code>が利用可能な環境（例: <code>kube-scheduler</code>や<code>kube-controller-manager</code>が動作するコントロールプレーンノード）で直接APIサーバーに<code>curl</code>でアクセスする例です。サービスアカウントのトークンを利用して認証を行います。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail # Kubernetes APIサーバーのアドレスとポート KUBERNETES_SERVICE_HOST=${KUBERNETES_SERVICE_HOST:-kubernetes.default.svc} KUBERNETES_SERVICE_PORT=${KUBERNETES_SERVICE_PORT:-443} API_SERVER="https://${KUBERNETES_SERVICE_HOST}:${KUBERNETES_SERVICE_PORT}" # サービスアカウントのトークンとCA証明書のパス (Pod内で実行されることを想定) # 環境変数として注入されるか、特定のパスにマウントされる SERVICEACCOUNT_TOKEN_PATH="/var/run/secrets/kubernetes.io/serviceaccount/token" SERVICEACCOUNT_CA_PATH="/var/run/secrets/kubernetes.io/serviceaccount/ca.crt" # jqがインストールされていることを前提 if ! command -v jq &> /dev/null; then echo "Error: jq is not installed. Please install jq to parse JSON output." exit 1 fi echo "--- $(date '+%Y-%m-%d %H:%M:%S %Z') - Kubernetes Pods Status ---" # APIサーバーからPod情報を取得 # TLS検証にはCA証明書を使用 # -k / --insecure は非推奨。適切なCA証明書を使うべき。 # --retry-connrefused で接続拒否時のリトライ # --retry <num> でHTTPレベルのリトライ # --retry-delay <seconds> でリトライ間隔 (指数バックオフは別途ロジックが必要) curl_command=( curl --silent --show-error --cacert "${SERVICEACCOUNT_CA_PATH}" --header "Authorization: Bearer $(cat "${SERVICEACCOUNT_TOKEN_PATH}")" --max-time 10 --retry 3 --retry-delay 2 # seconds --retry-max-time 30 # seconds "${API_SERVER}/api/v1/pods" ) if ! "${curl_command[@]}" | jq -r ' .items[] | { name: .metadata.name, namespace: .metadata.namespace, nodeName: .spec.nodeName, phase: .status.phase, containerStatuses: [ (.status.containerStatuses // [])[] | { name: .name, ready: .ready, restartCount: .restartCount, state: (.state | to_entries | .[] | .key + ": " + (.value | keys | join(", ")) ) } ] }' then echo "Error: Failed to retrieve or parse Pod information from Kubernetes API." >&2 exit 1 fi echo "--- API情報取得完了 ---" </pre> </div> <h4 class="wp-block-heading">4.1.2. systemd Unitファイル (<code>k8s-pod-monitor.service</code>)</h4> <div class="codehilite"> <pre data-enlighter-language="generic">[Unit] Description=Kubernetes Pod Status Monitor Service After=network-online.target [Service] Type=oneshot ExecStart=/usr/local/bin/k8s-pod-monitor.sh # 上記シェルスクリプトのパス User=nobody # 最小限の権限で実行 (APIアクセスはトークンに依存) Group=nogroup StandardOutput=journal StandardError=journal # 環境変数 KUBERNETES_SERVICE_HOST, KUBERNETES_SERVICE_PORT は # systemdが動作する環境（例: コントロールプレーンノード）に応じて設定するか、 # スクリプト内でServiceAccountトークンとCA証明書パスを適切に扱う # 例えば、systemdでなくPodとして実行し、ServiceAccountをマウントする方が典型的 # この例は、systemdがAPIサーバーに直接アクセスできるケースを想定 # (ex: コントロールプレーンノードでkubeconfigが利用可能、またはSAトークンを適切に用意) </pre> </div> <h4 class="wp-block-heading">4.1.3. systemd Timerファイル (<code>k8s-pod-monitor.timer</code>)</h4> <div class="codehilite"> <pre data-enlighter-language="generic">[Unit] Description=Run Kubernetes Pod Status Monitor every 5 minutes [Timer] OnBootSec=1min OnUnitActiveSec=5min # 5分ごとに実行 Unit=k8s-pod-monitor.service # 実行するサービスユニット [Install] WantedBy=timers.target </pre> </div> <h4 class="wp-block-heading">4.1.4. systemdの起動とログ確認</h4> <ol class="wp-block-list"> <li><p>上記のシェルスクリプトを<code>/usr/local/bin/k8s-pod-monitor.sh</code>として保存し、実行権限を付与する (<code>chmod +x</code>)。</p></li> <li><p><code>.service</code>ファイルと<code>.timer</code>ファイルを<code>/etc/systemd/system/</code>ディレクトリに保存する。</p></li> <li><p><code>systemctl daemon-reload</code>でsystemdの設定をリロードする。</p></li> <li><p><code>systemctl enable k8s-pod-monitor.timer</code>でタイマーを有効化する。</p></li> <li><p><code>systemctl start k8s-pod-monitor.timer</code>でタイマーを開始する。</p></li> <li><p><code>journalctl -u k8s-pod-monitor.service</code>で実行ログを確認する。</p></li> </ol> <h3 class="wp-block-heading">4.2. セキュリティプラクティス</h3> <ul class="wp-block-list"> <li><p><strong>最小特権の原則</strong>: <code>kubectl debug</code>を使用するユーザーやサービスアカウントには、必要な最小限のRBAC権限のみを付与してください。</p></li> <li><p><strong>信頼できるイメージ</strong>: デバッグ用イメージは、既知の脆弱性がない、信頼できるソースから取得したものを使用してください。</p></li> <li><p><strong>使用後のクリーンアップ</strong>: 特にPodコピーモードや新規Pod作成モードで作成したデバッグ用Podは、診断が完了したら速やかに削除してください。</p></li> <li><p><strong>監査とロギング</strong>: <code>kubectl debug</code>の実行は監査ログに記録され、セキュリティインシデント発生時の追跡を可能にしてください。</p></li> </ul> <h2 class="wp-block-heading">5. トラブルシューティング</h2> <p><code>kubectl debug</code>コマンドの実行中に発生しうる一般的な問題とその対処法です。</p> <ul class="wp-block-list"> <li><p><strong>権限不足エラー</strong>:</p> <ul> <li><p><code>Error from server (Forbidden): pods "my-app-pod" is forbidden: User "..." cannot create ephemeralcontainers in the namespace "..."</code></p></li> <li><p><strong>原因</strong>: ユーザーまたはServiceAccountに<code>pods/ephemeralcontainers</code>リソースに対する<code>create</code>権限、または<code>pods</code>リソースに対する<code>patch</code>権限が不足しています。</p></li> <li><p><strong>対処</strong>: 必要なRBACロールとRoleBindingを定義し、ユーザーに付与してください。</p> <div class="codehilite"> <pre data-enlighter-language="generic">apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata: name: debug-pod-role namespace: default # 適切なnamespaceを指定 rules: - apiGroups: [""] resources: ["pods/ephemeralcontainers"] verbs: ["create"] - apiGroups: [""] resources: ["pods"] verbs: ["get", "patch"] --- apiVersion: rbac.authorization.k8s.io/v1 kind: RoleBinding metadata: name: debug-pod-rolebinding namespace: default # 適切なnamespaceを指定 subjects: - kind: User # またはServiceAccount, Group name: your-user # ユーザー名またはServiceAccount名 apiGroup: rbac.authorization.k8s.io roleRef: kind: Role name: debug-pod-role apiGroup: rbac.authorization.k8s.io </pre> </div></li> </ul></li> <li><p><strong>イメージプルエラー</strong>:</p> <ul> <li><p><code>Error response from daemon: pull access denied for busybox:stable, repository does not exist or may require 'docker login'</code></p></li> <li><p><strong>原因</strong>: 指定したデバッグ用イメージが存在しない、またはプライベートレジストリからプルするための認証情報が不足しています。</p></li> <li><p><strong>対処</strong>: 正しいイメージ名とタグを使用しているか確認してください。プライベートレジストリを利用する場合は、<code>ImagePullSecrets</code>を適切に設定するか、<code>kubectl debug</code>コマンドに<code>--image-pull-secrets</code>オプションを指定してください。</p></li> </ul></li> <li><p><strong>エフェメラルコンテナの起動失敗</strong>:</p> <ul> <li><p><code>error: EphemeralContainer not found</code> または <code>ephemeral container "debugger" is not running</code></p></li> <li><p><strong>原因</strong>: クラスターのKubernetesバージョンがv1.25未満であるか、<code>EphemeralContainers</code> feature gateが無効になっている可能性があります。</p></li> <li><p><strong>対処</strong>: Kubernetesクラスターのバージョンを確認し、v1.25以降にアップグレードを検討してください。また、<code>kube-apiserver</code>と<code>kubelet</code>の設定で<code>--feature-gates=EphemeralContainers=true</code>が有効になっていることを確認してください（通常はv1.25以降でデフォルト有効）。</p></li> </ul></li> <li><p><strong><code>--target</code>オプションの誤用</strong>:</p> <ul> <li><p><code>error: cannot specify --target for a pod that has no existing ephemeral containers</code></p></li> <li><p><strong>原因</strong>: <code>--target</code>オプションは、既存のアプリケーションコンテナの名前空間を共有する場合にのみ使用できます。エフェメラルコンテナがまだ追加されていないPodに対して、そのエフェメラルコンテナをターゲットにしようとすると発生します。</p></li> <li><p><strong>対処</strong>: <code>--target</code>は、エフェメラルコンテナを追加する際に、既存のアプリケーションコンテナ名（例: <code>my-app-container</code>）を指定するために使用します。すでにエフェメラルコンテナが存在する場合は、そのエフェメラルコンテナの名前を<code>--target</code>に指定します。</p></li> </ul></li> </ul> <h2 class="wp-block-heading">6. まとめ</h2> <p><code>kubectl debug</code>コマンドは、Kubernetes環境におけるPodレベルの診断を劇的に効率化する強力なツールです。Ephemeral Containers、Podコピーモード、新規Pod作成モードといった多様な機能を通じて、開発者やDevOpsエンジニアは、アプリケーションのサービス中断を最小限に抑えながら、問題の根本原因を迅速に特定できるようになります。</p> <p>特にEphemeral Containersは、Kubernetes v1.25でGA（General Availability）となり、より信頼性の高いデバッグ手段として確立されました[2]。本記事で紹介した実践的な使用例やsystemdとの連携、そしてセキュリティに関する注意点を踏まえることで、より安全かつ効果的なKubernetes Pod診断運用が実現できるでしょう。複雑な分散システムであるKubernetesにおいて、この<code>kubectl debug</code>コマンドは、日々の運用を支える不可欠なツールとなるはずです。</p> <h3 class="wp-block-heading">参考文献</h3> <p>[1] Kubernetes Documentation. “Debugging Running Pods.” (最終確認日: 2024年07月30日)<br/> URL: <a href="https://kubernetes.io/docs/tasks/debug/debug-running-pod/">https://kubernetes.io/docs/tasks/debug/debug-running-pod/</a></p> <p>[2] Kubernetes GitHub. “CHANGELOG-1.25.md.” Kubernetes v1.25 Release Notes. (公開日: 2022年08月23日)<br/> URL: <a href="https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG/CHANGELOG-1.25.md">https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG/CHANGELOG-1.25.md</a></p>

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

kubectl debug を活用したKubernetes Pod診断の深化

DevOpsエンジニアにとって、Kubernetes環境におけるアプリケーションの安定稼働は最優先事項です。しかし、予期せぬ問題が発生した際に、既存のPodの内部状態を詳細に把握し、迅速に診断を行うことは容易ではありません。kubectl debugコマンドは、このような課題を解決するための強力なツールとして、Kubernetes v1.25でEphemeral ContainersのGAとともにその有用性を確立しました[1, 2]。、kubectl debugコマンドの様々な機能を活用し、Kubernetes Podの診断を効率的かつ安全に行うための実践的なアプローチを解説します。エフェメラルコンテナやPodコピーモードの利用法から、権限管理、さらにはsystemdを用いた診断プロセスの自動化例までを網羅し、DevOpsエンジニアが直面するであろうシナリオに対応します。

1. 要件と前提

kubectl debugコマンドを効果的に利用するためには、以下の要件と前提が満たされている必要があります。

Kubernetesクラスター:
- Kubernetes v1.25以降のクラスターを推奨します。Ephemeral Containers機能が安定版として提供され、デフォルトで有効になっています。
- EphemeralContainers feature gateが有効である必要があります。
kubectlコマンドラインツール:
- クラスターのバージョンに対応するkubectlがクライアントマシンにインストールされていること。
適切なRBAC権限:
- kubectl debugを実行するユーザーまたはServiceAccountには、以下の権限が必要です。
  - pods/ephemeralcontainersリソースに対するcreate権限
  - podsリソースに対するpatch権限
  - podsリソースに対するget権限 (情報を取得するため)
デバッグ用イメージ:
- 診断に必要なツール（例: curl, ping, tcpdump, strace, jqなど）を含む軽量なコンテナイメージ（例: busybox, ubuntu, nixos/nixなど）を用意してください。

2. kubectl debug の実装

kubectl debugは、既存のPodに一時的なコンテナを追加したり、Podのコピーを作成したりすることで、Podの内部状態を検査する柔軟な方法を提供します。

2.1. kubectl debug の概要と利点

kubectl debugは、以下の3つの主要なモードで動作します。

エフェメラルコンテナの追加: 既存のPodに一時的なデバッグ用コンテナを追加します。このコンテナは、既存のPodと同じPID、ネットワーク、IPC名前空間を共有し、プロセス、ネットワーク、ファイルシステムなどの検査に最適です。アプリケーションコンテナを再起動することなく診断が可能です。
Podのコピーと変更: 既存のPodの定義をコピーし、その定義にデバッグ用の変更（例: コマンドの変更、イメージの変更）を加えて新しいPodを作成します。これにより、問題のPodの環境を再現しつつ、インタラクティブにデバッグできます。
新規Podの作成: 特定のイメージとコマンドを指定して新しいPodを作成し、ホストの名前空間にアクセスするなど、より高度なデバッグシナリオに対応します。

これらのモードにより、kubectl debugは以下のような利点をもたらします。

非侵襲的診断: アプリケーションコンテナのサービス中断を最小限に抑えながら診断できます。
環境再現性: 問題が発生している実際の環境に近い条件でデバッグを行えます。
柔軟性: さまざまなデバッグシナリオに対応するための複数のオプションを提供します。

2.2. デバッグフロー

kubectl debugコマンドを使用する際の一般的なデバッグフローは以下の通りです。

graph TD
    A["Pod診断開始"] --> B{"診断対象Podは実行中か？"};
    B -- Yes --> C{"インタラクティブなシェルが必要か？"};
    B -- No --> D{"設定を変更して起動したいか？"};

    C -- Yes --> E["エフェメラルコンテナを利用"];
    E --> F["kubectl debug -it  --image="];
    F --> G["Pod名前空間で診断"];

    C -- No --> H["コンテナ定義を変更して再起動"];
    H --> I["kubectl debug --copy-to=  --container= --command=[\"sh\""]];
    I --> J["新しいPodで診断"];

    D -- Yes --> K["設定を調整した新規Pod作成"];
    K --> L["kubectl debug --image= --target=/host -- "];
    L --> J;

    G --> M["診断終了"];
    J --> M;

2.3. エフェメラルコンテナの利用

最も一般的な利用ケースは、既存のPodにエフェメラルコンテナを追加してインタラクティブなシェルセッションを開始することです。

2.3.1. 基本的な使用法

#!/bin/bash

set -euo pipefail

# Pod名とデバッグ対象コンテナ名を指定

POD_NAME="my-app-pod"
TARGET_CONTAINER="my-app-container"
DEBUG_IMAGE="busybox:stable" # 診断ツールを含む軽量イメージ

echo "--- 既存のPod ${POD_NAME} にエフェメラルコンテナを追加 ---"

# ephemeral-containersはkubectl logsでは表示されないため、kubectl describeで確認

kubectl describe pod "${POD_NAME}" | grep "Ephemeral Containers" || true

# エフェメラルコンテナを追加し、インタラクティブシェルを起動


# --targetオプションで、エフェメラルコンテナが既存のアプリケーションコンテナと同じ名前空間を共有するよう指定


# --imageオプションで、デバッグ用イメージを指定

kubectl debug -it "${POD_NAME}" --image="${DEBUG_IMAGE}" --target="${TARGET_CONTAINER}" -- /bin/sh

echo "--- エフェメラルコンテナセッション終了 ---"

上記コマンドを実行すると、my-app-pod内のmy-app-containerと同じ名前空間でbusyboxイメージをベースとしたシェルが起動します。このシェルから、対象アプリケーションのファイルシステム、ネットワーク、プロセスリストなどを検査できます。

2.3.2. 権限分離とroot権限の扱いに関する注意点

エフェメラルコンテナは、本質的に既存のPodのコンテキスト内で実行されるため、そのコンテナに割り当てられたSecurityContextやNamespace設定を継承します。診断の際にroot権限が必要な場合、--security-context='{"runAsUser": 0}'などのオプションで明示的にrootユーザーとして実行することも可能ですが、これには以下の注意が必要です。

セキュリティリスク: root権限で実行されるデバッグコンテナは、Pod内の他のプロセスや、ホストの特定のファイルシステム（hostPathマウントされている場合）に意図しない変更を加える可能性があります。最小限の権限（Principle of Least Privilege）を遵守し、必要な場合にのみroot権限を使用してください。
イメージの選択: rootとして実行する場合でも、デバッグイメージは信頼できるソースから取得し、必要なツールのみを含む軽量なものを選定してください。
ログと監査: 診断プロセスと実行されたコマンドは、可能であればログとして記録し、監査できるようにすることが重要です。

2.4. Podのコピーモードの利用

特定のコンテナの設定（コマンド、環境変数など）を変更してデバッグしたいが、元のPodに影響を与えたくない場合に、Podのコピーモードが役立ちます。

#!/bin/bash

set -euo pipefail

POD_NAME="my-app-pod"
NEW_POD_NAME="${POD_NAME}-debug-$(date +%s)"
TARGET_CONTAINER="my-app-container"
DEBUG_IMAGE="ubuntu:latest" # より多くのツールが含まれるイメージ
TMP_DIR=$(mktemp -d)

# cleanup function

trap 'rm -rf "${TMP_DIR}"' EXIT

echo "--- Pod ${POD_NAME} を ${NEW_POD_NAME} としてコピーし、デバッグ ---"

# 元のPodのYAMLを一時ファイルに保存

kubectl get pod "${POD_NAME}" -o yaml > "${TMP_DIR}/original-pod.yaml"

# --copy-toオプションでPodをコピーし、デバッグ用の変更を加える


# --set-container-image: 特定のコンテナのイメージを変更


# --container: 変更対象のコンテナを指定


# --command: コンテナの起動コマンドを上書き

kubectl debug "${POD_NAME}" \
  --copy-to="${NEW_POD_NAME}" \
  --set-container-image="${TARGET_CONTAINER}=${DEBUG_IMAGE}" \
  --container="${TARGET_CONTAINER}" \
  --command -- /bin/bash

# 新しいPodが起動し、インタラクティブシェルが提供される

echo "--- デバッグ用Pod ${NEW_POD_NAME} のセッション終了 ---"

echo "--- デバッグ用Pod ${NEW_POD_NAME} を削除 ---"
kubectl delete pod "${NEW_POD_NAME}"

このモードは、commandやargsを変更してPodの起動動作をテストしたい場合や、別のバージョンのイメージでテストしたい場合に特に有効です。

2.5. 新規Podの作成モード

より低レベルなデバッグや、ホストOSレベルでの診断が必要な場合、kubectl debug node/<node-name>形式で、特定のノード上で新しいPodをデバッグモードで起動できます。

#!/bin/bash

set -euo pipefail

NODE_NAME="node01" # 診断対象のノード名
DEBUG_IMAGE="ubuntu:latest"

echo "--- ノード ${NODE_NAME} 上でデバッグ用Podを起動 ---"

# 特定のノードにデバッグPodをスケジュールし、ホストのファイルシステムをマウント


# --target=/hostオプションで、ホストの名前空間へのアクセスを容易にする

kubectl debug node/"${NODE_NAME}" -it --image="${DEBUG_IMAGE}" --target=/host

echo "--- ノードレベルデバッグセッション終了 ---"

このモードでは、ホストのファイルシステムが/hostにマウントされるため、chroot /hostを実行することで、ホストOSのコンテキストに切り替えて診断を行うことができます。これにより、kubeletの問題やCNIプラグインの問題など、より深いレベルの問題を調査することが可能になります。ただし、この操作は非常に強力であり、セキュリティリスクが伴うため、十分な理解と注意が必要です。

3. 検証

kubectl debugコマンドによってデバッグ用コンテナやPodが正しく起動し、期待通りに機能しているかを確認することは重要です。

#!/bin/bash

set -euo pipefail

POD_NAME="my-app-pod" # 診断対象のPod名

echo "--- デバッグ対象Podの状態確認 ---"
kubectl get pod "${POD_NAME}"

# エフェメラルコンテナが追加されたことを確認


# ephemeral-containersはkubectl getには表示されないため、describeを使用

echo "--- エフェメラルコンテナの存在確認 (kubectl describe) ---"
kubectl describe pod "${POD_NAME}" | grep "Ephemeral Containers" || echo "No ephemeral containers found yet."

# 例: エフェメラルコンテナからネットワーク疎通を確認


# まずエフェメラルコンテナが起動している状態で、別途ターミナルから以下を実行


# kubectl debug -it "${POD_NAME}" --image=busybox --target=my-app-container -- ping google.com -c 3

echo "--- デバッグ用Podのログ確認 (必要に応じて) ---"

# もしコピーモードで新しいPodを作成した場合、そのログを確認


# kubectl logs my-app-pod-debug-1234567890

echo "--- 検証完了 ---"

4. 運用

kubectl debugはアドホックな診断に強力ですが、特定のシナリオでは自動化された運用の一部として組み込むことも考えられます。ここでは、systemdのUnitとTimerを用いて、定期的にKubernetes APIから情報を取得し、その結果をログに出力する例を示します。これにより、特定の状態変化や異常を監視しやすくなります。

4.1. systemd unit/timer を用いた定期診断/ログ収集

Kubernetes APIサーバーから特定の情報を定期的に取得し、ログとして保存するsystemdの例です。ここでは、すべてのPodのリストとステータスをjqで整形して取得します。

4.1.1. Kubernetes APIへのアクセス例（curlとjq）

kubectlが利用可能な環境（例: kube-schedulerやkube-controller-managerが動作するコントロールプレーンノード）で直接APIサーバーにcurlでアクセスする例です。サービスアカウントのトークンを利用して認証を行います。

#!/bin/bash

set -euo pipefail

# Kubernetes APIサーバーのアドレスとポート

KUBERNETES_SERVICE_HOST=${KUBERNETES_SERVICE_HOST:-kubernetes.default.svc}
KUBERNETES_SERVICE_PORT=${KUBERNETES_SERVICE_PORT:-443}
API_SERVER="https://${KUBERNETES_SERVICE_HOST}:${KUBERNETES_SERVICE_PORT}"

# サービスアカウントのトークンとCA証明書のパス (Pod内で実行されることを想定)


# 環境変数として注入されるか、特定のパスにマウントされる

SERVICEACCOUNT_TOKEN_PATH="/var/run/secrets/kubernetes.io/serviceaccount/token"
SERVICEACCOUNT_CA_PATH="/var/run/secrets/kubernetes.io/serviceaccount/ca.crt"

# jqがインストールされていることを前提

if ! command -v jq &> /dev/null; then
    echo "Error: jq is not installed. Please install jq to parse JSON output."
    exit 1
fi

echo "--- $(date '+%Y-%m-%d %H:%M:%S %Z') - Kubernetes Pods Status ---"

# APIサーバーからPod情報を取得


# TLS検証にはCA証明書を使用


# -k / --insecure は非推奨。適切なCA証明書を使うべき。


# --retry-connrefused で接続拒否時のリトライ


# --retry <num> でHTTPレベルのリトライ


# --retry-delay <seconds> でリトライ間隔 (指数バックオフは別途ロジックが必要)

curl_command=(
  curl
  --silent
  --show-error
  --cacert "${SERVICEACCOUNT_CA_PATH}"
  --header "Authorization: Bearer $(cat "${SERVICEACCOUNT_TOKEN_PATH}")"
  --max-time 10
  --retry 3
  --retry-delay 2 # seconds
  --retry-max-time 30 # seconds
  "${API_SERVER}/api/v1/pods"
)

if ! "${curl_command[@]}" | jq -r '
  .items[] | {
    name: .metadata.name,
    namespace: .metadata.namespace,
    nodeName: .spec.nodeName,
    phase: .status.phase,
    containerStatuses: [
      (.status.containerStatuses // [])[] | {
        name: .name,
        ready: .ready,
        restartCount: .restartCount,
        state: (.state | to_entries | .[] | .key + ": " + (.value | keys | join(", ")) )
      }
    ]
  }'
then
  echo "Error: Failed to retrieve or parse Pod information from Kubernetes API." >&2
  exit 1
fi

echo "--- API情報取得完了 ---"

4.1.2. systemd Unitファイル (k8s-pod-monitor.service)

[Unit]
Description=Kubernetes Pod Status Monitor Service
After=network-online.target

[Service]
Type=oneshot
ExecStart=/usr/local/bin/k8s-pod-monitor.sh # 上記シェルスクリプトのパス
User=nobody # 最小限の権限で実行 (APIアクセスはトークンに依存)
Group=nogroup
StandardOutput=journal
StandardError=journal

# 環境変数 KUBERNETES_SERVICE_HOST, KUBERNETES_SERVICE_PORT は


# systemdが動作する環境（例: コントロールプレーンノード）に応じて設定するか、


# スクリプト内でServiceAccountトークンとCA証明書パスを適切に扱う


# 例えば、systemdでなくPodとして実行し、ServiceAccountをマウントする方が典型的


# この例は、systemdがAPIサーバーに直接アクセスできるケースを想定


# (ex: コントロールプレーンノードでkubeconfigが利用可能、またはSAトークンを適切に用意)

4.1.3. systemd Timerファイル (k8s-pod-monitor.timer)

[Unit]
Description=Run Kubernetes Pod Status Monitor every 5 minutes

[Timer]
OnBootSec=1min
OnUnitActiveSec=5min # 5分ごとに実行
Unit=k8s-pod-monitor.service # 実行するサービスユニット

[Install]
WantedBy=timers.target

4.1.4. systemdの起動とログ確認

上記のシェルスクリプトを/usr/local/bin/k8s-pod-monitor.shとして保存し、実行権限を付与する (chmod +x)。
.serviceファイルと.timerファイルを/etc/systemd/system/ディレクトリに保存する。
systemctl daemon-reloadでsystemdの設定をリロードする。
systemctl enable k8s-pod-monitor.timerでタイマーを有効化する。
systemctl start k8s-pod-monitor.timerでタイマーを開始する。
journalctl -u k8s-pod-monitor.serviceで実行ログを確認する。

4.2. セキュリティプラクティス

最小特権の原則: kubectl debugを使用するユーザーやサービスアカウントには、必要な最小限のRBAC権限のみを付与してください。
信頼できるイメージ: デバッグ用イメージは、既知の脆弱性がない、信頼できるソースから取得したものを使用してください。
使用後のクリーンアップ: 特にPodコピーモードや新規Pod作成モードで作成したデバッグ用Podは、診断が完了したら速やかに削除してください。
監査とロギング: kubectl debugの実行は監査ログに記録され、セキュリティインシデント発生時の追跡を可能にしてください。

5. トラブルシューティング

kubectl debugコマンドの実行中に発生しうる一般的な問題とその対処法です。

権限不足エラー:

Error from server (Forbidden): pods "my-app-pod" is forbidden: User "..." cannot create ephemeralcontainers in the namespace "..."
原因: ユーザーまたはServiceAccountにpods/ephemeralcontainersリソースに対するcreate権限、またはpodsリソースに対するpatch権限が不足しています。

対処: 必要なRBACロールとRoleBindingを定義し、ユーザーに付与してください。

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: debug-pod-role
  namespace: default # 適切なnamespaceを指定
rules:

- apiGroups: [""]
  resources: ["pods/ephemeralcontainers"]
  verbs: ["create"]

- apiGroups: [""]
  resources: ["pods"]
  verbs: ["get", "patch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: debug-pod-rolebinding
  namespace: default # 適切なnamespaceを指定
subjects:

- kind: User # またはServiceAccount, Group
  name: your-user # ユーザー名またはServiceAccount名
  apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: Role
  name: debug-pod-role
  apiGroup: rbac.authorization.k8s.io

イメージプルエラー:
- Error response from daemon: pull access denied for busybox:stable, repository does not exist or may require 'docker login'
- 原因: 指定したデバッグ用イメージが存在しない、またはプライベートレジストリからプルするための認証情報が不足しています。
- 対処: 正しいイメージ名とタグを使用しているか確認してください。プライベートレジストリを利用する場合は、ImagePullSecretsを適切に設定するか、kubectl debugコマンドに--image-pull-secretsオプションを指定してください。
エフェメラルコンテナの起動失敗:
- error: EphemeralContainer not found または ephemeral container "debugger" is not running
- 原因: クラスターのKubernetesバージョンがv1.25未満であるか、EphemeralContainers feature gateが無効になっている可能性があります。
- 対処: Kubernetesクラスターのバージョンを確認し、v1.25以降にアップグレードを検討してください。また、kube-apiserverとkubeletの設定で--feature-gates=EphemeralContainers=trueが有効になっていることを確認してください（通常はv1.25以降でデフォルト有効）。
--targetオプションの誤用:
- error: cannot specify --target for a pod that has no existing ephemeral containers
- 原因: --targetオプションは、既存のアプリケーションコンテナの名前空間を共有する場合にのみ使用できます。エフェメラルコンテナがまだ追加されていないPodに対して、そのエフェメラルコンテナをターゲットにしようとすると発生します。
- 対処: --targetは、エフェメラルコンテナを追加する際に、既存のアプリケーションコンテナ名（例: my-app-container）を指定するために使用します。すでにエフェメラルコンテナが存在する場合は、そのエフェメラルコンテナの名前を--targetに指定します。

6. まとめ

kubectl debugコマンドは、Kubernetes環境におけるPodレベルの診断を劇的に効率化する強力なツールです。Ephemeral Containers、Podコピーモード、新規Pod作成モードといった多様な機能を通じて、開発者やDevOpsエンジニアは、アプリケーションのサービス中断を最小限に抑えながら、問題の根本原因を迅速に特定できるようになります。

特にEphemeral Containersは、Kubernetes v1.25でGA（General Availability）となり、より信頼性の高いデバッグ手段として確立されました[2]。本記事で紹介した実践的な使用例やsystemdとの連携、そしてセキュリティに関する注意点を踏まえることで、より安全かつ効果的なKubernetes Pod診断運用が実現できるでしょう。複雑な分散システムであるKubernetesにおいて、このkubectl debugコマンドは、日々の運用を支える不可欠なツールとなるはずです。

参考文献

[1] Kubernetes Documentation. “Debugging Running Pods.” (最終確認日: 2024年07月30日)
URL: https://kubernetes.io/docs/tasks/debug/debug-running-pod/

[2] Kubernetes GitHub. “CHANGELOG-1.25.md.” Kubernetes v1.25 Release Notes. (公開日: 2022年08月23日)
URL: https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG/CHANGELOG-1.25.md

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。

kubectl debug を活用したKubernetes Pod診断の深化

kubectl debug を活用したKubernetes Pod診断の深化

1. 要件と前提

2. kubectl debug の実装

2.1. kubectl debug の概要と利点

2.2. デバッグフロー

2.3. エフェメラルコンテナの利用

2.3.1. 基本的な使用法

2.3.2. 権限分離とroot権限の扱いに関する注意点

2.4. Podのコピーモードの利用

2.5. 新規Podの作成モード

3. 検証

4. 運用

4.1. systemd unit/timer を用いた定期診断/ログ収集

4.1.1. Kubernetes APIへのアクセス例（curlとjq）

4.1.2. systemd Unitファイル (k8s-pod-monitor.service)

4.1.3. systemd Timerファイル (k8s-pod-monitor.timer)

4.1.4. systemdの起動とログ確認

4.2. セキュリティプラクティス

5. トラブルシューティング

6. まとめ

参考文献

いいね:

コメント

kubectl debug を活用したKubernetes Pod診断の深化

1. 要件と前提

2. kubectl debug の実装

2.1. kubectl debug の概要と利点

2.2. デバッグフロー

2.3. エフェメラルコンテナの利用

2.3.1. 基本的な使用法

2.3.2. 権限分離とroot権限の扱いに関する注意点

2.4. Podのコピーモードの利用

2.5. 新規Podの作成モード

3. 検証

4. 運用

4.1. systemd unit/timer を用いた定期診断/ログ収集

4.1.1. Kubernetes APIへのアクセス例（curlとjq）

4.1.2. systemd Unitファイル (k8s-pod-monitor.service)

4.1.3. systemd Timerファイル (k8s-pod-monitor.timer)

4.1.4. systemdの起動とログ確認

4.2. セキュリティプラクティス

5. トラブルシューティング

6. まとめ

参考文献

共有:

いいね:

コメント