<p> 本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">systemd-analyze blameによるLinux起動時間分析と最適化</h1> <p>Linuxシステムの起動時間は、DevOpsの文脈で重要な最適化指標の一つです。特に、仮想マシンやコンテナが頻繁に起動・停止される環境では、起動時間の短縮がリソース効率とアプリケーションの可用性向上に直結します。本記事では、<code>systemd-analyze blame</code>コマンドを中心に、Linuxの起動プロセスを分析し、最適化するための具体的な手法、Bashスクリプトによる自動化、<code>systemd</code>ユニット/タイマーの活用、そして外部システム連携についてDevOpsエンジニアの視点から解説します。</p> <h2 class="wp-block-heading">要件と前提</h2> <p>本記事で解説する内容を実践するには、以下の要件と前提があります。</p> <ul class="wp-block-list"> <li><p><strong>Linuxディストリビューション</strong>: <code>systemd</code>をinitシステムとして採用しているLinux（例: Ubuntu, CentOS, RHEL, Debianなど）。</p></li> <li><p><strong>シェル環境</strong>: Bashシェルが利用可能であること。</p></li> <li><p><strong>権限</strong>: <code>systemd-analyze</code>コマンドの実行、<code>systemd</code>ユニットファイルの配置、<code>systemctl</code>コマンドの実行には<code>root</code>権限、または<code>sudo</code>による適切な権限昇格が必要です。権限分離の原則に基づき、サービスごとの最小権限付与を推奨します。</p></li> <li><p><strong>ツール</strong>: <code>curl</code>, <code>jq</code>コマンドがインストールされていること。</p></li> </ul> <h2 class="wp-block-heading">実装</h2> <h3 class="wp-block-heading">1. <code>systemd-analyze blame</code>による起動時間分析</h3> <p><code>systemd-analyze blame</code>は、各<code>systemd</code>ユニットが起動に要した時間を長い順に表示し、起動プロセスのボトルネックを特定するのに役立ちます。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail # 一時ディレクトリの作成とクリーンアップ TMP_DIR=$(mktemp -d) trap 'rm -rf "$TMP_DIR"' EXIT echo "--- systemd-analyze blame (TOP 10) ---" # systemd-analyze blame の出力を整形して表示 systemd-analyze blame | head -n 10 echo "" echo "--- systemd-analyze critical-chain ---" # クリティカルチェーンの分析（最も遅いユニットへの依存関係） systemd-analyze critical-chain echo "" # 結果をファイルに保存する例 (権限注意) # sudo systemd-analyze blame > "${TMP_DIR}/boot_blame_$(date +%Y%m%d%H%M%S).txt" # echo "詳細な分析結果は ${TMP_DIR}/boot_blame_*.txt に保存されました。" echo "分析に関する注意点:" echo "1. 結果は各ユニットの『アクティブな時間』であり、並列処理されている時間は含まれない場合があります。" echo "2. 特定のユニットが遅い場合、そのユニットの依存関係も確認する必要があります (critical-chain)。" </pre> </div> <p>上記のスクリプトを実行すると、システム起動時に時間を要している上位のサービスや、起動のボトルネックとなっているクリティカルチェーンが視覚的にわかります。</p> <h3 class="wp-block-heading">2. <code>systemd</code>ユニットの最適化</h3> <p>ボトルネックが特定されたら、対象の<code>systemd</code>ユニットファイルを最適化します。ここでは、カスタムサービスを例に最適化のポイントを示します。</p> <p><strong>例: カスタムサービス <code>my-optimizer.service</code> の作成と最適化</strong></p> <div class="codehilite"> <pre data-enlighter-language="generic"># /etc/systemd/system/my-optimizer.service [Unit] Description=My Custom Boot Optimizer Service Documentation=https://example.com/my-optimizer-docs After=network.target # ネットワークが利用可能になった後に起動 Wants=network-online.target # ネットワークがオンラインになるのを待機 [Service] Type=oneshot # 処理が完了したら終了するタイプ RemainAfterExit=yes # 終了後もアクティブ状態を維持 (オプション) ExecStartPre=/usr/bin/bash -c 'echo "Starting my-optimizer at $(date +%Y-%m-%dT%H:%M:%S%z JST)" >> /var/log/my-optimizer.log' ExecStart=/usr/local/bin/my-optimizer-script.sh ExecStop=/usr/bin/bash -c 'echo "Stopping my-optimizer at $(date +%Y-%m-%dT%H:%M:%S%z JST)" >> /var/log/my-optimizer.log' # User=myuser # サービス実行ユーザーを指定し、root権限を避ける # Group=mygroup # サービス実行グループを指定 TimeoutStartSec=120s # 起動タイムアウトを120秒に設定 Restart=on-failure # 失敗時に再起動を試みる [Install] WantedBy=multi-user.target # 通常のマルチユーザー起動時に起動 </pre> </div> <ul class="wp-block-list"> <li><p><code>After</code>, <code>Wants</code>: 依存関係を適切に設定することで、不必要な待機時間を削減できます。<code>network.target</code>はネットワークインターフェースが設定された後、<code>network-online.target</code>はネットワーク接続が確立された後に起動します。</p></li> <li><p><code>Type=oneshot</code>: 短時間のスクリプト実行に適しています。</p></li> <li><p><code>User</code>, <code>Group</code>: <code>root</code>権限を必要としない処理は、専用の非特権ユーザーで実行し、セキュリティリスクを低減します。</p></li> <li><p><code>ExecStartPre</code>, <code>ExecStop</code>: 起動前後のフック処理を記述できます。</p></li> <li><p><code>TimeoutStartSec</code>: 起動がハングアップした場合のタイムアウトを設定します。</p></li> <li><p><code>WantedBy</code>: <code>multi-user.target</code>は、システムが通常運用可能な状態になったことを意味します。</p></li> </ul> <h3 class="wp-block-heading">3. <code>systemd timer</code>による遅延起動</h3> <p>起動時に必ずしも必要ないサービスは、<code>systemd timer</code>を用いて遅延起動させることで、初期起動時間を短縮できます。</p> <p><strong>例: <code>my-optimizer.timer</code> で1分後に <code>my-optimizer.service</code> を起動</strong></p> <div class="codehilite"> <pre data-enlighter-language="generic"># /etc/systemd/system/my-optimizer.timer [Unit] Description=Run my custom optimizer 1 minute after boot # 関連サービスとのAfter設定は不要（タイマーがサービスを起動するため） [Timer] OnBootSec=1min # システム起動から1分後に実行 # OnUnitActiveSec=1min # サービスが前回実行されてから1分後に実行 (繰り返し実行の場合) Unit=my-optimizer.service # このタイマーで起動するサービスユニット [Install] WantedBy=timers.target # タイマーとして有効化 </pre> </div> <p>タイマーとサービスを有効化・起動します。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail echo "--- systemdユニットとタイマーの有効化・開始 ---" # サービスとタイマーファイルをリロード sudo systemctl daemon-reload echo "systemdデーモンをリロードしました。" # サービスの有効化（自動起動設定） sudo systemctl enable my-optimizer.service echo "my-optimizer.service を有効化しました。" # タイマーの有効化（自動起動設定） sudo systemctl enable my-optimizer.timer echo "my-optimizer.timer を有効化しました。" # タイマーの開始（次回の条件で起動） sudo systemctl start my-optimizer.timer echo "my-optimizer.timer を開始しました。" echo "" echo "--- 状態確認 ---" sudo systemctl list-timers my-optimizer.timer sudo systemctl status my-optimizer.service my-optimizer.timer </pre> </div> <h3 class="wp-block-heading">4. 外部システム連携（<code>curl</code>と<code>jq</code>の利用）</h3> <p>起動時間分析の結果や最適化のステータスを、監視システムやCI/CDパイプラインに通知するスクリプト例です。<code>curl</code>で安全な通信と再試行を、<code>jq</code>でJSON処理を行います。</p> <div class="codehilite"> <pre data-enlighter-language="generic">#!/bin/bash set -euo pipefail # 一時ディレクトリの作成とクリーンアップ TMP_DIR=$(mktemp -d) trap 'rm -rf "$TMP_DIR"' EXIT # APIエンドポイントと認証トークン（例） API_ENDPOINT="https://api.example.com/boot-metrics" API_TOKEN="YOUR_API_TOKEN" # 環境変数や秘密管理ツールからの取得を推奨 # 安全なcurl実行関数 # TLSv1.2、リトライ、バックオフ、エラー表示、HTTPヘッダ取得 curl_safe() { local url="$1" local data="$2" local headers_file="${TMP_DIR}/curl_headers_$(date +%s%N).txt" echo "Sending data to: $url" echo "Payload: $data" # curlの実行 # -sS: silent and show errors # --fail: Fail silently (no output at all) on server errors # --show-error: Show error message even if -s is used # --tlsv1.2: Force TLSv1.2 (or later if available/needed) # --retry: Retry count # --retry-delay: Delay between retries in seconds # --retry-connrefused: Retry on connection refused # --retry-max-time: Max time for retries # -D: Dump headers to file local response_body response_body=$(curl -sS --fail --show-error \ --tlsv1.2 \ --retry 5 --retry-delay 5 --retry-connrefused --retry-max-time 60 \ -X POST \ -H "Content-Type: application/json" \ -H "Authorization: Bearer ${API_TOKEN}" \ -d "$data" "$url" \ -D "$headers_file" # ヘッダーを一時ファイルに書き出す ) local curl_exit_code=$? if [ ${curl_exit_code} -ne 0 ]; then echo "Error: curl command failed with exit code ${curl_exit_code}" >&2 echo "Headers: $(cat "$headers_file")" >&2 return 1 fi echo "API Response: $response_body" # jqでJSONレスポンスを処理 local status=$(echo "$response_body" | jq -r '.status') local message=$(echo "$response_body" | jq -r '.message') if [ "$status" == "success" ]; then echo "API連携成功: $message" return 0 else echo "API連携失敗: $message (Status: $status)" >&2 return 1 fi } # 起動時間情報の取得 (systemd-analyze blame の結果から最も遅いユニットを取得) # root権限が必要なため、sudoを使用 BOOT_TIME_INFO=$(sudo systemd-analyze blame | head -n 1 | awk '{print $1" "$2}') BOOT_TIME_SEC=$(echo "$BOOT_TIME_INFO" | awk '{print $1}' | sed 's/s//') # 秒部分を抽出 if [[ -z "$BOOT_TIME_SEC" ]]; then echo "エラー: 起動時間情報を取得できませんでした。" >&2 exit 1 fi # 外部APIに送信するJSONデータを作成 JSON_PAYLOAD=$(jq -n \ --arg hostname "$(hostname)" \ --arg timestamp "$(date -u +"%Y-%m-%dT%H:%M:%SZ")" \ --arg boot_time "$BOOT_TIME_SEC" \ --arg top_unit "$(echo "$BOOT_TIME_INFO" | awk '{print $2}')" \ '{ "hostname": $hostname, "timestamp": $timestamp, "boot_time_seconds": ($boot_time | tonumber), "top_blame_unit": $top_unit }') # API連携の実行 if curl_safe "$API_ENDPOINT" "$JSON_PAYLOAD"; then echo "起動時間メトリクスの送信が完了しました。" else echo "起動時間メトリクスの送信に失敗しました。" >&2 exit 1 fi </pre> </div> <p>このスクリプトは、<code>systemd-analyze blame</code>で取得した起動時間と最も遅いユニットの情報をJSON形式で整形し、<code>curl</code>を使って外部APIに安全に送信します。<code>jq</code>はJSONデータの生成と解析に用いられています。</p> <h3 class="wp-block-heading">フローチャート：起動時間分析と最適化のプロセス</h3> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["システム起動"] --> B{"systemd-analyze blame 実行"}; B --> C{"起動時間分析結果の取得"}; C --> D{"高負荷ユニットの特定"}; D --> E{"ユニット依存関係の確認"}; E --> F{"ユニット設定の最適化"}; F --> G{"systemd timerによる遅延起動"}; G --> H{"テストと再評価"}; H --> I{"起動時間改善"}; E --|詳細ログ確認| J["journalctl -u"]; D --|詳細ログ確認| J; H --|API連携で結果通知| K["外部監視/CI/CDシステム"]; </pre></div> <ul class="wp-block-list"> <li><p><strong>ノード</strong>: <code>A[システム起動]</code>, <code>B{systemd-analyze blame 実行}</code>, <code>C{起動時間分析結果の取得}</code>, <code>D{高負荷ユニットの特定}</code>, <code>E{ユニット依存関係の確認}</code>, <code>F{ユニット設定の最適化}</code>, <code>G{systemd timerによる遅延起動}</code>, <code>H{テストと再評価}</code>, <code>I{起動時間改善}</code>, <code>J[journalctl -u]</code>, <code>K[外部監視/CI/CDシステム]</code></p></li> <li><p><strong>エッジ</strong>: <code>A --> B</code>, <code>B --> C</code>, <code>C --> D</code>, <code>D --> E</code>, <code>E --> F</code>, <code>F --> G</code>, <code>G --> H</code>, <code>H --> I</code>, <code>E --|詳細ログ確認| J</code>, <code>D --|詳細ログ確認| J</code>, <code>H --|API連携で結果通知| K</code></p></li> </ul> <h2 class="wp-block-heading">検証</h2> <p>最適化後には、必ず以下の項目を検証します。</p> <ol class="wp-block-list"> <li><p><strong>起動時間の再測定</strong>: <code>systemd-analyze blame</code>を再度実行し、改善が見られるか比較します。</p></li> <li><p><strong>サービス動作確認</strong>: 変更したサービスが意図通りに起動し、機能しているか確認します。</p> <ul> <li><p><code>sudo systemctl status my-optimizer.service</code></p></li> <li><p><code>journalctl -u my-optimizer.service</code></p></li> </ul></li> <li><p><strong>タイマー動作確認</strong>: タイマー設定が正しく、指定した遅延時間後にサービスが起動しているか確認します。</p> <ul> <li><p><code>sudo systemctl list-timers my-optimizer.timer</code></p></li> <li><p><code>journalctl -u my-optimizer.timer</code></p></li> </ul></li> <li><p><strong>外部連携確認</strong>: 外部システムにメトリクスが正しく送信されているか確認します。</p></li> </ol> <h2 class="wp-block-heading">運用</h2> <p>起動時間分析と最適化は一度で終わりではなく、継続的なプロセスです。</p> <ul class="wp-block-list"> <li><p><strong>定期的な監視</strong>: CI/CDパイプラインに起動時間分析を組み込み、定期的に<code>systemd-analyze blame</code>を実行して異常がないか監視します。</p></li> <li><p><strong>バージョン管理</strong>: <code>systemd</code>ユニットファイルやスクリプトはGitなどのバージョン管理システムで管理し、変更履歴を追えるようにします。</p></li> <li><p><strong>権限管理</strong>: <code>root</code>権限を必要とする操作は最小限に留め、可能であれば特定のサービスアカウントに権限を委譲します。</p></li> <li><p><strong>ドキュメント</strong>: 変更内容や最適化の決定理由をドキュメント化し、チーム内で共有します。</p></li> </ul> <h2 class="wp-block-heading">トラブルシュート</h2> <p>問題が発生した場合の一般的なトラブルシュート方法です。</p> <ul class="wp-block-list"> <li><p><strong>サービスが起動しない</strong>:</p> <ul> <li><p><code>journalctl -xeu <unit_name></code>: 詳細なエラーログを確認します。</p></li> <li><p><code>sudo systemctl status <unit_name></code>: サービスの状態と直近のログを確認します。</p></li> <li><p><code>sudo systemctl daemon-reload</code>: ユニットファイルを変更した場合は、<code>systemd</code>デーモンの設定をリロードしたか確認します。</p></li> </ul></li> <li><p><strong><code>systemd-analyze blame</code>の結果が改善しない</strong>:</p> <ul> <li><p>依存関係が複雑な場合、<code>systemd-analyze critical-chain</code>でボトルネックの真の原因を探ります。</p></li> <li><p>ユニットファイルの設定ミス（例: <code>After=</code>の誤設定）を確認します。</p></li> </ul></li> <li><p><strong>権限エラー</strong>:</p> <ul> <li><code>User=</code>, <code>Group=</code>設定が正しいか、サービスがアクセスするファイルやディレクトリのパーミッションを確認します。</li> </ul></li> </ul> <h2 class="wp-block-heading">まとめ</h2> <p><code>systemd-analyze blame</code>は、Linuxシステムの起動時間を分析し、最適化するための強力なツールです。本記事で解説したように、<code>systemd</code>ユニットやタイマーを適切に設定し、Bashスクリプトと<code>curl</code>/<code>jq</code>を活用することで、起動プロセスのボトルネックを特定し、効率的に改善することができます。これらの最適化は、システム全体のパフォーマンス向上、リソース効率化、そしてアプリケーションの迅速なデプロイと回復に貢献します。</p> <p>継続的な分析と改善サイクルを確立し、DevOpsの実践としてシステムの最適化に取り組むことが重要です。</p>

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

systemd-analyze blameによるLinux起動時間分析と最適化

Linuxシステムの起動時間は、DevOpsの文脈で重要な最適化指標の一つです。特に、仮想マシンやコンテナが頻繁に起動・停止される環境では、起動時間の短縮がリソース効率とアプリケーションの可用性向上に直結します。本記事では、systemd-analyze blameコマンドを中心に、Linuxの起動プロセスを分析し、最適化するための具体的な手法、Bashスクリプトによる自動化、systemdユニット/タイマーの活用、そして外部システム連携についてDevOpsエンジニアの視点から解説します。

要件と前提
実装
検証
運用
トラブルシュート
まとめ
1. 共有:
2. いいね:

要件と前提

本記事で解説する内容を実践するには、以下の要件と前提があります。

Linuxディストリビューション: systemdをinitシステムとして採用しているLinux（例: Ubuntu, CentOS, RHEL, Debianなど）。
シェル環境: Bashシェルが利用可能であること。
権限: systemd-analyzeコマンドの実行、systemdユニットファイルの配置、systemctlコマンドの実行にはroot権限、またはsudoによる適切な権限昇格が必要です。権限分離の原則に基づき、サービスごとの最小権限付与を推奨します。
ツール: curl, jqコマンドがインストールされていること。

実装

1. systemd-analyze blameによる起動時間分析

systemd-analyze blameは、各systemdユニットが起動に要した時間を長い順に表示し、起動プロセスのボトルネックを特定するのに役立ちます。

#!/bin/bash

set -euo pipefail

# 一時ディレクトリの作成とクリーンアップ

TMP_DIR=$(mktemp -d)
trap 'rm -rf "$TMP_DIR"' EXIT

echo "--- systemd-analyze blame (TOP 10) ---"

# systemd-analyze blame の出力を整形して表示

systemd-analyze blame | head -n 10
echo ""

echo "--- systemd-analyze critical-chain ---"

# クリティカルチェーンの分析（最も遅いユニットへの依存関係）

systemd-analyze critical-chain
echo ""

# 結果をファイルに保存する例 (権限注意)


# sudo systemd-analyze blame > "${TMP_DIR}/boot_blame_$(date +%Y%m%d%H%M%S).txt"


# echo "詳細な分析結果は ${TMP_DIR}/boot_blame_*.txt に保存されました。"

echo "分析に関する注意点:"
echo "1. 結果は各ユニットの『アクティブな時間』であり、並列処理されている時間は含まれない場合があります。"
echo "2. 特定のユニットが遅い場合、そのユニットの依存関係も確認する必要があります (critical-chain)。"

上記のスクリプトを実行すると、システム起動時に時間を要している上位のサービスや、起動のボトルネックとなっているクリティカルチェーンが視覚的にわかります。

2. systemdユニットの最適化

ボトルネックが特定されたら、対象のsystemdユニットファイルを最適化します。ここでは、カスタムサービスを例に最適化のポイントを示します。

例: カスタムサービス my-optimizer.service の作成と最適化

# /etc/systemd/system/my-optimizer.service

[Unit]
Description=My Custom Boot Optimizer Service
Documentation=https://example.com/my-optimizer-docs
After=network.target # ネットワークが利用可能になった後に起動
Wants=network-online.target # ネットワークがオンラインになるのを待機

[Service]
Type=oneshot # 処理が完了したら終了するタイプ
RemainAfterExit=yes # 終了後もアクティブ状態を維持 (オプション)
ExecStartPre=/usr/bin/bash -c 'echo "Starting my-optimizer at $(date +%Y-%m-%dT%H:%M:%S%z JST)" >> /var/log/my-optimizer.log'
ExecStart=/usr/local/bin/my-optimizer-script.sh
ExecStop=/usr/bin/bash -c 'echo "Stopping my-optimizer at $(date +%Y-%m-%dT%H:%M:%S%z JST)" >> /var/log/my-optimizer.log'

# User=myuser # サービス実行ユーザーを指定し、root権限を避ける


# Group=mygroup # サービス実行グループを指定

TimeoutStartSec=120s # 起動タイムアウトを120秒に設定
Restart=on-failure # 失敗時に再起動を試みる

[Install]
WantedBy=multi-user.target # 通常のマルチユーザー起動時に起動

After, Wants: 依存関係を適切に設定することで、不必要な待機時間を削減できます。network.targetはネットワークインターフェースが設定された後、network-online.targetはネットワーク接続が確立された後に起動します。
Type=oneshot: 短時間のスクリプト実行に適しています。
User, Group: root権限を必要としない処理は、専用の非特権ユーザーで実行し、セキュリティリスクを低減します。
ExecStartPre, ExecStop: 起動前後のフック処理を記述できます。
TimeoutStartSec: 起動がハングアップした場合のタイムアウトを設定します。
WantedBy: multi-user.targetは、システムが通常運用可能な状態になったことを意味します。

3. systemd timerによる遅延起動

起動時に必ずしも必要ないサービスは、systemd timerを用いて遅延起動させることで、初期起動時間を短縮できます。

例: my-optimizer.timer で1分後に my-optimizer.service を起動

# /etc/systemd/system/my-optimizer.timer

[Unit]
Description=Run my custom optimizer 1 minute after boot

# 関連サービスとのAfter設定は不要（タイマーがサービスを起動するため）

[Timer]
OnBootSec=1min # システム起動から1分後に実行

# OnUnitActiveSec=1min # サービスが前回実行されてから1分後に実行 (繰り返し実行の場合)

Unit=my-optimizer.service # このタイマーで起動するサービスユニット

[Install]
WantedBy=timers.target # タイマーとして有効化

タイマーとサービスを有効化・起動します。

#!/bin/bash

set -euo pipefail

echo "--- systemdユニットとタイマーの有効化・開始 ---"

# サービスとタイマーファイルをリロード

sudo systemctl daemon-reload
echo "systemdデーモンをリロードしました。"

# サービスの有効化（自動起動設定）

sudo systemctl enable my-optimizer.service
echo "my-optimizer.service を有効化しました。"

# タイマーの有効化（自動起動設定）

sudo systemctl enable my-optimizer.timer
echo "my-optimizer.timer を有効化しました。"

# タイマーの開始（次回の条件で起動）

sudo systemctl start my-optimizer.timer
echo "my-optimizer.timer を開始しました。"

echo ""
echo "--- 状態確認 ---"
sudo systemctl list-timers my-optimizer.timer
sudo systemctl status my-optimizer.service my-optimizer.timer

4. 外部システム連携（curlとjqの利用）

起動時間分析の結果や最適化のステータスを、監視システムやCI/CDパイプラインに通知するスクリプト例です。curlで安全な通信と再試行を、jqでJSON処理を行います。

#!/bin/bash

set -euo pipefail

# 一時ディレクトリの作成とクリーンアップ

TMP_DIR=$(mktemp -d)
trap 'rm -rf "$TMP_DIR"' EXIT

# APIエンドポイントと認証トークン（例）

API_ENDPOINT="https://api.example.com/boot-metrics"
API_TOKEN="YOUR_API_TOKEN" # 環境変数や秘密管理ツールからの取得を推奨

# 安全なcurl実行関数


# TLSv1.2、リトライ、バックオフ、エラー表示、HTTPヘッダ取得

curl_safe() {
    local url="$1"
    local data="$2"
    local headers_file="${TMP_DIR}/curl_headers_$(date +%s%N).txt"

    echo "Sending data to: $url"
    echo "Payload: $data"

    # curlの実行


    # -sS: silent and show errors


    # --fail: Fail silently (no output at all) on server errors


    # --show-error: Show error message even if -s is used


    # --tlsv1.2: Force TLSv1.2 (or later if available/needed)


    # --retry: Retry count


    # --retry-delay: Delay between retries in seconds


    # --retry-connrefused: Retry on connection refused


    # --retry-max-time: Max time for retries


    # -D: Dump headers to file

    local response_body
    response_body=$(curl -sS --fail --show-error \
                         --tlsv1.2 \
                         --retry 5 --retry-delay 5 --retry-connrefused --retry-max-time 60 \
                         -X POST \
                         -H "Content-Type: application/json" \
                         -H "Authorization: Bearer ${API_TOKEN}" \
                         -d "$data" "$url" \
                         -D "$headers_file" # ヘッダーを一時ファイルに書き出す
                    )

    local curl_exit_code=$?

    if [ ${curl_exit_code} -ne 0 ]; then
        echo "Error: curl command failed with exit code ${curl_exit_code}" >&2
        echo "Headers: $(cat "$headers_file")" >&2
        return 1
    fi

    echo "API Response: $response_body"

    # jqでJSONレスポンスを処理

    local status=$(echo "$response_body" | jq -r '.status')
    local message=$(echo "$response_body" | jq -r '.message')

    if [ "$status" == "success" ]; then
        echo "API連携成功: $message"
        return 0
    else
        echo "API連携失敗: $message (Status: $status)" >&2
        return 1
    fi
}

# 起動時間情報の取得 (systemd-analyze blame の結果から最も遅いユニットを取得)


# root権限が必要なため、sudoを使用

BOOT_TIME_INFO=$(sudo systemd-analyze blame | head -n 1 | awk '{print $1" "$2}')
BOOT_TIME_SEC=$(echo "$BOOT_TIME_INFO" | awk '{print $1}' | sed 's/s//') # 秒部分を抽出

if [[ -z "$BOOT_TIME_SEC" ]]; then
    echo "エラー: 起動時間情報を取得できませんでした。" >&2
    exit 1
fi

# 外部APIに送信するJSONデータを作成

JSON_PAYLOAD=$(jq -n \
                 --arg hostname "$(hostname)" \
                 --arg timestamp "$(date -u +"%Y-%m-%dT%H:%M:%SZ")" \
                 --arg boot_time "$BOOT_TIME_SEC" \
                 --arg top_unit "$(echo "$BOOT_TIME_INFO" | awk '{print $2}')" \
                 '{
                   "hostname": $hostname,
                   "timestamp": $timestamp,
                   "boot_time_seconds": ($boot_time | tonumber),
                   "top_blame_unit": $top_unit
                 }')

# API連携の実行

if curl_safe "$API_ENDPOINT" "$JSON_PAYLOAD"; then
    echo "起動時間メトリクスの送信が完了しました。"
else
    echo "起動時間メトリクスの送信に失敗しました。" >&2
    exit 1
fi

このスクリプトは、systemd-analyze blameで取得した起動時間と最も遅いユニットの情報をJSON形式で整形し、curlを使って外部APIに安全に送信します。jqはJSONデータの生成と解析に用いられています。

フローチャート：起動時間分析と最適化のプロセス

graph TD
    A["システム起動"] --> B{"systemd-analyze blame 実行"};
    B --> C{"起動時間分析結果の取得"};
    C --> D{"高負荷ユニットの特定"};
    D --> E{"ユニット依存関係の確認"};
    E --> F{"ユニット設定の最適化"};
    F --> G{"systemd timerによる遅延起動"};
    G --> H{"テストと再評価"};
    H --> I{"起動時間改善"};
    E --|詳細ログ確認| J["journalctl -u"];
    D --|詳細ログ確認| J;
    H --|API連携で結果通知| K["外部監視/CI/CDシステム"];

ノード: A[システム起動], B{systemd-analyze blame 実行}, C{起動時間分析結果の取得}, D{高負荷ユニットの特定}, E{ユニット依存関係の確認}, F{ユニット設定の最適化}, G{systemd timerによる遅延起動}, H{テストと再評価}, I{起動時間改善}, J[journalctl -u], K[外部監視/CI/CDシステム]
エッジ: A --> B, B --> C, C --> D, D --> E, E --> F, F --> G, G --> H, H --> I, E --|詳細ログ確認| J, D --|詳細ログ確認| J, H --|API連携で結果通知| K

検証

最適化後には、必ず以下の項目を検証します。

起動時間の再測定: systemd-analyze blameを再度実行し、改善が見られるか比較します。
サービス動作確認: 変更したサービスが意図通りに起動し、機能しているか確認します。
- sudo systemctl status my-optimizer.service
- journalctl -u my-optimizer.service
タイマー動作確認: タイマー設定が正しく、指定した遅延時間後にサービスが起動しているか確認します。
- sudo systemctl list-timers my-optimizer.timer
- journalctl -u my-optimizer.timer
外部連携確認: 外部システムにメトリクスが正しく送信されているか確認します。

運用

起動時間分析と最適化は一度で終わりではなく、継続的なプロセスです。

定期的な監視: CI/CDパイプラインに起動時間分析を組み込み、定期的にsystemd-analyze blameを実行して異常がないか監視します。
バージョン管理: systemdユニットファイルやスクリプトはGitなどのバージョン管理システムで管理し、変更履歴を追えるようにします。
権限管理: root権限を必要とする操作は最小限に留め、可能であれば特定のサービスアカウントに権限を委譲します。
ドキュメント: 変更内容や最適化の決定理由をドキュメント化し、チーム内で共有します。

トラブルシュート

問題が発生した場合の一般的なトラブルシュート方法です。

サービスが起動しない:
- journalctl -xeu <unit_name>: 詳細なエラーログを確認します。
- sudo systemctl status <unit_name>: サービスの状態と直近のログを確認します。
- sudo systemctl daemon-reload: ユニットファイルを変更した場合は、systemdデーモンの設定をリロードしたか確認します。
systemd-analyze blameの結果が改善しない:
- 依存関係が複雑な場合、systemd-analyze critical-chainでボトルネックの真の原因を探ります。
- ユニットファイルの設定ミス（例: After=の誤設定）を確認します。
権限エラー:
- User=, Group=設定が正しいか、サービスがアクセスするファイルやディレクトリのパーミッションを確認します。

まとめ

systemd-analyze blameは、Linuxシステムの起動時間を分析し、最適化するための強力なツールです。本記事で解説したように、systemdユニットやタイマーを適切に設定し、Bashスクリプトとcurl/jqを活用することで、起動プロセスのボトルネックを特定し、効率的に改善することができます。これらの最適化は、システム全体のパフォーマンス向上、リソース効率化、そしてアプリケーションの迅速なデプロイと回復に貢献します。

継続的な分析と改善サイクルを確立し、DevOpsの実践としてシステムの最適化に取り組むことが重要です。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。