awkコマンドでテキスト処理

PowerAutomate

awkは強力なテキスト処理ツールであり、DevOpsにおけるログ解析やデータ抽出に不可欠である。本記事では、awkを用いた自動化と安全な運用手順を示す。

DevOpsにおけるawkを用いたテキスト処理の自動化と安全な運用

要件と前提

本記事では、awkコマンドを核としたテキスト処理の自動化手順を解説する。以下のツールと安全対策を前提とする。

  • awk: テキスト処理の主要ツール
  • bash: スクリプト実行環境 (安全な書き方を適用)
  • jq: JSONデータの解析・整形ツール
  • curl: HTTPリクエスト送信ツール (再試行ロジックを含む)
  • systemd: スクリプトの定期実行管理
  • 安全性: set -euo pipefailtrap、一時ディレクトリの使用、権限分離
  • 冪等性: スクリプトの複数回実行がシステム状態に同じ結果をもたらすこと

ターゲット環境はLinuxシステム(例: RHEL, CentOS, Ubuntu)。

実装

テキストデータから特定の情報を抽出し、API経由で取得したJSONデータと組み合わせるシナリオを想定する。

処理フロー

graph LR
    A["systemd Timer"] --> B("systemd Service");
    B --> C["Bash Script: process_data.sh"];
    C --> D("curl API Call");
    D --> E["awk Text Processing"];
    E --> F["jq JSON Processing"];
    F --> G["Log Output/File Update"];

1. 安全なBashスクリプト process_data.sh の作成

テキストファイルと外部APIからのデータを処理するスクリプトを記述する。root権限の直接実行は避け、systemdUser= オプションで非rootユーザーとして実行することを推奨する。

#!/bin/bash
# process_data.sh: テキストデータを処理し、APIから情報取得、統合するスクリプト

# 厳格なエラーハンドリング
set -euo pipefail

# 一時ディレクトリの作成とクリーンアップ
# スクリプトの冪等性を確保するため、毎回クリーンな環境で作業する
TMP_DIR=$(mktemp -d)
trap 'rm -rf "$TMP_DIR"' EXIT # スクリプト終了時に一時ディレクトリを削除

# ログ関数
log() {
    echo "$(date '+%Y-%m-%d %H:%M:%S') [INFO] $1" >&2
}

log_error() {
    echo "$(date '+%Y-%m-%d %H:%M:%S') [ERROR] $1" >&2
}

# curl再試行関数 (TLS, 指数バックオフ、失敗時のボディ出力)
retry_curl() {
    local url="$1"
    local output_file="$2"
    local max_attempts="${3:-5}"
    local delay="${4:-2}" # 初期遅延秒数

    for i in $(seq 1 "$max_attempts"); do
        log "Attempt $i: Fetching data from $url..."
        # -sS: サイレントモード、エラーは表示。--fail-with-body: HTTPエラー時にレスポンスボディを表示
        # -m 30: タイムアウト30秒
        if curl -sS --fail-with-body -m 30 "$url" -o "$output_file"; then
            log "Successfully fetched data from $url."
            return 0
        else
            local http_status=$(curl -s -o /dev/null -w '%{http_code}' "$url" || echo "UNKNOWN")
            log_error "Attempt $i failed (HTTP Status: $http_status). Retrying in $delay seconds..."
            sleep "$delay"
            delay=$((delay * 2)) # 指数バックオフ
        fi
    done
    log_error "Failed to fetch URL after $max_attempts attempts: $url"
    return 1
}

# --- メイン処理 ---
log "Starting data processing script."

# 1. サンプルテキストデータの準備 (実運用ではログファイルなどから読み込む)
DATA_FILE="$TMP_DIR/sample_data.csv"
cat <<EOF > "$DATA_FILE"
server_id,hostname,status,requests
101,web01.example.com,active,1500
102,db01.example.com,inactive,500
103,app01.example.com,active,2300
104,web02.example.com,active,1800
EOF

# 2. awkコマンドによるテキスト処理
# activeなサーバーのhostnameとrequestsを抽出
log "Processing local data with awk..."
ACTIVE_SERVERS_DATA="$TMP_DIR/active_servers.txt"
awk -F',' '$3 == "active" { print $2, $4 }' "$DATA_FILE" > "$ACTIVE_SERVERS_DATA"
log "Active servers extracted to $ACTIVE_SERVERS_DATA"
cat "$ACTIVE_SERVERS_DATA" >&2 # 処理結果をログに出力

# 3. curlとjqによるAPIデータの取得と処理
# 実際のAPIエンドポイントに置き換える
API_URL="https://jsonplaceholder.typicode.com/posts/1" # 例: ダミーJSON API
API_RESPONSE_FILE="$TMP_DIR/api_response.json"
OUTPUT_FILE="/var/log/awk_processed_data.json" # 出力先、systemd実行ユーザーが書き込み権限を持つこと

if retry_curl "$API_URL" "$API_RESPONSE_FILE" 5 2; then
    log "API response fetched. Processing with jq..."
    # jqでJSONを整形し、awkの結果と統合する例
    # この例ではAPIデータ単体を整形するが、実際のDevOpsではawkの結果と組み合わせて新しいJSONを生成する
    jq -r '{"title": .title, "body_length": (.body | length)}' "$API_RESPONSE_FILE" > "$TMP_DIR/api_processed.json"
    log "API data processed and saved to $TMP_DIR/api_processed.json"
    cat "$TMP_DIR/api_processed.json" >&2 # 処理結果をログに出力

    # active_servers.txt の内容とAPI処理結果を組み合わせて最終的なJSONを出力
    # ここでは単純に結合するが、実際はより複雑なロジックで統合する
    {
        echo '{"active_servers": ['
        awk '{printf "{\"hostname\": \"%s\", \"requests\": %s},\n", $1, $2}' "$ACTIVE_SERVERS_DATA" | sed '$s/,$//' # 最後のカンマを削除
        echo '],'
        echo '"api_info": '
        cat "$TMP_DIR/api_processed.json"
        echo '}'
    } | jq '.' > "$OUTPUT_FILE"
    log "Final processed data written to $OUTPUT_FILE"
else
    log_error "Failed to fetch API data. Skipping API processing."
    exit 1
fi

log "Script finished successfully."
exit 0

2. systemd Unit/Timer の設定

作成したスクリプトを定期的に実行するために systemd を使用する。ここでは exampleuser という非rootユーザーでスクリプトを実行する前提とする。

/etc/systemd/system/awk-processor.service

[Unit]
Description=Awk data processing service
After=network-online.target # ネットワークが利用可能になってから起動

[Service]
ExecStart=/usr/local/bin/process_data.sh # スクリプトのフルパス
User=exampleuser # スクリプトを実行するユーザー (重要: 最小権限原則)
Group=exampleuser # スクリプトを実行するグループ
WorkingDirectory=/tmp # 作業ディレクトリ
StandardOutput=journal # 標準出力をjournalctlに送信
StandardError=journal  # 標準エラー出力をjournalctlに送信
Restart=on-failure     # 失敗時にサービスを再起動
RestartSec=5s          # 再起動までの待機時間
ProtectSystem=full     # システムファイルを読み取り専用にマウント
ProtectHome=true       # /home, /root をアクセス不可にする
PrivateTmp=true        # サービス専用の/tmpを用意 (より安全)
NoNewPrivileges=true   # 新しい特権昇格を禁止
ReadOnlyPaths=/        # rootファイルシステム全体を読み取り専用に
ReadWritePaths=/var/log/awk_processed_data.json # 必要な書き込みパスのみ許可

root権限の扱いと権限分離の注意点: User=, Group= を指定することで、スクリプトは exampleuser の権限で実行される。これにより、root権限での不要な操作を防止し、セキュリティリスクを大幅に低減できる。ProtectSystemProtectHomePrivateTmpNoNewPrivilegesReadOnlyPathsReadWritePathssystemd の強力なサンドボックス機能であり、サービスがシステムへ与える影響を最小限に抑えるために重要である。process_data.sh/usr/local/bin に配置し、exampleuser が実行権限を持つよう設定する。出力ファイル /var/log/awk_processed_data.jsonexampleuser が書き込み可能である必要がある。

/etc/systemd/system/awk-processor.timer

[Unit]
Description=Run Awk data processing every 5 minutes

[Timer]
OnCalendar=*:0/5 # 5分ごとに実行
Persistent=true  # タイマーが非アクティブな間に発生したイベントを起動時に実行
Unit=awk-processor.service # 起動するサービス

[Install]
WantedBy=timers.target

3. スクリプトとsystemdファイルの配置

#!/bin/bash
set -euo pipefail

# スクリプトを/usr/local/binに配置
sudo install -m 755 process_data.sh /usr/local/bin/process_data.sh

# systemdユニットファイルを配置
sudo install -m 644 awk-processor.service /etc/systemd/system/awk-processor.service
sudo install -m 644 awk-processor.timer /etc/systemd/system/awk-processor.timer

# 出力ディレクトリとファイルの権限設定
# exampleuser が存在しない場合は適宜作成
if ! id "exampleuser" &>/dev/null; then
    sudo useradd -r -s /usr/sbin/nologin exampleuser
fi
sudo mkdir -p /var/log
sudo touch /var/log/awk_processed_data.json
sudo chown exampleuser:exampleuser /var/log/awk_processed_data.json
sudo chmod 640 /var/log/awk_processed_data.json

# systemd設定をリロード
sudo systemctl daemon-reload

# タイマーを有効化して起動
sudo systemctl enable --now awk-processor.timer

log "Systemd timer 'awk-processor.timer' enabled and started."
log "Check status with: systemctl status awk-processor.timer awk-processor.service"
log "Check logs with: journalctl -u awk-processor.service"

この手順は冪等性を意識している。install コマンドはファイルが存在しても上書きし、権限を設定する。useradd はユーザーが存在すれば何もしない。mkdir -p もディレクトリが存在すれば何もしない。

検証

スクリプトとsystemdサービスが正しく機能するか確認する。

  1. systemdタイマーとサービスの状態確認:

    systemctl status awk-processor.timer awk-processor.service
    

    awk-processor.timeractive (waiting)awk-processor.serviceactive (exited) となっていれば成功。awk-processor.timerNext に次回の実行時刻が表示される。

  2. 実行ログの確認:

    journalctl -u awk-processor.service --since "5 minutes ago"
    

    スクリプト内の log 関数からの出力や awkjqcurl の実行結果が確認できる。エラーメッセージがないか確認する。

  3. 出力ファイルの確認:

    cat /var/log/awk_processed_data.json | jq .
    

    処理結果のJSONファイルが期待通りに生成されているか、jq で整形して確認する。

運用

  • ログの継続的な監視: journalctl -f -u awk-processor.service を利用してリアルタイムでログを監視する。異常が検知された場合はアラートを発報する仕組みを構築する。
  • スクリプトのバージョン管理: process_data.sh および systemd ユニットファイルはGitなどのバージョン管理システムで管理し、変更履歴を追跡可能にする。
  • システムリソースの監視: スクリプトがCPUやメモリを過度に消費しないか監視し、必要に応じて最適化する。
  • エラー通知: スクリプト内部で致命的なエラーが発生した場合、Slack、PagerDuty、メールなどに通知する機能を組み込む。

トラブルシュート

  • サービスが起動しない:
    • systemctl status awk-processor.service でエラーメッセージを確認する。
    • journalctl -u awk-processor.service で詳細なログを確認する。
    • ユニットファイルの構文エラー、スクリプトのパス間違い、実行権限不足がよくある原因。
    • systemdUser= で指定したユーザーが存在するか、必要なファイルへの書き込み権限があるか確認する。
  • スクリプトが期待通りに動作しない:
    • bash -x /usr/local/bin/process_data.sh を直接実行し、詳細な実行トレースを確認する。
    • awkjq の構文エラー、正規表現の不一致、フィールド区切り文字の誤りが考えられる。
    • curl が外部APIに接続できない場合は、ネットワーク設定、ファイアウォール、API側の問題を確認する。
  • 一時ファイルが残存する: trap 'rm -rf "$TMP_DIR"' EXIT が正しく設定されていれば通常は残らない。スクリプトが予期せず終了した場合(例: kill -9)に発生する可能性がある。冪等性が確保されていれば次回の実行には影響しない。

まとめ

awk はDevOpsにおいてログ解析やデータ抽出に不可欠なツールである。本記事では、awk を用いたテキスト処理の自動化を、set -euo pipefailtrap を含む安全な bash スクリプトとして実装し、curl によるAPI連携と jq によるJSON処理を統合した。さらに、systemd の Unit/Timer を利用して定期実行を設定し、User=ProtectSystem などの強力なセキュリティ機能による権限分離とサンドボックス化の重要性を示した。これらのアプローチにより、堅牢で保守性の高い自動化システムを構築できる。

ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました