sedとawkによるテキスト処理実践

PowerAutomate

sedとawkによるDevOps向けテキスト処理実践

DevOpsでは、ログ解析、設定ファイルの動的生成、APIレスポンス処理にsedとawkが不可欠な基盤技術である。本稿ではこれらを組み合わせた実践的なテキスト処理手法を解説する。

要件と前提

要件

  • bashsedawkjqcurlsystemdがインストールされていること。
  • スクリプトはidempotentであり、安全な書き方set -euo pipefail, trap, 一時ディレクトリの使用)を厳守する。
  • root権限を要する操作には注意喚起と権限分離の考慮を示す。

前提

DevOps環境において、異なるシステムからのログ、設定ファイル、APIレスポンスなどの様々な形式のテキストデータを効率的かつ確実に処理する能力が求められる。

実装

安全なBashスクリプトのテンプレートと、それを用いた具体的な処理例を示す。

#!/usr/bin/env bash
set -euo pipefail

# 一時ディレクトリの作成とクリーンアップ
TMP_DIR=$(mktemp -d)
trap 'rm -rf "$TMP_DIR"' EXIT

# --- データ生成例 (以下で処理するデータ) ---
# ログファイル
cat <<EOF > "$TMP_DIR/app.log"
2023-10-26 10:00:01 INFO User: admin logged in from 192.168.1.100
2023-10-26 10:00:05 ERROR Failed to connect to DB on port 5432
2023-10-26 10:00:10 INFO User: guest logged in from 192.168.1.101
2023-10-26 10:00:15 WARNING Disk usage is 85% on /dev/sda1
22023-10-26 10:00:20 ERROR Invalid API key provided for service 'auth'
EOF

# 設定ファイル
cat <<EOF > "$TMP_DIR/config.conf"
# Application Configuration
SERVER_PORT=8080
DB_HOST=localhost
DB_PORT=5432
API_KEY=old_api_key_123
LOG_LEVEL=INFO
EOF

# JSONデータ (curlで取得する想定)
cat <<EOF > "$TMP_DIR/api_response.json"
{
  "status": "success",
  "data": [
    {"id": 1, "name": "ServiceA", "version": "1.0", "active": true},
    {"id": 2, "name": "ServiceB", "version": "1.2", "active": false},
    {"id": 3, "name": "ServiceC", "version": "2.0", "active": true}
  ]
}
EOF

echo "--- Original app.log ---"
cat "$TMP_DIR/app.log"
echo ""

echo "--- sedによる設定ファイル更新: API_KEYを新しい値に置換 ---"
sed -i.bak 's/^API_KEY=.*/API_KEY=new_secure_key_456/' "$TMP_DIR/config.conf"
cat "$TMP_DIR/config.conf"
rm "$TMP_DIR/config.conf.bak" # バックアップファイルを削除
echo ""

echo "--- awkによるログ解析: エラーログのみ抽出し、メッセージとタイムスタンプを整形 ---"
awk '/ERROR/ { print $1, $2 " - " substr($0, index($0, "ERROR") + length("ERROR ") ) }' "$TMP_DIR/app.log"
echo ""

echo "--- curlとjqによるAPIレスポンス処理: activeなサービス名とバージョンを抽出 ---"
# 実際には curl を使用するが、ここではファイルから読み込む
# curl --json '{"key":"value"}' -X POST 'https://api.example.com/data' \
#      --tlsv1.2 --retry 5 --retry-delay 2 --retry-max-time 30 \
#      --output "$TMP_DIR/api_response.json"

jq -r '.data[] | select(.active == true) | "\(.name) (\(.version))"' "$TMP_DIR/api_response.json"
echo ""

echo "--- sed, awk, jqの連携: エラーログからサービス名を抽出し、JSON形式で出力 ---"
ERROR_SERVICES=$(awk '/ERROR Invalid API key/ { print $NF }' "$TMP_DIR/app.log" | sed "s/'//g")
echo "$ERROR_SERVICES" | jq -R 'split("\n") | map(select(length > 0)) | {error_services: .}'
echo ""

curl の安全な利用例

#!/usr/bin/env bash
set -euo pipefail

# 一時ディレクトリの作成とクリーンアップ
TMP_DIR=$(mktemp -d)
trap 'rm -rf "$TMP_DIR"' EXIT

API_ENDPOINT="https://httpbin.org/post" # テスト用のエンドポイント
PAYLOAD='{"message": "Test data"}'
OUTPUT_FILE="$TMP_DIR/response.json"

echo "--- curlコマンドによる安全なAPIリクエスト ---"
# --silent: 進捗表示を抑制
# --show-error: エラー時にはエラーメッセージを表示
# --fail: HTTPステータスコードが200番台以外の場合、非ゼロで終了
# --retry 5: 失敗時に5回まで再試行
# --retry-delay 2: 2秒待ってから再試行
# --retry-max-time 30: 最大30秒間再試行を試みる
# --tlsv1.2: TLSv1.2を強制
# -H "Content-Type: application/json": ヘッダー設定
# -d "$PAYLOAD": POSTデータ
# -o "$OUTPUT_FILE": 出力ファイルを指定
curl --silent --show-error --fail \
     --retry 5 --retry-delay 2 --retry-max-time 30 \
     --tlsv1.2 \
     -H "Content-Type: application/json" \
     -d "$PAYLOAD" \
     -o "$OUTPUT_FILE" \
     "$API_ENDPOINT"

echo "APIレスポンスが $OUTPUT_FILE に保存されました。"
cat "$OUTPUT_FILE" | jq .

検証

上記スクリプトは一時ディレクトリ内にファイルを生成し、その場で処理を行う。出力された結果が期待通りであるか確認する。 例: * config.confAPI_KEYnew_secure_key_456に更新されたか。 * app.logからERROR行のみが抽出され、メッセージが整形されているか。 * api_response.jsonからactive: trueのサービスのみが抽出され、フォーマットされているか。 * curlのレスポンスが$OUTPUT_FILEに保存され、jqで正しくパースできるか。

運用

定期的なログ解析やシステム監視にsystemd unit/timerを用いて、スクリプトを自動実行する。

systemd unit/timerの例

/etc/systemd/system/配下に以下のファイルを配置する(root権限が必要)。

my_log_processor.service:

[Unit]
Description=Process application logs for errors
After=network.target

[Service]
Type=oneshot
User=myuser # 処理を実行するユーザー
ExecStart=/usr/local/bin/process_logs.sh
StandardOutput=journal
StandardError=journal
# 実行権限の分離: スクリプトに必要な最低限の権限を持つユーザーを指定する
# User=root は避けるべき。専用のシステムユーザー (例: logprocessor) を作成し、
# そのユーザーにログファイルへの読み取り権限のみを付与することが望ましい。
# 権限昇格が必要な操作がある場合のみ、スクリプト内でsudoを限定的に使用し、
# sudoers設定で特定のコマンドのみ許可する。

[Install]
WantedBy=multi-user.target

my_log_processor.timer:

[Unit]
Description=Run log processor script every 5 minutes

[Timer]
OnCalendar=*:0/5 # 5分ごとに実行
Persistent=true # サービスが停止してもタイマーの状態を保持

[Install]
WantedBy=timers.target

process_logs.sh (スクリプト本体 – /usr/local/bin/process_logs.sh に配置し、実行権限 chmod +x を付与):

#!/usr/bin/env bash
set -euo pipefail

LOG_FILE="/var/log/app/app.log" # 実際のログファイルのパス
OUTPUT_DIR="/var/log/app/processed"
mkdir -p "$OUTPUT_DIR"

if [ ! -f "$LOG_FILE" ]; then
    echo "Error: Log file not found at $LOG_FILE" >&2
    exit 1
fi

CURRENT_TIME=$(date +"%Y%m%d%H%M%S")
OUTPUT_FILE="$OUTPUT_DIR/errors_$CURRENT_TIME.json"

# ERROR行を抽出し、jqでJSONに変換
awk '/ERROR/ { print $0 }' "$LOG_FILE" | \
jq -R 'split("\n") | map(select(length > 0)) | {timestamp: "$(date -Iiso)", errors: .}' > "$OUTPUT_FILE"

echo "Processed errors saved to $OUTPUT_FILE"

起動とログ確認

# systemd設定をリロード
sudo systemctl daemon-reload

# タイマーを有効化し、起動
sudo systemctl enable my_log_processor.timer
sudo systemctl start my_log_processor.timer

# 状態確認
systemctl status my_log_processor.timer
systemctl status my_log_processor.service

# ログ確認
journalctl -u my_log_processor.service

root権限の扱いと権限分離

systemdユニットファイルの配置や有効化にはroot権限が必要である。しかし、ExecStartで実行されるスクリプトは、User=ディレクティブで指定された非特権ユーザーで実行すべきである。これにより、スクリプトが誤動作した場合の影響範囲を最小限に抑えることができる。ログファイルへのアクセス権限も、必要最小限の読み取り権限のみを付与する。

トラブルシュート

  • スクリプトのデバッグ: bash -x your_script.sh で実行トレースを確認する。
  • systemdサービスの問題: systemctl status <service_name>.service でステータスと最新のログを確認する。詳細なログは journalctl -u <service_name>.service で参照する。
  • 正規表現のデバッグ: grep -P やオンラインの正規表現テスターで、パターンが意図通りにマッチするか確認する。
  • jqの問題: JSON入力が正しい形式であるか確認し、jq . でパースエラーがないか確認する。

まとめ

sed、awkはテキスト処理の基礎であり、jq、curl、systemdと組み合わせることでDevOpsの自動化タスクを強力に支援する。安全なbashスクリプトの原則と権限分離を遵守し、これらのツールを効果的に活用することが、堅牢なシステム運用に繋がる。

graph TD
    A["データ収集"] --> B{"データ形式判定"};
    B --> |ログ/設定ファイル| C["sed/awkによる前処理"];
    B --> |JSON/APIレスポンス| D["curlで取得"];
    D --> E["jqによるJSON処理"];
    C --> F["データ変換/抽出"];
    E --> F;
    F --> G{"処理結果"};
    G --> H["systemd timerで定期実行"];
    G --> I["通知/アクション"];
ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました