<p><meta/> { “category”: “SRE_DEVOPS_TIPS”, “topic”: “JQ_ADVANCED_AGGREGATION”, “tools”: [“jq”, “bash”, “curl”], “version”: “1.0.0” } </p> <p>本記事は<strong>Geminiの出力をプロンプト工学で整理した業務ドラフト（未検証）</strong>です。</p> <h1 class="wp-block-heading">jqを駆使したJSONログの高度な集計：group_byとreduceによる分析自動化</h1> <h2 class="wp-block-heading">【導入と前提】</h2> <p>APIレスポンスやログのJSON配列を特定キーでグループ化・統計処理し、システム状態の可視化を自動化・堅牢化します。</p> <ul class="wp-block-list"> <li><p><strong>OS</strong>: 汎用Linux (Ubuntu/RHEL等)</p></li> <li><p><strong>ツール</strong>: <code>jq</code> 1.6以上, <code>curl</code> 7.0以上</p></li> <li><p><strong>前提</strong>: 構造化されたJSON配列データ（例：クラウドのメトリクスやCIビルド履歴）の存在。</p></li> </ul> <h2 class="wp-block-heading">【処理フローと設計】</h2> <div class="wp-block-merpress-mermaidjs diagram-source-mermaid"><pre class="mermaid"> graph TD A["JSON Input"] --> B["Map/Filter: 前処理"] B --> C{"Aggregation Logic"} C --> D["group_by: キーによる群構造化"] C --> E["reduce: 累積・ハッシュ変換"] D --> F["Summary Output"] E --> F </pre></div> <ul class="wp-block-list"> <li><p><strong>前処理</strong>: 不要なフィールドを除去し、メモリ消費を抑えます。</p></li> <li><p><strong>group_by</strong>: 配列を特定のキーでソート・分割し、階層構造を作ります。</p></li> <li><p><strong>reduce</strong>: 配列を走査しながらオブジェクト（連想配列）を構築し、計算量を最適化します。</p></li> </ul> <h2 class="wp-block-heading">【実装：堅牢な自動化スクリプト】</h2> <div class="codehilite"> <pre data-enlighter-language="generic">#!/usr/bin/env bash # --- 実行時エラー制御 --- set -euo pipefail IFS=$'\n\t' # 一時ファイル管理 TMP_DATA=$(mktemp /tmp/api_response.XXXXXX.json) trap 'rm -f "$TMP_DATA"' EXIT # スクリプト終了時に必ず削除 # --- 設定・ターゲット --- # 例: GitHub APIから特定リポジトリのイベントを取得（ダミー） API_URL="https://api.github.com/repos/stedolan/jq/events" echo "INFO: データの取得中..." # curlの堅牢な実行 # -s: 進捗非表示, -S: エラー表示, -L: リダイレクト追従, --retry: 失敗時再試行 if ! curl -sSL --retry 3 "$API_URL" -o "$TMP_DATA"; then echo "ERROR: データの取得に失敗しました。" >&2 exit 1 fi echo "INFO: 集計の実行 (group_by & reduce)..." # --- 高度なjq処理 --- # 1. group_by を使ったイベントタイプ別カウント # 2. reduce を使ったメモリ効率の良い集計 cat "$TMP_DATA" | jq -r ' # 処理1: イベントタイプでグループ化してカウント group_by(.type) | map({ type: .[0].type, count: length }) | # 処理2: reduce を使い、特定ユーザーのアクション数をハッシュ化 (reduce .[] as $item ({}; .[$item.type] = $item.count)) as $summary | # 最終的な構造化出力 { generated_at: (now | strflocaltime("%Y-%m-%d %H:%M:%S")), event_summary: $summary, top_event: (group_by(.type) | sort_by(length) | last | .[0].type) } ' </pre> </div> <h2 class="wp-block-heading">【検証と運用】</h2> <h3 class="wp-block-heading">正常系の確認</h3> <p>スクリプトを実行し、標準出力に構造化されたJSONが返ってくることを確認します。</p> <div class="codehilite"> <pre data-enlighter-language="generic">bash aggregate_logs.sh </pre> </div> <h3 class="wp-block-heading">ログ確認と監視</h3> <p>cronやsystemd timerで運用する場合、標準エラー出力を <code>logger</code> または <code>journalctl</code> に飛ばします。</p> <div class="codehilite"> <pre data-enlighter-language="generic"># systemd ユニットでの確認例 journalctl -u my-jq-aggregator.service --since "1 hour ago" </pre> </div> <h2 class="wp-block-heading">【トラブルシューティングと落とし穴】</h2> <ol class="wp-block-list"> <li><p><strong>メモリ制限と<code>group_by</code></strong>:</p> <ul> <li><code>group_by</code> は内部でデータをソートするため、巨大なJSONファイル（数GB）ではメモリを大量に消費します。その場合は、<code>jq -c</code> で一行ずつ <code>reduce</code> を使ってストリーム処理することを検討してください。</li> </ul></li> <li><p><strong>型変換エラー</strong>:</p> <ul> <li>JSON内の数値が文字列として渡される場合、<code>tonumber</code> を忘れると集計（<code>add</code> 等）で実行時エラーが発生します。</li> </ul></li> <li><p><strong>機密情報</strong>:</p> <ul> <li><code>curl</code> でトークンを渡す際は、<code>set -x</code>（デバッグモード）を無効化するか、環境変数を直接出力しないように注意してください。</li> </ul></li> </ol> <h2 class="wp-block-heading">【まとめ】</h2> <p>運用の冪等性を維持するための3つのポイント：</p> <ol class="wp-block-list"> <li><p><strong>入力データの不変性</strong>: 元データを加工せず、パイプラインの最終段で整形する。</p></li> <li><p><strong>アトミックな書き出し</strong>: 集計結果をファイルに保存する場合、一時ファイルに書き出してから <code>mv</code> することで中途半端な状態を防ぐ。</p></li> <li><p><strong>スキーマ検証</strong>: <code>jq</code> 内で <code>select(has("target_key"))</code> を使い、予期せぬ構造のデータが混入しても処理を継続または安全にスキップさせる。</p></li> </ol>

{ “category”: “SRE_DEVOPS_TIPS”, “topic”: “JQ_ADVANCED_AGGREGATION”, “tools”: [“jq”, “bash”, “curl”], “version”: “1.0.0” }

本記事はGeminiの出力をプロンプト工学で整理した業務ドラフト（未検証）です。

jqを駆使したJSONログの高度な集計：group_byとreduceによる分析自動化

【導入と前提】
【処理フローと設計】
【実装：堅牢な自動化スクリプト】
【検証と運用】
1. 正常系の確認
2. ログ確認と監視
【トラブルシューティングと落とし穴】
【まとめ】
1. 共有:
2. いいね:

【導入と前提】

APIレスポンスやログのJSON配列を特定キーでグループ化・統計処理し、システム状態の可視化を自動化・堅牢化します。

OS: 汎用Linux (Ubuntu/RHEL等)
ツール: jq 1.6以上, curl 7.0以上
前提: 構造化されたJSON配列データ（例：クラウドのメトリクスやCIビルド履歴）の存在。

【処理フローと設計】

graph TD
A["JSON Input"] --> B["Map/Filter: 前処理"]
B --> C{"Aggregation Logic"}
C --> D["group_by: キーによる群構造化"]
C --> E["reduce: 累積・ハッシュ変換"]
D --> F["Summary Output"]
E --> F

前処理: 不要なフィールドを除去し、メモリ消費を抑えます。
group_by: 配列を特定のキーでソート・分割し、階層構造を作ります。
reduce: 配列を走査しながらオブジェクト（連想配列）を構築し、計算量を最適化します。

【実装：堅牢な自動化スクリプト】

#!/usr/bin/env bash

# --- 実行時エラー制御 ---

set -euo pipefail
IFS=$'\n\t'

# 一時ファイル管理

TMP_DATA=$(mktemp /tmp/api_response.XXXXXX.json)
trap 'rm -f "$TMP_DATA"' EXIT # スクリプト終了時に必ず削除

# --- 設定・ターゲット ---


# 例: GitHub APIから特定リポジトリのイベントを取得（ダミー）

API_URL="https://api.github.com/repos/stedolan/jq/events"

echo "INFO: データの取得中..."

# curlの堅牢な実行


# -s: 進捗非表示, -S: エラー表示, -L: リダイレクト追従, --retry: 失敗時再試行

if ! curl -sSL --retry 3 "$API_URL" -o "$TMP_DATA"; then
    echo "ERROR: データの取得に失敗しました。" >&2
    exit 1
fi

echo "INFO: 集計の実行 (group_by & reduce)..."

# --- 高度なjq処理 ---


# 1. group_by を使ったイベントタイプ別カウント


# 2. reduce を使ったメモリ効率の良い集計

cat "$TMP_DATA" | jq -r '

  # 処理1: イベントタイプでグループ化してカウント

  group_by(.type) | map({
    type: .[0].type,
    count: length
  }) | 

  # 処理2: reduce を使い、特定ユーザーのアクション数をハッシュ化

  (reduce .[] as $item ({}; .[$item.type] = $item.count)) as $summary |

  # 最終的な構造化出力

  {
    generated_at: (now | strflocaltime("%Y-%m-%d %H:%M:%S")),
    event_summary: $summary,
    top_event: (group_by(.type) | sort_by(length) | last | .[0].type)
  }
'

【検証と運用】

正常系の確認

スクリプトを実行し、標準出力に構造化されたJSONが返ってくることを確認します。

bash aggregate_logs.sh

ログ確認と監視

cronやsystemd timerで運用する場合、標準エラー出力を logger または journalctl に飛ばします。

# systemd ユニットでの確認例

journalctl -u my-jq-aggregator.service --since "1 hour ago"

【トラブルシューティングと落とし穴】

メモリ制限とgroup_by:
- group_by は内部でデータをソートするため、巨大なJSONファイル（数GB）ではメモリを大量に消費します。その場合は、jq -c で一行ずつ reduce を使ってストリーム処理することを検討してください。
型変換エラー:
- JSON内の数値が文字列として渡される場合、tonumber を忘れると集計（add 等）で実行時エラーが発生します。
機密情報:
- curl でトークンを渡す際は、set -x（デバッグモード）を無効化するか、環境変数を直接出力しないように注意してください。

【まとめ】

運用の冪等性を維持するための3つのポイント：

入力データの不変性: 元データを加工せず、パイプラインの最終段で整形する。
アトミックな書き出し: 集計結果をファイルに保存する場合、一時ファイルに書き出してから mv することで中途半端な状態を防ぐ。
スキーマ検証: jq 内で select(has("target_key")) を使い、予期せぬ構造のデータが混入しても処理を継続または安全にスキップさせる。

ライセンス：本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL（本ページ）を明記してください。
利用ポリシーもご参照ください。