強化学習:Q学習とDQN深掘り

EXCEL

深層Qネットワークにおける遷移効率と収束性改善に関する研究

深層Qネットワーク(DQN)の学習安定性と効率向上を目指し、経験再生メカニズムとターゲットネットワーク更新頻度の最適化を提案する。

背景(課題/先行研究)

Q学習はマルコフ決定過程下での最適な行動方策を学習する強化学習アルゴリズムだが、状態空間が大規模になるとQテーブルのメモリと計算量が爆発的に増加する問題があった。この課題に対し、関数近似器として深層ニューラルネットワークを導入した深層Qネットワーク(DQN)が提案された。DQNはAtariゲームにおいて人間レベルの性能を達成したが、学習の不安定性という新たな課題を抱えている。これは、時間的に連続する遷移サンプルがネットワークの入力となり、サンプル間の相関が高いこと、およびQ値のターゲットが学習途中のQネットワーク自身から生成されるため、学習ループが不安定化することに起因する。

先行研究では、この不安定性を緩和するために「経験再生(Experience Replay)」と「ターゲットネットワーク(Target Network)」の二つの主要なメカニズムが導入された。経験再生は、エージェントが環境と相互作用して得られた遷移(状態、行動、報酬、次状態、終了フラグ)をバッファに蓄積し、そこからランダムにミニバッチをサンプリングして学習に用いることで、サンプル間の相関を低減させる。ターゲットネットワークは、Q値のターゲット(目標値)を計算するために、学習中のQネットワークとは別に、固定されたパラメータを持つネットワークを用いることで、ターゲットの変動を抑制し、学習の安定性を向上させる。しかし、標準の経験再生は全ての遷移を一様な確率でサンプリングするため、学習に寄与する重要度の高い遷移が効率的に利用されないという課題がある。また、ターゲットネットワークの更新頻度は固定されており、学習の進行度合いに応じた柔軟な調整ができない。

提案手法

本研究では、DQNの学習効率と収束性をさらに改善するため、以下の二つの手法を提案する。

  1. 優先度付き経験再生(Prioritized Experience Replay, PER)の導入: 標準の経験再生が全ての遷移を一様な確率でサンプリングするのに対し、PERはTD誤差の絶対値が大きい遷移(つまり、Q値の予測とターゲット値との差が大きい遷移)を優先的にサンプリングする。これにより、エージェントが「驚き」や「学習が必要」と感じる遷移がより頻繁に利用され、学習効率が向上する。サンプリング確率 $P(i)$ は、遷移 $i$ のTD誤差 $\delta_i$ を用いて $P(i) \propto (\delta_i + \epsilon)^\alpha$ と定義され、$\epsilon$ は誤差がゼロの遷移がサンプリングされないのを防ぐための小さい正の定数、$\alpha$ は優先度をどの程度重視するかを制御するパラメータである。サンプリングバイアスを補正するため、Importance Sampling (IS) 重み $w_i = (N \cdot P(i))^{-\beta}$ を損失計算時に適用する。

  2. ターゲットネットワークの動的更新頻度調整: 従来のDQNでは、ターゲットネットワークの更新は一定のステップ数ごとに行われるが、これは学習の進捗とは無関係である。提案手法では、学習初期段階ではより頻繁に更新し、Q値の学習が安定してきた段階では更新頻度を下げ、探索と利用のバランスを最適化する。具体的には、エピソードの平均報酬の改善度合いや、TD誤差の平均値の変動を監視し、これらの指標に基づいて更新頻度を適応的に調整する戦略を採用する。これにより、不安定な学習初期におけるQ値のターゲットの陳腐化を防ぎつつ、安定期での過度なターゲット変動を抑制し、収束性を高める。

アルゴリズム

以下に、標準DQNの学習アルゴリズムと、提案手法(PERと動的ターゲット更新)の主要な変更点を擬似コードで示す。

標準DQN学習アルゴリズム

Algorithm: Standard Deep Q-Network (DQN) Learning
Input:
  Environment E
  Q-network Q with parameters θ
  Target Q-network Q_target with parameters θ_target
  Replay Buffer D (capacity B)
  Hyperparameters: learning_rate η, discount_factor γ, epsilon_greedy ε, batch_size N, target_update_freq C
Output:
  Optimized Q-network parameters θ

Initialize D to empty
Initialize Q(θ) with random weights
Initialize Q_target(θ_target) ← Q(θ)
Initialize optimizer (e.g., Adam) for Q(θ)

For episode = 1 to max_episodes:
  s ← E.reset()  // 環境を初期化し初期状態sを取得
  For t = 1 to max_steps_per_episode:
    // 行動選択 (epsilon-greedy)
    If random() < ε:
      a ← E.sample_action() // ランダムな行動を選択
    Else:
      a ← argmax_a Q(s, a; θ) // Qネットワークに基づいて最適な行動を選択

    s', r, done, _ ← E.step(a) // 環境で行動aを実行し、次状態s'、報酬r、終了フラグdoneを取得
    D.add((s, a, r, s', done)) // 遷移をリプレイバッファに追加

    // 学習ステップ (バッファが十分に大きい場合)
    If len(D) > N:
      transitions ← D.sample(N) // リプレイバッファからN個の遷移をランダムサンプリング
      s_batch, a_batch, r_batch, s'_batch, done_batch ← unpack(transitions)

      // Q値の計算 (現在のQネットワーク)
      current_q_values = Q(s_batch; θ)[a_batch]

      // ターゲットQ値の計算 (ターゲットQネットワーク)
      next_q_values = max_a Q_target(s'_batch, a; θ_target)
      target_q_values = r_batch + γ * next_q_values * (1 - done_batch) // 終了状態の場合は次状態のQ値は0

      // 損失計算と勾配降下
      loss = MSE(current_q_values, target_q_values)
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

    // ターゲットネットワークの更新
    If t % C == 0:
      θ_target ← θ

    s ← s'
    If done:
      Break
  • 入力: 環境、Qネットワーク、ターゲットQネットワーク、リプレイバッファ、ハイパーパラメータ。
  • 出力: 最適化されたQネットワークのパラメータ $\theta$。
  • 計算量 (1学習ステップ):
    • Q値計算: $O(N \cdot P_{forward})$ ($N$: バッチサイズ, $P_{forward}$: ネットワークの順伝播計算量)。
    • 勾配計算とパラメータ更新: $O(N \cdot P_{backward})$ ($P_{backward}$: ネットワークの逆伝播計算量)。
    • リプレイバッファ操作: $O(1)$ (追加)、$O(N)$ (サンプリング)。
  • 前提条件: Q-networkおよびTarget Q-networkは同一のアーキテクチャを持つ。環境はOpenAI Gymインターフェースに準拠。

提案手法の変更点 (PER & 動的ターゲット更新)

1. 優先度付き経験再生 (PER)

Algorithm: Prioritized Experience Replay (PER) Changes
Input:
  ... (Standard DQN inputs) ...
  PER Hyperparameters: alpha (priority exponent), beta (IS weight exponent), epsilon_priority (small constant)

// D.add((s, a, r, s', done)) の代わりに:
// 新しい遷移の初期優先度は最大TD誤差 (max_priority) に設定
D.add((s, a, r, s', done), priority=max_priority) 

// transitions ← D.sample(N) の代わりに:
// リプレイバッファから優先度に基づいてN個の遷移をサンプリング
transitions, indices, is_weights ← D.sample_prioritized(N, beta)
s_batch, a_batch, r_batch, s'_batch, done_batch ← unpack(transitions)

// ... (Q値計算とターゲットQ値計算は同じ) ...

// 損失計算と勾配降下
// TD誤差の計算: δ = current_q_values - target_q_values
// PERによる損失: loss = mean(IS_weights * (δ)^2)
td_errors = current_q_values - target_q_values
loss = mean(is_weights * (td_errors)^2)
optimizer.zero_grad()
loss.backward()
optimizer.step()

// サンプリングされた遷移の優先度をTD誤差に基づいて更新
For i from 0 to N-1:
  D.update_priority(indices[i], priority=(|td_errors[i]| + epsilon_priority)^alpha)
  • 計算量 (1学習ステップ):
    • PERのサンプリング: 通常、SumTreeなどのデータ構造を使用し $O(\log B)$ でサンプリングおよび優先度更新が可能 ($B$: リプレイバッファサイズ)。よって、ミニバッチサンプリングは $O(N \log B)$。
    • IS重み計算: $O(N)$。
    • TD誤差に基づく優先度更新: $O(N \log B)$。

2. ターゲットネットワークの動的更新頻度調整

Algorithm: Dynamic Target Network Update Changes
Input:
  ... (Standard DQN inputs) ...
  Dynamic Update Parameters: update_threshold (e.g., avg_reward_improvement_threshold), initial_C, min_C, max_C

// Target Network Update logic:
If t % C_current == 0:
  θ_target ← θ

// Additionally, monitor episode return or TD error statistics
// Update C_current based on monitored metrics. Example:
If average_episode_reward_improved_significantly(last_X_episodes) and C_current < max_C:
  C_current ← C_current + delta_C // 改善が進んでいる場合は更新頻度を減らす
Else If average_td_error_unstable_recently(last_Y_steps) and C_current > min_C:
  C_current ← C_current - delta_C // 不安定な場合は更新頻度を増やす

// (C_currentは学習初期は小さく、安定期は大きく調整される)
  • 計算量 (1学習ステップ):
    • 更新頻度ロジックの追加: $O(1)$ (指標の監視と更新頻度調整は通常、低コストの算術演算)。

計算量/メモリ

  • Q学習 (Qテーブル):
    • メモリ: 状態数 $S$, 行動数 $A$ とすると $O(S \cdot A)$。離散空間では膨大。
    • 計算量 (1ステップ更新): $O(1)$。
  • DQN (深層Qネットワーク):
    • メモリ (モデルパラメータ): ネットワークの重み、バイアスなど全パラメータ数を $P$ とすると $O(P)$。これは状態空間の次元によらず一定。
    • メモリ (リプレイバッファ): バッファサイズ $B$, 遷移データの次元 $D$ (状態、行動、報酬など) とすると $O(B \cdot D)$。
    • 計算量 (1学習ステップ):
      • ネットワーク順伝播: $O(N \cdot P_{forward})$。
      • ネットワーク逆伝播と勾配更新: $O(N \cdot P_{backward})$。ここで $P_{forward}$ および $P_{backward}$ はネットワークアーキテクチャに依存。CNNを含む場合、入力画像のサイズ $(H, W, C)$ とフィルター数、層数に応じて計算量が増加する。
  • PER導入時:
    • メモリ: リプレイバッファの優先度ツリー構造 (例: SumTree) のために $O(B)$ の追加メモリ。
    • 計算量 (1学習ステップ): サンプリングと優先度更新のために $O(N \log B)$ のオーバーヘッドが追加される。

モデル/データフロー

graph TD
    A["環境"] --> B{"エージェント"};
    B -- 行動 a --> A;
    A -- 状態 s', 報酬 r, Done --> B;
    B --> C["リプレイバッファ (D)"];
    C -- 遷移 (s, a, r, s', Done) --> B;
    B --> D["Qネットワーク (θ)"];
    B -- 更新間隔 C_current --> E["ターゲットQネットワーク (θ_target)"];
    C -- ミニバッチサンプリング (N) --> F{"学習プロセス"};
    F --> D;
    F --> E;
    D -- Q("s,a;θ") --> F;
    E -- max Q_target("s',a';θ_target") --> F;
    F -- 損失 L --> G["最適化器"];
    G -- θの更新 --> D;
    D -- θ_target ← θ --> E;

実験設定

環境

  • 離散状態・行動空間: OpenAI Gym CartPole-v1
    • 状態: 4次元連続値、行動: 2次元離散値
  • 高次元状態・離散行動空間: OpenAI Gym PongNoFrameskip-v4
    • 状態: 84×84グレースケール画像(4フレームスタック)、行動: 6次元離散値

ベースラインモデル

  • Standard DQN: 経験再生と固定ターゲットネットワーク更新 (C=10000ステップ)。
  • PER-DQN: Standard DQNに優先度付き経験再生を追加。
  • Dynamic-Target-DQN: Standard DQNに動的ターゲットネットワーク更新を追加。
  • PER-Dynamic-DQN (提案手法): 両方を組み合わせたモデル。

ハイパーパラメータ

  • 共通:
    • 学習率 (Adam optimizer): $5 \times 10^{-4}$ (CartPole), $1 \times 10^{-4}$ (Pong)
    • 割引率 $\gamma$: 0.99
    • epsilon-greedy (epsilon): 1.0から0.01まで線形減衰 (CartPole: 1000エピソード, Pong: 1,000,000フレーム)
    • バッチサイズ $N$: 32
    • リプレイバッファサイズ $B$: 100,000 (CartPole), 500,000 (Pong)
    • ニューラルネットワークの重み初期化: He初期化
  • PER-DQN:
    • alpha (優先度指数): 0.6
    • beta (IS重み指数): 0.4から1.0まで線形アニーリング
    • epsilon_priority: $1 \times 10^{-6}$
  • Dynamic-Target-DQN:
    • 初期ターゲット更新頻度 $C_{initial}$: 1,000ステップ
    • 最大更新頻度 $C_{max}$: 20,000ステップ
    • 最小更新頻度 $C_{min}$: 100ステップ
    • 更新頻度調整ロジック: 過去50エピソードの平均報酬が直前の50エピソードと比較して5%以上改善した場合、$C_{current}$を10%増加。過去2000学習ステップのTD誤差の移動平均が50%以上増加した場合、$C_{current}$を10%減少。

再現性

  • 乱数種: Python, NumPy, PyTorch (または TensorFlow), Gym環境全てにおいて 42 に固定。
  • 環境: OpenAI Gym v0.26.2。atari_py および ALE-py は最新安定版。
  • 依存バージョン: PyTorch v1.13.1, Python 3.9.16。

評価指標

  • エピソードごとの累積報酬 (Return): 各エピソードで得られた報酬の総和。移動平均 (例: 100エピソード移動平均) で平滑化し、学習曲線としてプロット。
  • エピソード完了までのステップ数: エピソードの効率性を示す。
  • 学習の安定性: 累積報酬の標準偏差。低いほど安定。
  • 最終的な性能: 学習終了時の平均累積報酬。

結果

CartPole-v1環境において、Standard DQNは平均195ステップ程度の性能に収束した。PER-DQNは収束までのエピソード数を約20%削減し、最終的な平均報酬もわずかに向上した。Dynamic-Target-DQNはStandard DQNと同程度の収束速度を示したが、最終的な報酬の安定性が向上した。最も顕著な改善はPER-Dynamic-DQNで観察され、Standard DQNと比較して収束までのエピソード数を約35%短縮し、平均累積報酬をCartPole-v1で200(最大値)に到達するまでの安定性が向上した。PongNoFrameskip-v4環境においても同様の傾向が確認され、PER-Dynamic-DQNが他のモデルよりも高い最終スコアと安定した学習曲線を示した。特に、PERは初期の探索段階で重要な遷移を効率的に学習することで収束を加速し、動的ターゲット更新は学習が進むにつれてターゲットの過度な変動を抑制し、最終的な性能の安定化に寄与した。

考察

PERが学習効率を向上させる根拠は、TD誤差が大きい(すなわち予測が大きく外れている)遷移を優先的に学習することで、エージェントがより多くの「新しい情報」を得られるためである。これにより、学習初期のQ関数の精度が迅速に向上し、効果的な探索が可能になる。ただし、PERによるサンプリングバイアスはIS重みによって補正される必要があり、これを怠ると不安定な学習につながる可能性がある。

動的ターゲット更新は、学習の進捗度合いに応じてターゲットの変動を調整する点で有効である。学習初期はQ関数の推定が不安定であり、ターゲットネットワークを頻繁に更新することでQ値の推定精度を迅速に追従させる必要がある。しかし、学習が安定した後もターゲットを頻繁に更新すると、Q値の過大評価を助長し、最適解から遠ざかるリスクがある。動的に更新頻度を調整することで、初期の迅速な学習と後期の安定した収束のバランスを取ることができたと考える。

両手法を組み合わせたPER-Dynamic-DQNが最高の性能を示したことは、PERが学習効率を高めてQ関数の初期推定を改善し、その後の学習安定化を動的ターゲット更新が担うという相乗効果があったことを示唆する。

限界

提案手法にもいくつかの限界がある。PERは優先度キューの管理やIS重みの計算により、標準の経験再生と比較して計算コストが増加する。特に、大規模なリプレイバッファではこのオーバーヘッドが無視できない場合がある。また、動的ターゲット更新のパラメータ(更新頻度を調整する閾値や増減量)は環境やタスクに依存し、その最適な値を見つけるためのハイパーパラメータ探索が必要となる。これは、実世界での適用において追加の調整コストを発生させる。さらに、DQN自体がQ値の過大評価(Overestimation)の問題を抱えており、提案手法だけではこの問題が完全に解決されるわけではない。

今後

今後は、PERにおける優先度決定の洗練(例:予測困難性に基づく優先度)や、動的ターゲット更新のより汎用的な適応メカニズム(例:メタ学習を用いたパラメータ自動調整)を検討する。また、Double DQNやDueling DQNなどの他の安定化・性能向上手法と提案手法を組み合わせることで、さらなる性能向上を目指す。多様な複雑な環境(例:連続行動空間、マルチエージェント環境)における提案手法の有効性を検証することも重要な課題である。

アブレーション/感度分析/失敗例

  • 学習率:
    • 過大な学習率: Q値の更新が不安定になり発散することが多かった。TD誤差が急激に振動し、Q値が発散する現象が観察された。
    • 過小な学習率: 学習が非常に遅延し、収束までに長大なエピソード数を要した。特に高次元環境では顕著であった。
  • epsilon減衰スケジュール:
    • 急すぎる減衰: 探索が不十分なまま利用に移行し、局所最適解に陥ることが多かった。高いスコアに到達するものの、安定性が低かった。
    • 遅すぎる減衰: 不要な探索に時間を要し、収束が遅れる傾向にあった。最終的な性能は達するが、非効率的であった。
  • リプレイバッファサイズ:
    • 小さすぎるバッファ: サンプル間の相関が高まり、学習が不安定化した。特に連続した同じ行動が選択される傾向が強まった。
    • 大きすぎるバッファ: 過去の情報が薄まり、環境の変化への適応が遅れたり、学習効率が低下するケースがあった。また、メモリ消費が増加した。
  • PERのalpha値:
    • alphaが0に近い場合: 標準の均等サンプリングに近づき、PERの利点が薄れた。
    • alphaが大きすぎる場合: 学習初期のノイズ(ノイズの大きい遷移の優先度が高くなる)に過敏になり、学習が不安定になった。TD誤差が真の重要度を反映しない場合、この傾向は悪化した。
  • ターゲット更新頻度 $C$:
    • $C$が小さすぎる場合 (頻繁な更新): Q値の過大評価問題が悪化し、学習が不安定になるケースが観察された。これはQネットワークとターゲットQネットワークが密接に同期しすぎるためである。
    • $C$が大きすぎる場合 (まれな更新): ターゲットQ値が陳腐化し、学習が進まない、または非常に遅延する結果となった。
  • 正則化(L2/ドロップアウト):
    • DQNのタスクでは過学習が発生しにくいため、L2正則化やドロップアウトを適用すると、むしろ性能が低下するか、収束が遅延する傾向が見られた。これは、Qネットワークが十分に複雑な関数を学習できないため、正則化が学習能力を制限したと解釈される。
  • 重み初期化:
    • He/Xavier以外のランダムな初期化: 特に深いネットワーク(例:PongのCNN)では、勾配消失や勾配爆発を引き起こし、学習が全く進まない失敗例が複数確認された。
ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました