rl-lab — 強化学習ラボ

環境 (Environment)

エージェント (Agent)

エピソード数

📈 報酬曲線 (learning curve)

エピソード報酬移動平均(20) ε (探索率)

学習が完了するとここに方策（矢印）と状態価値、または行動マップが表示されます。

Q 学習
状態×行動の価値 Q(s,a) を「報酬 + 次状態の最良 Q」へ近づける。TabularQ は表で、DQN はニューラルネットで Q を近似。

探索と活用
ε-greedy: 確率 ε でランダム行動（探索）、残りは greedy（活用）。ε を徐々に下げて収束させる。

DQN の安定化
replay buffer（経験の再利用）+ target network（教師の固定）で、ニューラル Q 学習の発散を防ぐ。

方策と価値
方策 π は各状態で取る行動、価値 V=max_a Q は「そこからの期待報酬」。GridWorld では矢印＝方策、色＝価値。