🧠 rl-lab 強化学習ラボ

環境 × エージェントを選んで学習を回し、報酬曲線をライブ観測 → 学習後の方策と価値を可視化。 学習エンジンは共有コア common/shared/rl(numpy のみ)。imitation-drive と同じ NN を再利用しています。

📈 報酬曲線 (learning curve)

エピソード報酬 移動平均(20) ε (探索率)

🗺️ 学習後の方策・価値 (policy & value)

学習が完了するとここに方策(矢印)と状態価値、または行動マップが表示されます。

📖 RL の基礎

Q 学習
状態×行動の価値 Q(s,a) を「報酬 + 次状態の最良 Q」へ近づける。TabularQ は表で、DQN はニューラルネットで Q を近似。
探索と活用
ε-greedy: 確率 ε でランダム行動(探索)、残りは greedy(活用)。ε を徐々に下げて収束させる。
DQN の安定化
replay buffer(経験の再利用)+ target network(教師の固定)で、ニューラル Q 学習の発散を防ぐ。
方策と価値
方策 π は各状態で取る行動、価値 V=max_a Q は「そこからの期待報酬」。GridWorld では矢印=方策、色=価値。