📈 報酬曲線 (learning curve)
エピソード報酬
移動平均(20)
ε (探索率)
🗺️ 学習後の方策・価値 (policy & value)
学習が完了するとここに方策(矢印)と状態価値、または行動マップが表示されます。
📖 RL の基礎
Q 学習
状態×行動の価値 Q(s,a) を「報酬 + 次状態の最良 Q」へ近づける。TabularQ は表で、DQN はニューラルネットで Q を近似。
状態×行動の価値 Q(s,a) を「報酬 + 次状態の最良 Q」へ近づける。TabularQ は表で、DQN はニューラルネットで Q を近似。
探索と活用
ε-greedy: 確率 ε でランダム行動(探索)、残りは greedy(活用)。ε を徐々に下げて収束させる。
ε-greedy: 確率 ε でランダム行動(探索)、残りは greedy(活用)。ε を徐々に下げて収束させる。
DQN の安定化
replay buffer(経験の再利用)+ target network(教師の固定)で、ニューラル Q 学習の発散を防ぐ。
replay buffer(経験の再利用)+ target network(教師の固定)で、ニューラル Q 学習の発散を防ぐ。
方策と価値
方策 π は各状態で取る行動、価値 V=max_a Q は「そこからの期待報酬」。GridWorld では矢印=方策、色=価値。
方策 π は各状態で取る行動、価値 V=max_a Q は「そこからの期待報酬」。GridWorld では矢印=方策、色=価値。