Blog

Reinforcement Learning: Investigating Gradient Stability in Policy Based Methods

How does the gradient stability differ between REINFORCE, G(PO)MDP, G(PO)MDP+ whitening during policy learning?

Bella Nicholson, Bob Borsboom, Tim Van Loenhout, Jochem Hölscher

Oct 13, 2020 18 min read

Reinforcement Learning: Investigating Gradient Stability in Policy Based Methods