Noisy Networks for Exploration
Basic Information
- 2018 ICLR
- Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, et al. @ Google Deepmind
問題描述
在過去的 RL 當中我們往往仰賴對 agent 的 policy 增加 randomness 去增加 exploration,例如 ϵ-greedy
和 entropy regularization
等。不過這樣的做法往往只能在較於簡單的環境當中有比較有效率的探索,然而在現實狀況下往往並不會如此簡單,而這種探索的困難度甚至是指數性地成長。
About 13 min