Skip to main content
Agent Planning with World Knowledge Model

Agent Planning with World Knowledge Model

Basic Information

  • 2024/05/13 發布 (尚未正式於 Conf. 發表)
  • Shuofei Qiao, Runnan Fang, Ningyu Zhang et al. @ Zhejiang University, National University of Singapore, Alibaba Group

問題描述

近年來大型語言模型(LLM)在許多自然語言處理的問題有很快速的成長,而近期開始出現一些使用 LLM 作為 agent model 來處理物理環境中的規劃問題。然而由於當前 SOTA 的 LLM 幾乎都是 autoregressive model,模型實際上會做的事情是去預測下一個 output token 要是什麼,實際上他們對於物理環境是沒有任何理解的。


About 20 minNotePaper ReadReinforcement LearningLLM
Agent57: Outperforming the Atari Human Benchmark

Agent57: Outperforming the Atari Human Benchmark

Basic Information

  • Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, et al. @ Google DeepMind
  • 2020 ICML

問題描述

在 RL 當中,Atari games 是一個相當重要的 benchmark。過去的 RL 模型已經能夠在大多的 atari games 當中獲得相當不錯的 performance,例如 MuZero、R2D2,分別在 57 個遊戲當中有 51 和 52 個遊戲是 outperform 人類的。不過可惜的是,在剩下的遊戲當中這些 SoTA 就通常完全沒辦法學習。


KoiosAbout 20 minNotePaper ReadReinforcement LearningICML
Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning

Basic Information

  • 2013 NeurIPS
  • Volodymyr Mnih, Koray Kavukcuoglu David Silver et al.
  • 這個論文提出的做法稱為 DQN(Deep Q-Networks)

問題描述

過去在 RL 領域當中把一些 high-dimensional 的感官資料(如:視覺影像、語音資料等)作為 agent 的輸入去學習一直是一個很大的挑戰。然而我們也看到近幾年 Deep Learning 已經能夠在這種資料上去擷取特徵,進而去完成許多複雜的任務。


KoiosAbout 6 minNotePaper ReadReinforcement LearningNeurIPS
Noisy Networks for Exploration

Noisy Networks for Exploration

Basic Information

  • 2018 ICLR
  • Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, et al. @ Google Deepmind

問題描述

在過去的 RL 當中我們往往仰賴對 agent 的 policy 增加 randomness 去增加 exploration,例如 ϵ-greedyentropy regularization 等。不過這樣的做法往往只能在較於簡單的環境當中有比較有效率的探索,然而在現實狀況下往往並不會如此簡單,而這種探索的困難度甚至是指數性地成長。


KoiosAbout 13 minNotePaper ReadReinforcement LearningICLR