「動物は何を報酬として行動しているのか」が逆強化学習で明らかになる

f:id:ekanoh:20180710014836p:plain www.kyoto-u.ac.jp

一般に強化学習というと、

  • どの状況でどれくらい報酬を得られるのかはあらかじめ決められており、試⾏錯誤によって得られる報酬を最⼤化する⾏動戦略を⾒つけ出す

機械学習のモデルであるが、強化学習は

  • 動物はすでに最適な⾏動戦略を獲得しているとして、計測された⾏動時系列データから未知の報酬を推定する

モデルである。

素人ながらざっくり解釈すると、

  • 線虫の行動戦略は逆強化学習のモデルで説明可能
    1. 知覚(状態のインプット)
    2. 行動(確率的)
    3. 報酬

というのがfindingsということになりそうだ。

私的には、付随的に明らかになっている

  • 育った環境で行動戦略が確定する
    • 初期値に依存

ということが面白いと感じた。

果たして行動戦略が確定する(※)までどれくらいの期間を要するのか気になるが、 ヒトの教育方法・成長過程は強化学習どれだけモデル化できるのか気になるところである。

(※)モデルの係数が何らかの解に収束する