差分

このページの2つのバージョン間の差分を表示します。

この比較画面にリンクする

両方とも前のリビジョン 前のリビジョン
markov_decision_process [2018/12/17 09:01]
watalu [4つの変数]
markov_decision_process [2019/01/07 07:52] (現在)
watalu [まとめ]
行 378: 行 378:
 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。
  
 +== 要検討課題 ==
 +
 +価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか?
 ==== Rでマルコフ決定過程の計算を行う ==== ==== Rでマルコフ決定過程の計算を行う ====