差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン 前のリビジョン | |||
markov_decision_process [2018/12/17 09:01] watalu [4つの変数] |
markov_decision_process [2019/01/07 07:52] (現在) watalu [まとめ] |
||
---|---|---|---|
行 378: | 行 378: | ||
この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | ||
+ | == 要検討課題 == | ||
+ | |||
+ | 価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか? | ||
==== Rでマルコフ決定過程の計算を行う ==== | ==== Rでマルコフ決定過程の計算を行う ==== | ||