Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的()运算来更新Q值

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页