Q值的目标值中的max操作会产生过估计,从而影响找到最佳策略;DoubleDQN可以减小偏差

  尔雅 智慧树 mooc


+
账户
更新
搜索
帮助
主页