密泰传动系统
推荐 0
浏览 212
RL(一)——马尔科夫决策过程
强化学习的应用领域之多相信大家都有所听闻,无论是机器人控制领域、优化管理、金融领域、通信等都有涉及,印象最深应该就是今年的围棋比赛了吧,其中使用了深度强化学习。今天来讲讲强化学习中的最基本原理——马尔科夫决策过程,以下简称MDP。前面在DP算法中有提到,DP算法可以理解为由状态、策略、转移函数三部分组成(详见:我对
Template error, template file not found
推荐 0
浏览 212