AI学习笔记——Sarsa算法

  • 时间:
  • 浏览:0

还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏,只是 的到+1的奖励,只是 掉进黑色陷阱就回的到-1的奖励(惩罚)。

Q learning 和 Sarsa有的是单步更新的算法。单步跟新的算法缺点只是在越来越找到宝藏只是,机器人在原地打转的哪些地方地方行动也被记录在案,并更新了Q表,即便哪些地方地方行动有的是越来越意义的。

注意,该算法与Sarsa 算法不同的地方只是多乘了有一4个E(s, a) (Eligibility Trace"不可或缺性值"),而这名 E(s, a)又同時 受γ和λ调控。只是 在更新Q表的只是,不仅仅是更新有一4个Q(S,A),只是整个Q表所有的Q值都被更新了。

在Sarsa算法中,机器人的目标是

除了其目标Q值与Q learning 有所不同之外,很多很多的有的是一模一样的。

R(S1) + γ*Q(S1,A)

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言只是 访问我的Steemit主页

至于A是十几块 ,全版取决于机器人实际上选着的哪有一4个Action。机器人有90%的概率会选着Q值最大的Action(A2),还有10%的概率会随机选着有一4个Action。

很多很多Sarsa是在线学习(On Policy)的算法,只是 他是在行动中学习的,使用了两次greedy最好的土办法来选着出了Q(S,A)和q(S',A')。而Q learning离线学习(Off Policy)的算法,QLearning选着Q(S,A)用了greedy最好的土办法,而计算A(S',A')时用的是max最好的土办法,而真正选着的只是又不总要选着max的行动。

在Q Learning 算法中,当机器人地处S0的具体情况时,它的目标Q值是:

R(S1) + γ*maxa Q(S1,a)。此时他还在S0的位置上,只是 只是 在计算S1上的最大Q值了。只是 此时它并越来越行动,只是总要在S1采取Q值最大Q(S1, A2)的行动。只是 大家 儿提到,它还有10%的概率随机选着很多很多的行动 (ε贪婪最好的土办法(ε -Greedy method))。

上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍有一4个与Q-Learning十分相似的算法——Sarsa算法。

很多很多,Sarsa的算法是只是的。

Q learning 通过Max的函数,一4个劲在寻找能最快获得宝藏的道路,很多很多他比较勇敢。而Sarsa 却相对谨慎。

Lambda(λ)这名 衰减系数的引入,只是为了处理这名 间题的。与γ用来衰减未来预期Q的值一样,λ是当机器人获得宝藏只是,在更新Q表的只是,给机器人有一4个回头看只是走过的路程的只是 。相当于,机器人每走一步就会在地上插一杆旗子,只是 机器人每走一步旗子就会变小很多很多。

Sarsa-lambda 的全版算法在这里:

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

首先回顾一下Q表如下