行为准则

假设现在我们处于写作业的状态而且我们以前并没有尝试过写作业时看电视, 所以现在我们有两种选择 , 1, 继续写作业, 2, 跑去看电视. 因为以前没有被罚过, 所以我选看电视, 然后现在的状态变成了看电视, 我又选了 继续看电视, 接着我还是看电视, 最后爸妈回家, 发现我没写完作业就去看电视了, 狠狠地惩罚了我一次, 我也深刻地记下了这一次经历, 并在我的脑海中将 “没写完作业就看电视” 这种行为更改为负面行为, Q learning 根据很多这样的经历是如何来决策的吧.

Q-Learning 决策

假设我们的行为准则已经学习好了,现在处于状态s1,我在写作业,有两个行为a1,a2,分别是看电视和写作业,根据经验,在这种s1状态下,a2写作业带来的潜在奖励要比a1看电视高,这里的潜在奖励我们可以用一个有关于s和a的Q表格代替,在我的记忆Q表格中,Q(s1,a1)=-2要小于Q(s1,a2)=1,所以我们判断要选择a2作为下一个行为。现在我们的状态更新成s2,我们还是有两个同样的选择,重复上面的过程,在行为准则Q表中寻找Q(s2,a1) Q(s2,a2)的值,并比较他们的大小,选取较大的一个.接着根据a2我们到达s3并重复上面的决策过程.Q learning 的方法就是这样决策的

Q-Learning 更新

回到之前的流程,根据Q表的估计,因为在s1中,a2的值比较大,通过之前的决策方法