出售本站【域名】【外链】

强化学习(一)案例grid world

文章正文
发布时间:2024-09-07 21:44

每个单元格的形态价值如下图所示 从每个单元格最劣价值表中可以看出,越挨近最末形态的单元格,其价值越大。那是因为除非达到最末形态,不然所有的形态扭转的返回值都是 -1。从那个表中,也可以看出agent该往哪一个标的目的走,只有相邻单元格的价值大于agent所正在的单元格,就可以挪动。举例来说,假设agent正在(1,1)处,它可以往上走,往右走,因为(0,1),(1,0)处的单元格价值都大于(1,1)处。......