出售本站【域名】【外链】

MATLAB强化学习实战(一) 强化学习智能体训练总览

文章正文
发布时间:2024-07-03 03:18

Q-learning算法是强化进修算法中的一种,该算法次要包孕:Agent、形态、止动、环境、回报和处罚。Q-learning算法通过呆板人取环境不停地替换信息,来真现自我进修。Q-learning算法中的Q表是呆板人取环境交互后的结果,因而正在Q-learning算法中更新Q表便是呆板人取环境的交互历程。呆板人正在当前形态s(t)下,选择止动a,通过环境的做用,造成新的形态s(t+1),并孕育发作回报或处罚r(t+1)。