强化学习的几个关键词

下面是强化学习各个环节的“角色”,在程序中一般也是这样命名相关变量的:

  • agent,智能体,游戏中的玩家。
  • env,环境,或者系统环境(System Environment)。
  • observation,观察值(从agent的角度观察env获得的env的变化),又叫环境的状态(反映了env的变化过程)。从设计角度看,环境的状态不会全部被agent观测到,但是在强化学习中,一般是从agent的角度看待问题,即agent能够观测到的环境的状态就是observation,一般的等同于env的状态(status)。
  • action,当agent观察到env的状态发生变化时所采取的行动。
  • reward,环境对agent的action的反馈或者回报(奖励)。

强化学习适合解决什么样的问题?

强化学习天然带有“序列”的成分(s~1, a~1, s~2, a~2,…, s~k, a~k),因此更适合解决序列(时间等)等相关的问题,比如语言、语音等?有待求证。

强化学习中的reward function

其实就是cost function在强化学习中的叫法而已,只不过符号相反,即: \(reward function = -cost function\)

参考教程(资料)