一句话定义

探索与利用平衡未知环境中的试探行为与已知高回报行为。

问题设定

  • 输入:环境与策略更新规则。
  • 输出:平衡策略。
  • 假设:环境回报可估计。
  • 边界:纯利用易陷局部最优,纯探索低效。

数学表述

$\epsilon$-greedy: \(\pi(a\mid s) = \begin{cases} \text{random} & \text{with prob } \epsilon \\ \arg\max_a Q(s,a) & \text{otherwise} \end{cases}\)

算法解释

  • 引入随机性避免陷入局部最优。

优化与实现细节

  • 数值要点:$\epsilon$ 可随时间衰减。

关联与边界

  • 与 bandit 问题相通。
  • 边界:连续动作需噪声策略。

失败模式

  • 探索不足导致策略停滞。
  • 探索过多导致收敛慢。

最小伪代码

With prob epsilon choose random action
Otherwise choose greedy action

决策清单

  • 探索策略与任务匹配
  • 探索强度随时间调整
  • 评估探索收益

个人备注

TODO