探索与利用 Exploration Exploitation

一句话定义

探索与利用平衡未知环境中的试探行为与已知高回报行为。

问题设定

输入：环境与策略更新规则。
输出：平衡策略。
假设：环境回报可估计。
边界：纯利用易陷局部最优，纯探索低效。

数学表述

$\epsilon$-greedy： \(\pi(a\mid s) = \begin{cases} \text{random} & \text{with prob } \epsilon \\ \arg\max_a Q(s,a) & \text{otherwise} \end{cases}\)

算法解释

引入随机性避免陷入局部最优。

优化与实现细节

数值要点：$\epsilon$ 可随时间衰减。

关联与边界

与 bandit 问题相通。
边界：连续动作需噪声策略。

失败模式

探索不足导致策略停滞。
探索过多导致收敛慢。

最小伪代码

With prob epsilon choose random action
Otherwise choose greedy action

决策清单

探索策略与任务匹配
探索强度随时间调整
评估探索收益

个人备注

TODO