偏差-方差 Bias Variance
一句话定义
偏差-方差分解描述模型误差由系统性偏差与随机性方差共同构成。
问题设定
- 输入:训练集与测试集。
- 输出:泛化误差分解。
- 假设:误差平方可分解,通常在回归与平方损失下成立。
- 边界:不适用于所有损失或任务。
数学表述
对回归问题,期望误差分解: \(\mathbb{E}[(y-\hat{f}(x))^2] = \text{Bias}^2 + \text{Variance} + \sigma^2\) 其中 $\sigma^2$ 为不可约噪声。
算法解释
- 高偏差:模型过于简单,欠拟合。
- 高方差:模型过复杂,过拟合。
优化与实现细节
- 目标来源:平方误差分解。
- 手段:正则化降低方差;提升模型容量降低偏差。
- 数值要点:需要交叉验证评估平衡点。
关联与边界
- 与泛化误差、正则化、模型选择直接相关。
- 边界:分类任务常用替代分析。
失败模式
- 数据量不足导致方差过高。
- 模型过简导致偏差过高。
最小伪代码
Input: models with different capacity
Train each model
Compare train vs validation error
Select bias-variance tradeoff point
决策清单
- 训练误差与验证误差差距评估
- 正则化强度已调节
- 数据量是否足够
个人备注
TODO