评估指标 Evaluation Metrics

一句话定义

评估指标将模型输出映射为可比较的量化分数，必须与任务目标一致。

问题设定

输入：预测 $\hat{y}$ 与真实标签 $y$。
输出：标量评分或指标集合。
假设：评价标准与业务目标一致。
边界：不匹配指标会误导模型选择。

数学表述

回归：$\text{MSE} = \frac{1}{n} \sum_i (y_i - \hat{y}_i)^2$。
分类：准确率 $\frac{1}{n} \sum_i \mathbf{1}(y_i=\hat{y}_i)$，或 F1、AUC。

算法解释

不同指标对应不同权衡（精度/召回/风险）。
指标选择影响模型调优方向。

优化与实现细节

目标来源：统计误差或业务损失。
选择：不平衡数据优先 F1/AUC。
数值要点：阈值选择与校准。

关联与边界

与损失函数相关但不等同。
边界：优化指标与评估指标不一致会导致错配。

失败模式

仅用准确率忽略不平衡。
过度调参导致指标过拟合。

最小伪代码

Input: y_true, y_pred
Compute metric by task
Report with confidence interval if possible

决策清单

指标与业务目标一致
不平衡时使用合适指标
指标稳定性验证

个人备注

TODO