部署考量 Deployment Considerations
一句话定义
部署考量关注模型在生产环境中的延迟、吞吐、稳定性与可维护性。
问题设定
- 输入:模型与生产系统约束。
- 输出:部署策略与性能指标。
- 假设:线上环境与训练环境存在差异。
- 边界:无法通过算法优化解决系统瓶颈。
数学表述
延迟约束: \(\text{latency} \le L_{max}\)
算法解释
- 需权衡精度与效率。
- 量化/剪枝/蒸馏常用。
优化与实现细节
- 数值要点:模型压缩与硬件加速。
关联与边界
- 与系统架构、硬件性能强相关。
- 边界:线上监控不可或缺。
失败模式
- 训练-部署分布差异导致性能下降。
- 性能回退未被监控发现。
最小伪代码
Measure latency/throughput
Apply compression if needed
Monitor online metrics
决策清单
- 延迟/吞吐满足要求
- 线上监控完善
- 回滚策略明确
个人备注
TODO