一句话定义

部署考量关注模型在生产环境中的延迟、吞吐、稳定性与可维护性。

问题设定

  • 输入:模型与生产系统约束。
  • 输出:部署策略与性能指标。
  • 假设:线上环境与训练环境存在差异。
  • 边界:无法通过算法优化解决系统瓶颈。

数学表述

延迟约束: \(\text{latency} \le L_{max}\)

算法解释

  • 需权衡精度与效率。
  • 量化/剪枝/蒸馏常用。

优化与实现细节

  • 数值要点:模型压缩与硬件加速。

关联与边界

  • 与系统架构、硬件性能强相关。
  • 边界:线上监控不可或缺。

失败模式

  • 训练-部署分布差异导致性能下降。
  • 性能回退未被监控发现。

最小伪代码

Measure latency/throughput
Apply compression if needed
Monitor online metrics

决策清单

  • 延迟/吞吐满足要求
  • 线上监控完善
  • 回滚策略明确

个人备注

TODO