什么是机器学习 What Is ML

一句话定义

机器学习是在给定数据与假设空间下，通过优化目标函数学习可泛化的参数或规则的过程。

问题设定

输入：数据集 $\mathcal{D} = {(x_i, y_i)}{i=1}^n$ 或仅 ${x_i}{i=1}^n$。
输出：模型参数 $\theta$ 或决策函数 $f_\theta$。
假设：样本来自未知分布 $P(x,y)$ 或 $P(x)$；训练与测试分布一致或可校正。
边界：不处理无数据可学或目标不可识别的任务。

数学表述

监督学习常用经验风险最小化（ERM）： \(\min_{\theta} \; \frac{1}{n} \sum_{i=1}^n \ell(f_\theta(x_i), y_i) + \lambda \Omega(\theta)\) 其中 $\ell$ 为损失函数，$\Omega$ 为正则项。

算法解释

通过优化目标函数选择参数，使训练误差与模型复杂度取得平衡。
学习结果依赖于假设空间、损失函数与优化器。

优化与实现细节

目标来源：ERM 或 MLE/MAP。
求解器：梯度法、二阶法或闭式解（若存在）。
复杂度：与样本数 $n$、特征维度 $d$、模型结构相关。
数值要点：特征缩放、正则化与稳定的损失实现。

关联与边界

对比统计建模：ML 更关注预测与泛化。
对比优化：ML 目标函数含统计假设与泛化要求。
边界：若训练分布与部署分布漂移严重，泛化失效。

失败模式

训练/测试分布不一致（distribution shift）。
过拟合或欠拟合。
数据噪声或标注错误导致偏差。

最小伪代码

Input: dataset D, model f_theta, loss l
Initialize theta
Repeat:
  Compute gradients of loss
  Update theta
Return theta

决策清单

数据分布与部署分布一致或可校正
目标函数与业务指标一致
过拟合风险可控

个人备注

TODO