什么是机器学习 What Is ML
一句话定义
机器学习是在给定数据与假设空间下,通过优化目标函数学习可泛化的参数或规则的过程。
问题设定
- 输入:数据集 $\mathcal{D} = {(x_i, y_i)}{i=1}^n$ 或仅 ${x_i}{i=1}^n$。
- 输出:模型参数 $\theta$ 或决策函数 $f_\theta$。
- 假设:样本来自未知分布 $P(x,y)$ 或 $P(x)$;训练与测试分布一致或可校正。
- 边界:不处理无数据可学或目标不可识别的任务。
数学表述
监督学习常用经验风险最小化(ERM): \(\min_{\theta} \; \frac{1}{n} \sum_{i=1}^n \ell(f_\theta(x_i), y_i) + \lambda \Omega(\theta)\) 其中 $\ell$ 为损失函数,$\Omega$ 为正则项。
算法解释
- 通过优化目标函数选择参数,使训练误差与模型复杂度取得平衡。
- 学习结果依赖于假设空间、损失函数与优化器。
优化与实现细节
- 目标来源:ERM 或 MLE/MAP。
- 求解器:梯度法、二阶法或闭式解(若存在)。
- 复杂度:与样本数 $n$、特征维度 $d$、模型结构相关。
- 数值要点:特征缩放、正则化与稳定的损失实现。
关联与边界
- 对比统计建模:ML 更关注预测与泛化。
- 对比优化:ML 目标函数含统计假设与泛化要求。
- 边界:若训练分布与部署分布漂移严重,泛化失效。
失败模式
- 训练/测试分布不一致(distribution shift)。
- 过拟合或欠拟合。
- 数据噪声或标注错误导致偏差。
最小伪代码
Input: dataset D, model f_theta, loss l
Initialize theta
Repeat:
Compute gradients of loss
Update theta
Return theta
决策清单
- 数据分布与部署分布一致或可校正
- 目标函数与业务指标一致
- 过拟合风险可控
个人备注
TODO