问题类型 Problem Types

一句话定义

机器学习问题类型由监督信号与目标形式决定，常见为回归、分类、聚类与表示学习。

问题设定

输入：$x$ 或 $(x,y)$。
输出：连续值、离散标签或潜在表示。
假设：数据分布可被建模。
边界：不同类型目标函数与评估指标不可混用。

数学表述

回归：$y \in \mathbb{R}$，最小化 $\ell(\hat{y}, y)$。
分类：$y \in {1,\dots,C}$，最小化交叉熵。
聚类：最小化组内距离或最大化似然。

算法解释

回归强调数值预测。
分类强调决策边界与概率。
聚类强调结构发现与相似性度量。

优化与实现细节

目标来源：ERM/MLE。
指标：回归用 MSE/MAE，分类用准确率/F1/ROC，聚类用 NMI/ARI。
数值要点：损失与指标要匹配任务。

关联与边界

回归与分类可通过链接函数互相转换。
聚类与密度估计紧密相关。
边界：监督 vs 无监督决定可用信息量。

失败模式

任务定义错误导致指标不反映真实目标。
用分类指标评估回归或相反。

最小伪代码

Input: data D, task type
Choose model and loss by task
Train model
Evaluate with matching metric

决策清单

目标变量类型明确
损失与评估指标一致
与相邻任务边界清晰

个人备注

TODO