机器学习入门

约 1044 字大约 3 分钟

2026-03-31

这节课解决什么问题

上一节回答了“AI 是什么”。这一节回答“模型是怎么学会的”。只要理解了输入、标签、训练、验证和泛化这几个词，后面看大模型、Agent 评测或链上风控系统时，就不容易停留在概念口号上。

Machine Learning 的常见流程可以压缩成五步：

监督学习依赖带标签的数据。
例子：

模型会学习输入和答案之间的对应关系。

无监督学习不依赖明确标签，而是自己在数据中找结构。
例子：

这三个集合的职责不能混。

训练集用来让模型学习参数，是模型“见过”的数据。

验证集用来调参数、比模型、看方向。它帮助你判断当前方法是否在变好。

测试集应该留到最后再用。它的作用不是辅助开发，而是评估最终版本是否真的可靠。

过拟合可以理解为：模型把训练集记得太死，但对新数据反而表现变差。

表现通常是：

这说明模型学到的不只是规律，还学到了噪声。

特征是模型可见的输入信息，例如：

目标函数用来衡量模型当前有多错。训练本质上是在不断减少这个错误。

很多项目失败，不是输在模型不够新，而是输在数据不稳定：

在 Web3 场景里，这个问题会更明显。链上数据虽然公开，但并不天然适合直接做训练，必须先定义任务、清理噪声、构造特征。

如果你想判断某个地址是否像“空投猎人”，一个简单的监督学习任务可能是：

这里真正困难的部分，通常不是选模型，而是：

学完后，至少要能说清楚：

下一节进入 Deep Learning。重点不是数学推导，而是理解神经网络为什么能处理更复杂的数据，以及它和当前大模型之间是什么关系。