机器学习入门
约 1044 字大约 3 分钟
2026-03-31
这节课解决什么问题
上一节回答了“AI 是什么”。这一节回答“模型是怎么学会的”。只要理解了输入、标签、训练、验证和泛化这几个词,后面看大模型、Agent 评测或链上风控系统时,就不容易停留在概念口号上。
一个最简的工作流程
Machine Learning 的常见流程可以压缩成五步:
- 定义任务:你到底要预测什么。
- 准备数据:收集可用输入,并在需要时补标签。
- 训练模型:让模型反复调整参数,尽量减少错误。
- 验证模型:检查它对没见过的数据表现如何。
- 上线使用:把模型接入真实场景,再持续观察与迭代。
监督学习和无监督学习
监督学习
监督学习依赖带标签的数据。
例子:
- 输入一封邮件,标签是“垃圾邮件”或“正常邮件”
- 输入一笔交易记录,标签是“欺诈”或“正常”
模型会学习输入和答案之间的对应关系。
无监督学习
无监督学习不依赖明确标签,而是自己在数据中找结构。
例子:
- 把用户分成若干相似群体
- 从异常交易里发现不常见行为模式
训练集、验证集、测试集
这三个集合的职责不能混。
训练集
训练集用来让模型学习参数,是模型“见过”的数据。
验证集
验证集用来调参数、比模型、看方向。它帮助你判断当前方法是否在变好。
测试集
测试集应该留到最后再用。它的作用不是辅助开发,而是评估最终版本是否真的可靠。
过拟合是什么意思
过拟合可以理解为:模型把训练集记得太死,但对新数据反而表现变差。
表现通常是:
- 训练集准确率很高
- 验证集或测试集表现明显变差
这说明模型学到的不只是规律,还学到了噪声。
特征、标签和目标
特征
特征是模型可见的输入信息,例如:
- 用户地址活跃天数
- 交易频率
- 钱包资产变化
- 文本中的关键词
标签
标签是你希望模型学会预测的答案。
目标函数
目标函数用来衡量模型当前有多错。训练本质上是在不断减少这个错误。
为什么数据质量比模型名字更重要
很多项目失败,不是输在模型不够新,而是输在数据不稳定:
- 标签本身就不准
- 数据分布和真实场景不一致
- 采样有偏差
- 训练数据过旧,跟不上现实变化
在 Web3 场景里,这个问题会更明显。链上数据虽然公开,但并不天然适合直接做训练,必须先定义任务、清理噪声、构造特征。
一个 AI × Web3 的直观例子
如果你想判断某个地址是否像“空投猎人”,一个简单的监督学习任务可能是:
- 输入特征:交互协议数量、交互频率、跨链次数、Gas 行为、地址年龄
- 标签:历史上是否被人工归类为空投猎人
- 输出:该地址属于目标群体的概率
这里真正困难的部分,通常不是选模型,而是:
- 如何定义“空投猎人”
- 如何构造可靠标签
- 如何避免把正常用户误伤
这一节的最小收获
学完后,至少要能说清楚:
- 监督学习和无监督学习的区别
- 训练集、验证集、测试集为什么不能混用
- 过拟合是什么意思
- 数据质量为什么往往比模型名称更重要
下一节会接什么
下一节进入 Deep Learning。重点不是数学推导,而是理解神经网络为什么能处理更复杂的数据,以及它和当前大模型之间是什么关系。