大语言模型（LLM）

约 1893 字大约 6 分钟

2026-05-12

LLM 不是一个会聊天的黑盒，而是把大量文本、代码和多模态信号压进参数里的概率模型。先理解它如何处理 token、上下文、模式和不确定性，后面才知道什么时候该信它、什么时候必须验证它。

为什么要学这个

很多 AI 应用一开始都会说“我们用大模型”。这句话还不够。你需要继续追问：模型负责理解用户意图，还是生成内容？它只是在回答问题，还是能调用工具？它的错误会停留在文本里，还是会进入真实工作流？

LLM 是今天大多数 AI 应用的能力底座。它能总结文档、写代码、生成计划、抽取结构化信息，也能把自然语言转成更适合程序处理的格式。但它本身不是数据库，不会自动知道外部世界的最新状态，也不能替系统承担事实校验。

学 LLM 的目标不是背模型参数，而是建立一个判断：模型输出是候选结果，不是事实本身；模型能力是推理入口，不是最终验证。

LLM 生成的是概率上合理的输出，而不是天然可信的事实。

这决定了 LLM 在任何严肃系统里的位置：它可以帮你理解、归纳、生成和规划，但不能单独承担事实来源、权限判断和最终执行。越靠近真实动作，越需要外部数据、确定性规则和人工或系统校验。

Token 是模型处理文本的基本单位。它不一定等于一个汉字、一个英文单词或一个符号，而是 tokenizer 切分后的片段。

Token 直接影响三件事：上下文能放多少、调用成本是多少、模型能不能完整看见关键信息。长文档、代码、JSON、日志和多轮对话都很容易把上下文塞满。你需要决定哪些信息原样放入，哪些先压缩，哪些交给检索系统按需取回。

不要把“页面很短”误认为“token 很少”。代码、JSON、长标识符、表格和混合语言文本经常比普通段落更吃 token。

Embedding 是把文本、代码或其他对象映射成向量，用来衡量“语义上是否接近”。它常用于搜索、聚类、推荐、异常检测和 RAG。

Embedding 适合帮你从文档、知识库、代码仓库、讨论记录和产品日志中找相关材料。但它不适合单独判断“这个结论是否正确”。向量相似度只能说明内容接近，不能替代来源校验、规则检查和人工判断。

Transformer 是现代 LLM 的核心架构之一。它的关键能力来自 attention：模型可以在生成时关注输入中的不同位置，学习词、代码、事实和上下文之间的关系。

你不需要一开始就推公式，但要理解一个工程事实：Transformer 擅长在上下文里找模式，不等于它拥有稳定数据库。它能把文档、代码和用户目标组合起来生成解释，也可能因为上下文缺失或相似模式误导而给出错误归纳。

Transformer 给了模型强大的模式组合能力，但没有给它事实最终裁决权。

Hallucination 指模型生成了看起来合理、但并不真实或无法验证的内容。它可能编造 API、错误解释代码、引用不存在的资料，或者把旧版本文档当成当前状态。

在普通问答里，幻觉可能只是答案质量问题。在任何带执行能力的系统里，幻觉都会变成流程风险：错误参数、错误权限解释、错误操作建议，都可能进入后续自动化链路。

处理幻觉不要只靠“写更好的 prompt”。更可靠的方式是把模型输出接到外部校验：来源引用、schema 校验、规则检查、人工确认和审计日志。

Multimodal 模型可以处理文本、图片、音频、视频或屏幕截图。对 builders 来说，它的价值不是“更炫”，而是让模型读懂更多真实工作界面：图表、控制台、设计稿、应用页面、错误截图和确认弹窗。

但多模态输入同样需要边界。截图里的文字可能被遮挡，图表可能缺少坐标，页面可能被伪造。模型可以辅助识别和解释，但关键判断仍要回到结构化数据和可信来源。

LLM 位在 AI x Web3 系统的理解和生成层。它负责把用户目标转成可讨论的计划，把复杂链上数据解释成人能读的语言，把文档和代码串成可执行思路。

真正的产品通常还需要这些层配合：

LLM 越靠近执行层，系统越要把它的自然语言输出变成可验证对象。

做一个“交易解释器”的最小版本。

输入一笔交易哈希，让系统读取交易详情、事件日志和相关合约 ABI，然后让 LLM 生成一段解释。要求输出包含：

练习重点不是让解释很漂亮，而是把 模型生成、链上事实、来源边界、不确定性 分开。