当前位置：首页 > news >正文

Token、Embedding、Transformer：深度解析大模型的底层原理与训练流程！

news 2026/6/8 18:32:50

本文深入浅出地解析了大模型的技术链路，从Tokenization分词到Embedding语义映射，再到Transformer的核心架构与Attention注意力机制，一步步揭示了大模型如何理解和生成语言。文章还详细介绍了预训练、指令微调、RLHF等关键训练阶段，以及推理阶段如何逐Token生成回答。此外，还探讨了RAG和Agent如何将大模型扩展为能查资料、能调用工具的应用系统，并分析了大模型幻觉现象的技术成因及解决方案。全文旨在帮助读者清晰认识大模型的底层结构和训练流程，理解其从“会续写”到“会协作”的能力演进。

从 Token 到 Transformer：大模型底层原理技术入门

聊大模型时，我们经常会听到一堆词：Token、Embedding、Transformer、Attention、预训练、微调、RLHF、RAG、Agent。

如果你刚开始从技术角度理解大模型，很容易有一种感觉：每个词都听过，但它们之间到底怎么连起来，好像还差一张地图。

这篇文章就试着补上这张地图。

我们不深挖复杂公式，也不把文章写成论文，而是从技术链路出发，看看一句话从输入到输出，会经历什么；一个大模型从零到可用，又大概经过哪些阶段。读完你会对大模型的底层结构和训练流程有一个更清晰的整体认识。

大模型处理的不是“字”，而是 Token

在技术视角里，第一件要理解的事是：模型不能直接处理自然语言。

我们输入的是文字，模型真正处理的是数字。

这中间的第一步叫Tokenization，也就是分词或切词。它会把文本切成模型可以识别的最小片段，这些片段就是Token。

比如：

我喜欢人工智能

可能会被切成：

我 / 喜欢 / 人工 / 智能

英文单词也可能被拆开：

unbelievable

可能会被切成：

un / believable

为什么不直接按字切？因为按字切会让序列变长，计算成本更高。为什么不直接按完整词切？因为词表会爆炸，而且遇到新词、专业词、拼写变化时处理起来很麻烦。

所以现代大模型通常使用一种折中方式：把文本切成子词级别的 Token。

Tokenization 之后，每个 Token 会被映射成一个整数 ID。例如：

我 -> 1024 喜欢 -> 3812 人工 -> 9045 智能 -> 7721

到这里，文本已经变成了一串数字 ID。

但问题还没结束。ID 只是编号，编号本身没有语义。模型还需要把这些 ID 转成能表达语义关系的向量。

Embedding：把 Token 放进语义空间

Token ID 会进入一个Embedding 层。

Embedding 可以理解为一张巨大的查询表：每个 Token ID 对应一个向量。这个向量不是普通坐标，而是一个高维数字表示。

比如一个 Token 可能被表示成：

[0.12, -0.47, 0.83, ...]

这些数字没有单独可解释的含义，但整体上能表达语义关系。

在训练过程中，模型会慢慢调整这些向量，让经常在相似语境中出现的 Token，在向量空间中更接近。

例如：

“医生”和“医院”会建立某种关联。
“函数”和“参数”会在编程语境中靠近。
“利率”和“央行”会在金融语境中靠近。

这就是 Embedding 的意义：它把离散的文字碎片，转换成连续的数学空间。

不过，仅有 Token 的语义还不够。模型还要知道 Token 的顺序。

因为：

我喜欢你

和：

你喜欢我

Token 差不多，但意思明显不同。

所以模型还需要加入位置信息，这就是Position Encoding或位置嵌入。它告诉模型每个 Token 在句子中的位置。

Transformer：大模型的核心骨架

现在我们有了 Token 向量，也有了位置信息。接下来，它们会进入大模型的核心结构：Transformer。

Transformer 最早在 2017 年的论文《Attention Is All You Need》中提出。今天的大多数大语言模型，底层都和 Transformer 架构密切相关。

从宏观上看，一个 Transformer 模型由很多层堆叠而成。每一层大致包含两类核心模块：

Self-Attention：让 Token 之间互相“看见”。
Feed Forward Network：对每个位置的表示做进一步变换。

你可以把每一层想象成一次“重新理解上下文”的过程。

第一层可能学到比较浅的关系，比如词性、局部搭配。
更深的层可能学到句法结构、指代关系、逻辑关系，甚至任务模式。

多层堆叠之后，每个 Token 的向量就不再只是它自己的含义，而是融合了上下文后的表示。

Attention：让模型知道重点在哪里

Transformer 最关键的能力来自Attention，也就是注意力机制。

它解决的问题是：当模型处理某个 Token 时，应该关注上下文中的哪些 Token？

比如：

小王把钥匙放进抽屉，因为它很小。

这里的“它”大概率指“钥匙”，不是“抽屉”。

模型要做的，就是在处理“它”时，给“钥匙”更高的注意力权重。

Attention 的核心思想可以简化成三个向量：

Query：当前 Token 想找什么信息。
Key：其他 Token 能提供什么信息。
Value：其他 Token 实际携带的信息。

模型会用 Query 和 Key 计算相关性，再根据相关性加权汇总 Value。

简化来看就是：

当前词：它 更关注：钥匙 较少关注：小王、放进、抽屉

这使得模型能够动态捕捉上下文关系。

更进一步，大模型会使用Multi-Head Attention，也就是多头注意力。多个注意力头可以从不同角度理解句子：

一个头关注语法结构。
一个头关注指代关系。
一个头关注时间顺序。
一个头关注代码里的变量依赖。

这也是 Transformer 强大的根源：它不是按固定规则理解文本，而是通过训练学会“在不同场景下该关注什么”。

预训练：大模型能力的来源

有了模型结构，还需要训练。

大语言模型最重要的训练阶段叫预训练。预训练通常使用海量文本数据，让模型学习语言规律和世界知识。

对于很多生成式大模型来说，常见目标是：

根据前面的 Token，预测下一个 Token。

比如训练样本是：

人工智能正在改变

模型要预测下一个 Token 可能是：

世界 行业 教育 医疗

训练系统知道真实答案是什么，于是可以计算模型预测和真实答案之间的误差。这个误差叫Loss。

训练过程大致是：

输入一段文本。
模型预测下一个 Token。
计算预测误差。
使用反向传播更新参数。
重复数万亿次类似过程。

这就是大模型能力的来源。

表面上看，它只是在预测下一个 Token；但在海量数据和巨大参数规模下，它会学到很多复杂模式：

语言结构
常识知识
专业知识
代码语法
推理步骤
对话格式
文体风格

所谓“涌现能力”，很多时候就来自这种规模化训练。当模型、数据和计算量达到一定程度后，一些原本不明显的能力会突然变得可用，比如多步推理、代码生成、复杂指令跟随。

指令微调：让模型从“会续写”变成“会听话”

预训练后的模型很强，但它不一定好用。

因为它学到的是“预测文本”，不是“按用户要求完成任务”。

如果你问它：

请总结这篇文章。

未经指令微调的模型可能只是继续写类似的文本，而不一定真的给你总结。

所以还需要Instruction Tuning，也就是指令微调。

这个阶段会使用大量“指令-回答”数据，让模型学习人类常见任务格式：

指令：把下面这段话翻译成英文。 回答：...

指令：解释这段代码的作用。 回答：...

指令：请用三点总结这篇文章。 回答：...

经过指令微调后，模型会更像一个助手，能够理解“请你做什么”。

这一步非常关键。没有它，大模型可能更像一个强大的文本补全器；有了它，才更像我们今天使用的聊天助手。

RLHF：让模型更符合人类偏好

指令微调之后，模型能回答问题了，但回答质量还不一定符合人类偏好。

比如它可能：

语气生硬。
回答太长或太短。
遇到危险问题时不拒绝。
不知道什么时候该承认不确定。
给出看似合理但不负责任的建议。

为了解决这些问题，很多模型会经历RLHF，也就是 Reinforcement Learning from Human Feedback，中文常译为“基于人类反馈的强化学习”。

它的大致过程是：

模型针对同一个问题生成多个回答。
人类标注员比较哪个回答更好。
训练一个奖励模型，学习人类偏好。
再用强化学习方法优化原模型，让它更倾向于生成高评分回答。

你可以把 RLHF 理解成一种“品味校准”。

预训练让模型有知识。
指令微调让模型会做任务。
RLHF 让模型更像一个靠谱、礼貌、符合人类预期的助手。

当然，RLHF 不是完美方案。它也可能带来副作用，比如模型过度迎合、回答保守、拒绝过多，或者在不确定时仍然表现得很自信。

推理阶段：模型是怎么生成回答的？

训练完成后，用户真正使用模型时，进入的是推理阶段。

假设你输入：

请用一句话解释 Transformer。

模型会先把输入切成 Token，再转成向量，通过 Transformer 层计算，最后输出下一个 Token 的概率分布。

比如下一个 Token 的候选可能是：

Transformer: 0.32 它: 0.21 一种: 0.18 简单: 0.05

模型会根据采样策略选择一个 Token，然后把它接到上下文后面，再继续预测下一个 Token。

如此循环，直到生成完整回答。

这里有几个常见参数：

Temperature：控制随机性。越高越发散，越低越稳定。
Top-k：只从概率最高的 k 个候选里选。
Top-p：只从累计概率达到 p 的候选集合里选。
Max tokens：限制最大生成长度。

所以，大模型不是一次性“想好一整段话”再输出，而是一个 Token 一个 Token 地生成。

这也解释了为什么它有时会前后不一致：因为生成过程是连续采样，后面的内容依赖前面已经生成的内容。

上下文窗口：模型的“短期记忆”

大模型每次回答时，能看到的内容是有限的，这个限制叫上下文窗口。

上下文窗口越大，模型能处理的内容越多，比如长文档、多轮对话、大段代码。

但上下文窗口不是无限的。超过限制的内容，模型就看不到，或者需要被压缩、截断、检索后再放入上下文。

这也是为什么长对话里，模型可能忘记前面说过什么。

技术上，很多应用会通过以下方式缓解：

对历史对话做摘要。
把文档切块后检索相关片段。
使用向量数据库存储知识。
只把当前任务相关内容放进上下文。

这也引出了一个重要应用架构：RAG。

RAG：让模型接入外部知识

RAG全称是 Retrieval-Augmented Generation，检索增强生成。

它解决的是一个很现实的问题：大模型的参数知识不一定新、不一定全，也不一定包含企业内部资料。

RAG 的思路是：

把文档切成小块。
转成向量并存入向量数据库。
用户提问时，把问题也转成向量。
检索最相关的文档片段。
把这些片段连同问题一起交给模型。
模型基于检索内容生成回答。

这样做的好处是：

可以接入最新资料。
可以使用私有知识库。
可以减少幻觉。
可以给出引用来源。

RAG 并不是让模型“记住”新知识，而是在生成前把相关资料放到它眼前。

就像开卷考试：模型本身会答题，RAG 给它提供教材和资料页。

Agent：从回答问题到执行任务

如果说 RAG 让模型能查资料，那么Agent让模型能做事情。

一个 Agent 通常具备几类能力：

理解目标
拆解步骤
调用工具
观察结果
修正计划
持续执行

比如你说：

帮我分析这个项目为什么测试失败，并尝试修复。

Agent 可能会：

读取测试日志。
定位失败用例。
打开相关文件。
修改代码。
重新运行测试。
如果失败，再继续调整。
最后总结改动。

这已经不是单纯的文本生成，而是“模型 + 工具 + 环境反馈”的系统。

现在很多 AI 编码工具、数据分析助手、办公自动化工具，本质上都在往 Agent 方向发展。

但 Agent 也更需要权限控制。因为一旦模型能调用工具，它就可能修改文件、执行命令、访问数据。能力越强，边界越要清楚。

技术视角下，大模型为什么会幻觉？

从技术角度看，幻觉不是偶然的小毛病，而是生成式模型天然可能出现的问题。

原因主要有几个：

模型的训练目标是预测下一个 Token，不是验证事实。
参数知识可能过时或不完整。
用户问题可能没有足够上下文。
采样过程可能生成看似合理但错误的内容。
模型倾向于维持语言连贯性，即使它并不知道答案。

所以，解决幻觉不能只靠一句“模型更聪明”。

常见工程手段包括：

接入 RAG。
要求模型引用来源。
使用工具查询事实。
对关键回答做规则校验。
在高风险场景引入人工审核。
降低采样随机性。
使用测试或代码执行验证结果。

大模型的输出不是数据库查询结果。它更像一个强大的生成器，需要和检索、验证、权限、审计一起组成可靠系统。

假如你从2026年开始学大模型，按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线，

3个月即可成为模型大师，薪资直接起飞。

阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

配套文档资源+全套AI 大模型学习资料，朋友们如果需要可以微信扫描下方二维码免费领取【`保证100%免费`】👇👇

查看全文

http://www.rkmt.cn/news/1487884.html

MinGW-w64终极指南：Windows平台最完整的GCC编译器套件

Mirah快速入门教程：5分钟编写你的第一个JVM应用程序

为什么pyautocad正在重新定义Python与AutoCAD的交互方式

从0到1掌握RFQuiltLayout：iOS开发者必备的瀑布流布局库终极指南

2026年西安数据分析培训与AI人工智能培训机构怎么选？一份来自本地的专业机构对比指南 - 深度智识库

ATM交换机VPI/VCI高速转换：基于CAM硬件的确定性查找方案详解

STIX Two字体家族全解析：从静态到可变字体的灵活应用

Obsidian视觉工作流深度解析：从CSS片段到主题架构的技术揭秘

2026年新加坡前十留学中介:十佳优选品牌深度解析 - 科技焦点

技术拆解：ChatGPT Images 2.0 如何解决 AI 图像生成中的文字错误问题

【花雕动手做】行空板K10系列实验之网络服务查询本地天气情况

自容式/数字水听器定制厂家推荐｜适配深海监测场景 - 品牌推荐大师

珠三角废旧电缆电线高价回收品牌实力梳理——区域产废企业选企实操指南 - 广东再生资源回收

Matlab语音去噪实操包：谱减法vs卡尔曼滤波，带原始音频、可运行脚本与全程操作录像

知医邦的初心——“不卖设备，只做算力的搬运工”

毕业设计可用的智慧社区全栈项目：SpringBoot后端+Vue前端+MySQL脚本+IDEA部署指南

计算机毕业设计之django基于Python的景点预约系统的设计与实现

如何永久保存你的微信聊天记录：WeChatMsg工具完整解析

Cityscapes不够用？试试这个5倍数据量的Mapillary街景数据集，附类别对比与实战效果

爱士惟二次冲击IPO：营收下滑、利润微薄，海外业务与AI转型能否破局？

2026泰州本地老橱柜改造厂家推荐：奥力星打造零醛耐用改造方案 - 资讯速览

Proposer iOS权限请求库：一站式解决8大系统权限管理难题

2026年，靠谱发电机租赁源头厂家大揭秘，你不能错过的优质之选！ - GrowthUME

国家中小学智慧教育平台电子课本解析工具：一键获取PDF教材的完整解决方案

芬兰等三所高校联手：翻译质量检测，真的不存在“万能裁判“

5分钟学会EmojiOne Color彩色表情字体：让你的设计瞬间生动起来

自建商城系统还是 SaaS 平台？2026年越来越多企业开始重新选择——企业做电商，真正重要的不是上线快，而是未来还能不能持续发展

如何用ok-ww彻底解决鸣潮重复操作的时间浪费问题

如何为Happy Island Designer贡献代码：开源项目开发入门指南

遗传算法实战调参指南：从能跑通到跑好