当前位置: 首页 > news >正文

Token、Embedding、Transformer:深度解析大模型的底层原理与训练流程!

本文深入浅出地解析了大模型的技术链路,从Tokenization分词到Embedding语义映射,再到Transformer的核心架构与Attention注意力机制,一步步揭示了大模型如何理解和生成语言。文章还详细介绍了预训练、指令微调、RLHF等关键训练阶段,以及推理阶段如何逐Token生成回答。此外,还探讨了RAG和Agent如何将大模型扩展为能查资料、能调用工具的应用系统,并分析了大模型幻觉现象的技术成因及解决方案。全文旨在帮助读者清晰认识大模型的底层结构和训练流程,理解其从“会续写”到“会协作”的能力演进。


从 Token 到 Transformer:大模型底层原理技术入门

聊大模型时,我们经常会听到一堆词:Token、Embedding、Transformer、Attention、预训练、微调、RLHF、RAG、Agent。

如果你刚开始从技术角度理解大模型,很容易有一种感觉:每个词都听过,但它们之间到底怎么连起来,好像还差一张地图。

这篇文章就试着补上这张地图。

我们不深挖复杂公式,也不把文章写成论文,而是从技术链路出发,看看一句话从输入到输出,会经历什么;一个大模型从零到可用,又大概经过哪些阶段。读完你会对大模型的底层结构和训练流程有一个更清晰的整体认识。


大模型处理的不是“字”,而是 Token

在技术视角里,第一件要理解的事是:模型不能直接处理自然语言。

我们输入的是文字,模型真正处理的是数字。

这中间的第一步叫Tokenization,也就是分词或切词。它会把文本切成模型可以识别的最小片段,这些片段就是Token

比如:

我喜欢人工智能

可能会被切成:

我 / 喜欢 / 人工 / 智能

英文单词也可能被拆开:

unbelievable

可能会被切成:

un / believable

为什么不直接按字切?因为按字切会让序列变长,计算成本更高。为什么不直接按完整词切?因为词表会爆炸,而且遇到新词、专业词、拼写变化时处理起来很麻烦。

所以现代大模型通常使用一种折中方式:把文本切成子词级别的 Token。

Tokenization 之后,每个 Token 会被映射成一个整数 ID。例如:

我 -> 1024 喜欢 -> 3812 人工 -> 9045 智能 -> 7721

到这里,文本已经变成了一串数字 ID。

但问题还没结束。ID 只是编号,编号本身没有语义。模型还需要把这些 ID 转成能表达语义关系的向量。


Embedding:把 Token 放进语义空间

Token ID 会进入一个Embedding 层

Embedding 可以理解为一张巨大的查询表:每个 Token ID 对应一个向量。这个向量不是普通坐标,而是一个高维数字表示。

比如一个 Token 可能被表示成:

[0.12, -0.47, 0.83, ...]

这些数字没有单独可解释的含义,但整体上能表达语义关系。

在训练过程中,模型会慢慢调整这些向量,让经常在相似语境中出现的 Token,在向量空间中更接近。

例如:

  • “医生”和“医院”会建立某种关联。
  • “函数”和“参数”会在编程语境中靠近。
  • “利率”和“央行”会在金融语境中靠近。

这就是 Embedding 的意义:它把离散的文字碎片,转换成连续的数学空间。

不过,仅有 Token 的语义还不够。模型还要知道 Token 的顺序。

因为:

我喜欢你

和:

你喜欢我

Token 差不多,但意思明显不同。

所以模型还需要加入位置信息,这就是Position Encoding或位置嵌入。它告诉模型每个 Token 在句子中的位置。


Transformer:大模型的核心骨架

现在我们有了 Token 向量,也有了位置信息。接下来,它们会进入大模型的核心结构:Transformer

Transformer 最早在 2017 年的论文《Attention Is All You Need》中提出。今天的大多数大语言模型,底层都和 Transformer 架构密切相关。

从宏观上看,一个 Transformer 模型由很多层堆叠而成。每一层大致包含两类核心模块:

  1. Self-Attention:让 Token 之间互相“看见”。
  2. Feed Forward Network:对每个位置的表示做进一步变换。

你可以把每一层想象成一次“重新理解上下文”的过程。

第一层可能学到比较浅的关系,比如词性、局部搭配。
更深的层可能学到句法结构、指代关系、逻辑关系,甚至任务模式。

多层堆叠之后,每个 Token 的向量就不再只是它自己的含义,而是融合了上下文后的表示。


Attention:让模型知道重点在哪里

Transformer 最关键的能力来自Attention,也就是注意力机制。

它解决的问题是:当模型处理某个 Token 时,应该关注上下文中的哪些 Token?

比如:

小王把钥匙放进抽屉,因为它很小。

这里的“它”大概率指“钥匙”,不是“抽屉”。

模型要做的,就是在处理“它”时,给“钥匙”更高的注意力权重。

Attention 的核心思想可以简化成三个向量:

  • Query:当前 Token 想找什么信息。
  • Key:其他 Token 能提供什么信息。
  • Value:其他 Token 实际携带的信息。

模型会用 Query 和 Key 计算相关性,再根据相关性加权汇总 Value。

简化来看就是:

当前词:它 更关注:钥匙 较少关注:小王、放进、抽屉

这使得模型能够动态捕捉上下文关系。

更进一步,大模型会使用Multi-Head Attention,也就是多头注意力。多个注意力头可以从不同角度理解句子:

  • 一个头关注语法结构。
  • 一个头关注指代关系。
  • 一个头关注时间顺序。
  • 一个头关注代码里的变量依赖。

这也是 Transformer 强大的根源:它不是按固定规则理解文本,而是通过训练学会“在不同场景下该关注什么”。


预训练:大模型能力的来源

有了模型结构,还需要训练。

大语言模型最重要的训练阶段叫预训练。预训练通常使用海量文本数据,让模型学习语言规律和世界知识。

对于很多生成式大模型来说,常见目标是:

根据前面的 Token,预测下一个 Token。

比如训练样本是:

人工智能正在改变

模型要预测下一个 Token 可能是:

世界 行业 教育 医疗

训练系统知道真实答案是什么,于是可以计算模型预测和真实答案之间的误差。这个误差叫Loss

训练过程大致是:

  1. 输入一段文本。
  2. 模型预测下一个 Token。
  3. 计算预测误差。
  4. 使用反向传播更新参数。
  5. 重复数万亿次类似过程。

这就是大模型能力的来源。

表面上看,它只是在预测下一个 Token;但在海量数据和巨大参数规模下,它会学到很多复杂模式:

  • 语言结构
  • 常识知识
  • 专业知识
  • 代码语法
  • 推理步骤
  • 对话格式
  • 文体风格

所谓“涌现能力”,很多时候就来自这种规模化训练。当模型、数据和计算量达到一定程度后,一些原本不明显的能力会突然变得可用,比如多步推理、代码生成、复杂指令跟随。


指令微调:让模型从“会续写”变成“会听话”

预训练后的模型很强,但它不一定好用。

因为它学到的是“预测文本”,不是“按用户要求完成任务”。

如果你问它:

请总结这篇文章。

未经指令微调的模型可能只是继续写类似的文本,而不一定真的给你总结。

所以还需要Instruction Tuning,也就是指令微调。

这个阶段会使用大量“指令-回答”数据,让模型学习人类常见任务格式:

指令:把下面这段话翻译成英文。 回答:...
指令:解释这段代码的作用。 回答:...
指令:请用三点总结这篇文章。 回答:...

经过指令微调后,模型会更像一个助手,能够理解“请你做什么”。

这一步非常关键。没有它,大模型可能更像一个强大的文本补全器;有了它,才更像我们今天使用的聊天助手。


RLHF:让模型更符合人类偏好

指令微调之后,模型能回答问题了,但回答质量还不一定符合人类偏好。

比如它可能:

  • 语气生硬。
  • 回答太长或太短。
  • 遇到危险问题时不拒绝。
  • 不知道什么时候该承认不确定。
  • 给出看似合理但不负责任的建议。

为了解决这些问题,很多模型会经历RLHF,也就是 Reinforcement Learning from Human Feedback,中文常译为“基于人类反馈的强化学习”。

它的大致过程是:

  1. 模型针对同一个问题生成多个回答。
  2. 人类标注员比较哪个回答更好。
  3. 训练一个奖励模型,学习人类偏好。
  4. 再用强化学习方法优化原模型,让它更倾向于生成高评分回答。

你可以把 RLHF 理解成一种“品味校准”。

预训练让模型有知识。
指令微调让模型会做任务。
RLHF 让模型更像一个靠谱、礼貌、符合人类预期的助手。

当然,RLHF 不是完美方案。它也可能带来副作用,比如模型过度迎合、回答保守、拒绝过多,或者在不确定时仍然表现得很自信。


推理阶段:模型是怎么生成回答的?

训练完成后,用户真正使用模型时,进入的是推理阶段

假设你输入:

请用一句话解释 Transformer。

模型会先把输入切成 Token,再转成向量,通过 Transformer 层计算,最后输出下一个 Token 的概率分布。

比如下一个 Token 的候选可能是:

Transformer: 0.32 它: 0.21 一种: 0.18 简单: 0.05

模型会根据采样策略选择一个 Token,然后把它接到上下文后面,再继续预测下一个 Token。

如此循环,直到生成完整回答。

这里有几个常见参数:

  • Temperature:控制随机性。越高越发散,越低越稳定。
  • Top-k:只从概率最高的 k 个候选里选。
  • Top-p:只从累计概率达到 p 的候选集合里选。
  • Max tokens:限制最大生成长度。

所以,大模型不是一次性“想好一整段话”再输出,而是一个 Token 一个 Token 地生成。

这也解释了为什么它有时会前后不一致:因为生成过程是连续采样,后面的内容依赖前面已经生成的内容。


上下文窗口:模型的“短期记忆”

大模型每次回答时,能看到的内容是有限的,这个限制叫上下文窗口

上下文窗口越大,模型能处理的内容越多,比如长文档、多轮对话、大段代码。

但上下文窗口不是无限的。超过限制的内容,模型就看不到,或者需要被压缩、截断、检索后再放入上下文。

这也是为什么长对话里,模型可能忘记前面说过什么。

技术上,很多应用会通过以下方式缓解:

  • 对历史对话做摘要。
  • 把文档切块后检索相关片段。
  • 使用向量数据库存储知识。
  • 只把当前任务相关内容放进上下文。

这也引出了一个重要应用架构:RAG。


RAG:让模型接入外部知识

RAG全称是 Retrieval-Augmented Generation,检索增强生成。

它解决的是一个很现实的问题:大模型的参数知识不一定新、不一定全,也不一定包含企业内部资料。

RAG 的思路是:

  1. 把文档切成小块。
  2. 转成向量并存入向量数据库。
  3. 用户提问时,把问题也转成向量。
  4. 检索最相关的文档片段。
  5. 把这些片段连同问题一起交给模型。
  6. 模型基于检索内容生成回答。

这样做的好处是:

  • 可以接入最新资料。
  • 可以使用私有知识库。
  • 可以减少幻觉。
  • 可以给出引用来源。

RAG 并不是让模型“记住”新知识,而是在生成前把相关资料放到它眼前。

就像开卷考试:模型本身会答题,RAG 给它提供教材和资料页。


Agent:从回答问题到执行任务

如果说 RAG 让模型能查资料,那么Agent让模型能做事情。

一个 Agent 通常具备几类能力:

  • 理解目标
  • 拆解步骤
  • 调用工具
  • 观察结果
  • 修正计划
  • 持续执行

比如你说:

帮我分析这个项目为什么测试失败,并尝试修复。

Agent 可能会:

  1. 读取测试日志。
  2. 定位失败用例。
  3. 打开相关文件。
  4. 修改代码。
  5. 重新运行测试。
  6. 如果失败,再继续调整。
  7. 最后总结改动。

这已经不是单纯的文本生成,而是“模型 + 工具 + 环境反馈”的系统。

现在很多 AI 编码工具、数据分析助手、办公自动化工具,本质上都在往 Agent 方向发展。

但 Agent 也更需要权限控制。因为一旦模型能调用工具,它就可能修改文件、执行命令、访问数据。能力越强,边界越要清楚。


技术视角下,大模型为什么会幻觉?

从技术角度看,幻觉不是偶然的小毛病,而是生成式模型天然可能出现的问题。

原因主要有几个:

  1. 模型的训练目标是预测下一个 Token,不是验证事实。
  2. 参数知识可能过时或不完整。
  3. 用户问题可能没有足够上下文。
  4. 采样过程可能生成看似合理但错误的内容。
  5. 模型倾向于维持语言连贯性,即使它并不知道答案。

所以,解决幻觉不能只靠一句“模型更聪明”。

常见工程手段包括:

  • 接入 RAG。
  • 要求模型引用来源。
  • 使用工具查询事实。
  • 对关键回答做规则校验。
  • 在高风险场景引入人工审核。
  • 降低采样随机性。
  • 使用测试或代码执行验证结果。

大模型的输出不是数据库查询结果。它更像一个强大的生成器,需要和检索、验证、权限、审计一起组成可靠系统。


假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线,

3个月即可成为模型大师,薪资直接起飞。

阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇


配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

http://www.rkmt.cn/news/1487884.html

相关文章:

  • MinGW-w64终极指南:Windows平台最完整的GCC编译器套件
  • Mirah快速入门教程:5分钟编写你的第一个JVM应用程序
  • 为什么pyautocad正在重新定义Python与AutoCAD的交互方式
  • 从0到1掌握RFQuiltLayout:iOS开发者必备的瀑布流布局库终极指南
  • 2026年西安数据分析培训与AI人工智能培训机构怎么选?一份来自本地的专业机构对比指南 - 深度智识库
  • ATM交换机VPI/VCI高速转换:基于CAM硬件的确定性查找方案详解
  • STIX Two字体家族全解析:从静态到可变字体的灵活应用
  • Obsidian视觉工作流深度解析:从CSS片段到主题架构的技术揭秘
  • 2026年新加坡前十留学中介:十佳优选品牌深度解析 - 科技焦点
  • 技术拆解:ChatGPT Images 2.0 如何解决 AI 图像生成中的文字错误问题
  • 【花雕动手做】行空板K10系列实验之网络服务查询本地天气情况
  • 自容式/数字水听器定制厂家推荐|适配深海监测场景 - 品牌推荐大师
  • 珠三角废旧电缆电线高价回收品牌实力梳理——区域产废企业选企实操指南 - 广东再生资源回收
  • Matlab语音去噪实操包:谱减法vs卡尔曼滤波,带原始音频、可运行脚本与全程操作录像
  • 知医邦的初心——“不卖设备,只做算力的搬运工”
  • 毕业设计可用的智慧社区全栈项目:SpringBoot后端+Vue前端+MySQL脚本+IDEA部署指南
  • 计算机毕业设计之django基于Python的景点预约系统的设计与实现
  • 如何永久保存你的微信聊天记录:WeChatMsg工具完整解析
  • Cityscapes不够用?试试这个5倍数据量的Mapillary街景数据集,附类别对比与实战效果
  • 爱士惟二次冲击IPO:营收下滑、利润微薄,海外业务与AI转型能否破局?
  • 2026泰州本地老橱柜改造厂家推荐:奥力星打造零醛耐用改造方案 - 资讯速览
  • Proposer iOS权限请求库:一站式解决8大系统权限管理难题
  • 2026年,靠谱发电机租赁源头厂家大揭秘,你不能错过的优质之选! - GrowthUME
  • 国家中小学智慧教育平台电子课本解析工具:一键获取PDF教材的完整解决方案
  • 芬兰等三所高校联手:翻译质量检测,真的不存在“万能裁判“
  • 5分钟学会EmojiOne Color彩色表情字体:让你的设计瞬间生动起来
  • 自建商城系统还是 SaaS 平台?2026年越来越多企业开始重新选择——企业做电商,真正重要的不是上线快,而是未来还能不能持续发展
  • 如何用ok-ww彻底解决鸣潮重复操作的时间浪费问题
  • 如何为Happy Island Designer贡献代码:开源项目开发入门指南
  • 遗传算法实战调参指南:从能跑通到跑好