当前位置：首页 > news >正文

02 - Token 与 Tokenizer：模型如何“读懂“文字

news 2026/5/26 15:16:55

这是从 LLM 到 Agent Skill系列的第二篇。上一篇我们讲了 LLM 的本质是文字接龙但模型不认识汉字——它只认识数字。那么文字是怎么变成数字的这就要聊 Token 和 Tokenizer。一、一个根本问题模型不识字你有没有想过一个很基本的问题大语言模型里面全是矩阵运算、浮点数乘法——这玩意儿怎么处理床前明月光五个汉字答案是它处理不了。模型不认识汉字。模型只认识数字。所以在你输入的每一个字到达模型内部之前它必须被翻译成数字。这个翻译官就叫Tokenizer。二、Tokenizer 是什么Tokenizer分词器是连接人类语言和机器语言的一座桥梁。它做两件事人类文字 ──编码(Encode)──→ 数字Token ID 数字Token ID ──解码(Decode)──→ 人类文字2.1 编码Encode当你在 ChatGPT 里输入你好世界在你按下发送键之后、模型开始计算之前Tokenizer 会先把这 5 个字变成一串数字例如你好世界 → [12345, 678, 91011]这串数字进入模型内部进行矩阵运算模型预测出下一个 Token ID再由 Tokenizer 解码回汉字呈现在你眼前。2.2 解码Decode模型输出的也是一串数字。Tokenizer 负责反向翻译[12345, 678, 91011] → 你好世界同样的 Tokenizer同一套编码/解码规则确保输入和输出使用相同的语言。三、Token文本的最小单位3.1 Token ≠ 词Token是 AI 处理文本的最小基本单元。这里有一个最常见的误区Token 就是词语。不是的。Token 和词不是一一对应的。Tokenizer 有自己的切分规则而这个规则是模型在训练过程中自己学会的不是人工定义的。举个例子文本可能的 Token 切分程序员[程序, 员]或[程序员]看模型running[run, ning]unbelievable[un, believe, able]Tokenizer 会把常见词或词根作为一个 Token把罕见词拆成更小的子词subword。3.2 中英文的 Token 差异一个很有用的经验公式语言1 个 Token 大约等于英文~0.75 个单词中文~1.52 个汉字也就是说同样的信息量中文比英文消耗更多 Token。这是一些中文 AI 应用成本更高的原因之一。四、为什么 Token 这么重要你可能觉得 Token 只是一个底层技术细节。但实际上它在应用层面有三个直接影响4.1 计费绝大多数大模型 API 都按 Token 计费。你输入的 TokenInput Token和模型输出的 TokenOutput Token都算钱。知道了中英文的 Token 差异你就明白为什么优化 Prompt 的长度能直接省钱。4.2 能力上限模型的 Context Window 是用 Token 数量来衡量的。比如一个模型的 Context Window 是 128K Token翻译成中文大约是 19 万25 万汉字。超过这个长度模型就看不见了。4.3 生成质量模型生成文本的过程就是逐个 Token 预测的过程。一些你看到的AI 胡言乱语本质上是预测链条中某一个 Token 走偏了然后偏差在后续的接龙中不断放大。五、常见 Tokenizer 与在线工具不同模型使用不同的 Tokenizer切分结果也不同。常见的 Tokenizer 包括Tokenizer使用者cl100k_baseGPT-4 / GPT-3.5o200k_baseGPT-4oClaude TokenizerClaude 系列你可以用在线工具直观感受 Token 的切分OpenAI Tokenizerplatform.openai.com/tokenizerTiktokenizertiktokenizer.vercel.app 开源可视化工具随便输入一段文本你就能看到它被切成了多少个 Token、每个 Token 是什么。六、一个具体的例子我们以中文我爱吃苹果为例某 Tokenizer 可能这样处理原文我爱吃苹果 Token 1: 我 → ID: 23412 Token 2: 爱 → ID: 18903 Token 3: 吃 → ID: 3321 Token 4: 苹果 → ID: 45021 ← 注意这里苹果是一个 Token没有被拆成苹果再看英文unstoppableToken 1: un → ID: 489 Token 2: stop → ID: 1245 Token 3: pable → ID: 28934 ← 被拆成了 3 个子词这就是子词分词Subword Tokenization——把罕见词拆成更小的常见片段。七、总结Token 和 Tokenizer 是连接人类和 AI 的翻译层。记住三点模型只认数字Tokenizer 负责把文字变成数字编码再把数字变回文字解码。Token 是文本的最小处理单元不等于词切分规则由模型自己学习。Token 直接影响计费、能力上限和生成质量是理解和优化 AI 应用的基础。下一篇我们聊聊 LLM 的记忆是怎么一回事——Context 与 Context Window。本系列文章LLM 大语言模型Token 与 Tokenizer← 你在这里Context 与 Context Window待发布Prompt 提示词待发布Tool 工具调用待发布MCP 模型上下文协议待发布Agent 智能体待发布Agent Skill待发布

查看全文

http://www.rkmt.cn/news/1392797.html