当前位置: 首页 > news >正文

02 - Token 与 Tokenizer:模型如何“读懂“文字

这是从 LLM 到 Agent Skill系列的第二篇。上一篇我们讲了 LLM 的本质是文字接龙但模型不认识汉字——它只认识数字。那么文字是怎么变成数字的这就要聊 Token 和 Tokenizer。一、一个根本问题模型不识字你有没有想过一个很基本的问题大语言模型里面全是矩阵运算、浮点数乘法——这玩意儿怎么处理床前明月光五个汉字答案是它处理不了。模型不认识汉字。模型只认识数字。所以在你输入的每一个字到达模型内部之前它必须被翻译成数字。这个翻译官就叫Tokenizer。二、Tokenizer 是什么Tokenizer分词器是连接人类语言和机器语言的一座桥梁。它做两件事人类文字 ──编码(Encode)──→ 数字Token ID 数字Token ID ──解码(Decode)──→ 人类文字2.1 编码Encode当你在 ChatGPT 里输入你好世界在你按下发送键之后、模型开始计算之前Tokenizer 会先把这 5 个字变成一串数字例如你好世界 → [12345, 678, 91011]这串数字进入模型内部进行矩阵运算模型预测出下一个 Token ID再由 Tokenizer 解码回汉字呈现在你眼前。2.2 解码Decode模型输出的也是一串数字。Tokenizer 负责反向翻译[12345, 678, 91011] → 你好世界同样的 Tokenizer同一套编码/解码规则确保输入和输出使用相同的语言。三、Token文本的最小单位3.1 Token ≠ 词Token是 AI 处理文本的最小基本单元。这里有一个最常见的误区Token 就是词语。不是的。Token 和词不是一一对应的。Tokenizer 有自己的切分规则而这个规则是模型在训练过程中自己学会的不是人工定义的。举个例子文本可能的 Token 切分程序员[程序, 员]或[程序员]看模型running[run, ning]unbelievable[un, believe, able]Tokenizer 会把常见词或词根作为一个 Token把罕见词拆成更小的子词subword。3.2 中英文的 Token 差异一个很有用的经验公式语言1 个 Token 大约等于英文~0.75 个单词中文~1.52 个汉字也就是说同样的信息量中文比英文消耗更多 Token。这是一些中文 AI 应用成本更高的原因之一。四、为什么 Token 这么重要你可能觉得 Token 只是一个底层技术细节。但实际上它在应用层面有三个直接影响4.1 计费绝大多数大模型 API 都按 Token 计费。你输入的 TokenInput Token和模型输出的 TokenOutput Token都算钱。知道了中英文的 Token 差异你就明白为什么优化 Prompt 的长度能直接省钱。4.2 能力上限模型的 Context Window 是用 Token 数量来衡量的。比如一个模型的 Context Window 是 128K Token翻译成中文大约是 19 万25 万汉字。超过这个长度模型就看不见了。4.3 生成质量模型生成文本的过程就是逐个 Token 预测的过程。一些你看到的AI 胡言乱语本质上是预测链条中某一个 Token 走偏了然后偏差在后续的接龙中不断放大。五、常见 Tokenizer 与在线工具不同模型使用不同的 Tokenizer切分结果也不同。常见的 Tokenizer 包括Tokenizer使用者cl100k_baseGPT-4 / GPT-3.5o200k_baseGPT-4oClaude TokenizerClaude 系列你可以用在线工具直观感受 Token 的切分OpenAI Tokenizerplatform.openai.com/tokenizerTiktokenizertiktokenizer.vercel.app 开源可视化工具随便输入一段文本你就能看到它被切成了多少个 Token、每个 Token 是什么。六、一个具体的例子我们以中文我爱吃苹果为例某 Tokenizer 可能这样处理原文我爱吃苹果 ​ Token 1: 我 → ID: 23412 Token 2: 爱 → ID: 18903 Token 3: 吃 → ID: 3321 Token 4: 苹果 → ID: 45021 ← 注意这里苹果是一个 Token没有被拆成苹果再看英文unstoppableToken 1: un → ID: 489 Token 2: stop → ID: 1245 Token 3: pable → ID: 28934 ← 被拆成了 3 个子词这就是子词分词Subword Tokenization——把罕见词拆成更小的常见片段。七、总结Token 和 Tokenizer 是连接人类和 AI 的翻译层。记住三点模型只认数字Tokenizer 负责把文字变成数字编码再把数字变回文字解码。Token 是文本的最小处理单元不等于词切分规则由模型自己学习。Token 直接影响计费、能力上限和生成质量是理解和优化 AI 应用的基础。下一篇我们聊聊 LLM 的记忆是怎么一回事——Context 与 Context Window。本系列文章LLM 大语言模型Token 与 Tokenizer← 你在这里Context 与 Context Window待发布Prompt 提示词待发布Tool 工具调用待发布MCP 模型上下文协议待发布Agent 智能体待发布Agent Skill待发布
http://www.rkmt.cn/news/1392797.html

相关文章:

  • 精准测量,智控未来——线性位置传感器
  • Amphenol ICC DRPC21B001140线束应用介绍
  • 海尔智能家居设备接入HomeAssistant完整指南:8个步骤实现全屋设备统一控制
  • FPGA高速接口测试利器:并行PRBS生成器的设计与验证
  • 订阅 Token Plan 套餐后月度模型调用成本得到了有效控制
  • 领域泛化新思路:质心相似度损失与自适应梯度融合提升语音语言识别鲁棒性
  • 企业法务诉讼管理系统推荐:从选型到落地的实战指南
  • 第十七章:AI产品独有的指标体系
  • IPD决策评审DCP(2):从战略到执行的关口与资源博弈
  • 终极网盘直链下载助手:免费解锁九大网盘真实下载地址的完整指南
  • 企业大屏数据终于不用人站旁边讲了:魔珐星云+DeepSeek让3D数字人当数据洞察官
  • 从安防监控到智能办公:一篇搞懂PoE供电的4种接法(含新旧设备混搭方案)
  • 2026年AI工具避坑清单:6类高隐性成本工具已失效,3类新兴架构工具正加速替代
  • Lovable平台开发必须跨过的3道坎:术语一致性管理、上下文感知译文缓存、AI人工协同工作流——错过再等半年
  • ChatGPT语音对话功能落地指南:从麦克风权限配置、降噪模型调优到合规录音存储的8步生产级部署清单
  • 从选型到部署:一文读懂WinCC经典版与博途版的核心差异与兼容性指南
  • 2026年模拟/射频IC设计原理图与版图EDA工具榜单:Synopsys Custom Compiler领衔选型指南
  • 新手必看:解决‘vue不是内部或外部命令‘的保姆级排查指南(附Node.js环境变量配置)
  • 别再为自动化学报LaTeX模板抓狂了!手把手教你用Overleaf搞定(附2024修正版模板)
  • 远程水泵变频控制系统:节能降耗,大幅降低运行成本
  • 猫抓Cat-Catch终极指南:三步搞定浏览器资源嗅探与流媒体下载
  • 微信小程序蓝牙打印避坑指南:连接不稳定、数据乱码、多模板切换,我是如何解决的?
  • 智能断路器:智能照明系统的数字化电气安全内核
  • AI写论文值得拥有!4款AI论文写作法宝,让写论文变得简单!
  • ArduPilot硬件抽象层(HAL)实战:以STM32为例,看I2C/SPI传感器如何被驱动
  • 解决Codex对话Reconnecting…;timeout waiting for child process to exit
  • HASS.Agent:3个关键步骤让Windows电脑无缝融入Home Assistant智能家居生态
  • SuperCoT-X:基于超像素原型对比的高光谱图像自监督学习框架
  • 从Python2到Buildroot:详解创龙T113-i SDK在非标准Ubuntu下的完整编译流程
  • 告别JMeter!用K6和JavaScript写性能测试脚本,开发都说好上手