当前位置: 首页 > news >正文

Subword-Based Tokenization策略之BPE与BBPE - 指南

在NLP中,Subword算法用于将单词拆分为更小的语义单元,也就是子词,以解决OOV和数据稀疏性问题。

1、BPE

Byte-Pair Encoding,字节对编码

核心思想:词频统计,词表合并

步骤

  1. 初始化词汇表为所有基础字符。

  2. 统计相邻符号对的频率,合并最高频的对。

  3. 重复合并直到达到预设的词汇表大小或迭代次数。

案例:

语料 = ["low low low", "lower lower", "newest newest", "wider"]

设置迭代次数为2

初始化词汇表:{l,o,w,,e,r,n,s,t,i,d,/w}

统计相邻符号对
low:lo (3) ,ow(3)  w</w>(3)

lower:lo (2) ,ow(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的对:lo(3+2) ,ow(3+2) 

在 BPE(Byte Pair Encoding)算法中,当多个字符对频率相同时,选择哪个先合并,没有唯一标准,但通常采用“字典序优先”或“任意选择”。

这个选择会影响最终的子词单元构成,但影响通常是局部的、有限的,在大规模语料中趋于稳定。

这里选择lo

更新词汇表:{l,o,w,,e,r,n,s,t,i,d,</w>,lo}

得到规则:l + o = lo

进入下一次迭代

第二次统计符号对:

low:low (3) ,w</w>(3)

lower:low(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的子词:low(3+2)

更新词汇表:{l,o,w,,e,r,n,s,t,i,d,</w>,lo,low}

得到规则:lo + w = low

结束迭代

得到最终词汇表:{l,o,w,e,r,n,s,t,i,d,</w>,lo,low}

存在的问题
  • 基本词汇表需要包含所有可能的基本字符,可能相当大.

  • 比如所有Unicode中文字符都被视为基本字符的话,有 10w+。

2、BBPE

Byte-Level Byte-Pair Encoding,BPE的字节级扩展版本,主要用于处理多语言 NLP 任务。

BBPE vs. BPE
特性BPEBBPE
处理单位字符或子词字节、UTF-8编码
适用语言适用于空格分隔语言适用所有语言
OOV 处理仍可能遇到OOV几乎不会有 OOV 问题
存储开销词表较小词表较大,但更具泛化能力

工作原理:原理和BPE一致,只是使用字节(byte)作为初始token,适用于任何文本。

案例:        

语料:深度学习需要一定的学习深度

预处理

首先将句子转换为UTF-8编码的字节序列,十进制表示:

230 183 177 229 186 166 229 173 166 228 185 176 233 156 128 232 166 129 228 184 128 229 174 154 231 154 132 229 173 166 228 185 176 230 183 177 229 186 166
 初始化词汇表

初始词汇表为所有唯一的字节 0-255,但此处仅包含语料中出现的字节:

{128, 129, 132, 154, 156, 166, 171, 173, 174, 177, 183, 184, 185, 186, 228, 229, 230, 231, 232, 233}
初始分词结果

每个字节单独成词

230 183 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 230 183 177 | 229 186 166
统计字节对频率

遍历所有相邻的字节对,统计出现频率:

字节对频率
(230, 183)2
(183, 177)2
(229, 186)2
(186, 166)2
(229, 173)1
......
合并最高频字节对

选择频率最高的字节对进行合并,如 (230, 183)。 合并操作

  • 将 230 \:\: 183 替换为新符号 230\_183。

  • 为该符号新分配一个ID,如 256。

  • 更新词汇表:新增 256 = 230\_183。

  • 此时,我们可以更新分词结果了

    256 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 256 177 | 229 186 166
迭代合并

重复统计和合并,直到达到预设的合并次数或词汇表大小。

第二次合并

  • 统计当前字节对频率,如 (256, 177) 出现 2 次。

  • 合并 256 \:\: 177 为新符号 257 = 256\_177。

更新后的分词结果:

257 | 229 186 166 | 229 173 166 | 228 185 176 | ... | 257 | 229 186 166

第三次合并

  • 合并 (229, 186)。

  • 新符号 258 = 229\_186。

更新后的分词结果:

257 | 258 166 | 229 173 166 | 228 185 176 | ... | 257 | 258 166
 最终词汇表

经过多次合并后,词汇表会包含初始字节和常见组合:

  • 初始字节:230, 183, 177, 229, 186, ...

  • 合并后的符号:

    • 256 = 230\_183

    • 257 = 256\_177

    • 258 = 229\_186

    • 259 = 258\_166

符号的层级关系

如 257 = 256\_177,而 256 = 230\_183,因此 257 实际表示 230\_183\_177,即完整的"深"的UTF-8字节序列。

编码示例

原始句子编码为:

257 259 | 229 173 166 | 228 185 176 | ... | 257 259

其中 257 表示"深",259 表示"度"

当然了,(257, 259) 出现 2 次,下一步合并 (257, 259) → 新符号 260 = 257\_259,即"深度"的完整Token。

所以,这怎么可能会出现 OOV 的问题?

http://www.rkmt.cn/news/43678.html

相关文章:

  • 基于springboot志愿服务管理系统设计与搭建(附源码)
  • /etc/systemd/system和/lib/systemd/system的区别 - Leone
  • 详细介绍:LSTM与GRU:解决RNN梯度消失问题的利器(含代码)
  • 2025年交通信号灯定制厂家权威推荐榜单:红绿灯交通信号灯/机动车信号灯/太阳能信号灯源头厂家精选
  • 一对一直播软件源码,为什么 Java 不支持类多重继承? - 云豹科技
  • Claude Code 体验:让 AI 成为你的编程搭档,效率翻倍指南
  • 2025年连接器厂家权威推荐榜:USB连接器,电池连接器,TYPE-C连接器,防水TYPE-C/USB连接器优质供应商精选
  • 2025年插座厂家权威推荐榜:耳机插座,DC插座,防水耳机插座源头企业综合测评与选购指南
  • 2025年轻触开关厂家推荐排行榜,检测开关,轻触开关,防水轻触开关,微型轻触开关公司最新精选榜单
  • 噬菌体文库构建全流程详解:从基因获取到噬菌体富集
  • hav-cs50-merge-00
  • 《Qt应用开发》笔记p5 - 教程
  • 2025年结合型井盖实力厂家权威榜单:结合井盖/铝合金井盖/彩色井盖实力厂商精选
  • 2025 11 8
  • 2025 年 11 月氧气分析仪厂家推荐排行榜,在线式氧气,固定式氧气,便携式氧气,手持式氧气,工业氧气分析仪公司推荐
  • 自建 vs 托管:TCO 与运维边界对比
  • 2025 年 11 月护栏厂家推荐排行榜,道路护栏,桥梁护栏,市政护栏,锌钢护栏,阳台护栏公司推荐
  • 2025 年 11 月氮氧化物检测仪厂家推荐排行榜,在线式氮氧化物,固定式氮氧化物,便携式氮氧化物,手持式氮氧化物检测仪公司推荐
  • 2025年套管实力厂家权威推荐榜单:自卷式/双层/开口式护/密封式/螺纹式/20#/自熄/和新/方形/对接/自卷套管源头厂家精选
  • 2025 年 11 月臭氧检测仪厂家推荐排行榜,在线式臭氧检测仪,固定式臭氧检测仪,便携式臭氧检测仪,手持式臭氧检测仪,工业臭氧检测仪公司推荐
  • 2025 年 11 月定型机厂家推荐排行榜,拉幅定型机,门富士定型机,节能定型机,余热回收,废气回收,烟气回收,智能排风,双层定型机公司推荐
  • 2025.11.8 NOIP 复活赛总结
  • 完整教程:JMeter之 json提取器与json path语法
  • 简洁思维:python实现插入排序、冒泡排序和选择排序
  • 2025 年 11 月不锈钢酸洗钝化液厂家推荐排行榜,环保型不锈钢管酸洗钝化液,不锈钢清洗钝化液,酸洗钝化处理与不锈钢清洗剂公司推荐
  • 2025 年 11 月 Type-C 连接器厂家推荐排行榜,Type-C 连接器分析,Type-C 连接器模具,高性能连接方案专业制造商精选
  • 2025年深圳保税区域一日游机构权威推荐榜单:综合保税区域一日游/保税地区一日游/保税区一日游源头机构精选
  • 2025 年 11 月不锈钢水箱厂家推荐排行榜,不锈钢方形水箱,组合式水箱,消防水箱,生活水箱,保温水箱,承压水箱,不锈钢水塔公司推荐
  • python:python执行js
  • flask:模板用extends扩充页面内容