当前位置: 首页 > news >正文

AI全景之第六章第一节:语言模型演进

第六章:自然语言处理技术全景

6.1 语言模型演进:从n-gram到BERT

学习目标

理解语言模型的核心任务与评估方法,掌握从统计语言模型到神经语言模型的关键技术跃迁,深入理解BERT的预训练范式创新及其历史意义,为后续大语言模型学习奠定基础。


一、语言模型的基本问题定义

1.1 什么是语言模型?

核心任务:语言模型(Language Model, LM)旨在计算一个词序列的概率,或预测序列中下一个词的概率分布。

数学形式:给定词序列w 1 , w 2 , . . . , w T w_1, w_2, ..., w_Tw1,w2,...,wT,语言模型计算联合概率:
[
P(w_1, w_2, …, w_T) = \prod_{t=1}^T P(w_t | w_1, …, w_{t-1})
]

两大核心能力

  1. 生成:采样生成符合语言规律的文本
  2. 评估:判断文本的流畅性与合理性

1.2 语言模型的关键挑战

维度灾难

词典大小∣ V ∣ |V|V通常为万到百万量级,n nn个词的联合概率空间大小为∣ V ∣ n |V|^nVn,完全不可枚举。

长距离依赖

自然语言中,相隔较远的词之间可能存在强依赖关系,如主谓一致、指代关系等。

数据稀疏性

实际语料中,大多数词序列组合从未出现,但模型需要合理估计其概率。


二、统计语言模型时代

2.1 n-gram模型:马尔可夫假设的实践

核心思想

通过马尔可夫假设简化条件概率计算:一个词的概率只依赖于其前n − 1 n-1n1个词。

n-gram概率估计
[
P(w_t | w_1, …, w_{t-1}) \approx P(w_t | w_{t-n+1}, …, w_{t-1})
]

n的选择权衡
n值模型名称优势劣势
1unigram参数少,估计稳定忽略所有上下文
2bigram捕捉局部依赖长距离依赖缺失
3trigram平衡性能与复杂度数据稀疏问题显著
4+4-gram, 5-gram捕捉更长上下文参数爆炸,严重稀疏
参数估计:最大似然估计

从语料中统计n-gram出现频次:
[
P(w_t | w_{t-n+1}, …, w_{t-1}) = \frac{\text{count}(w_{t-n+1}, …, w_t)}{\text{count}(w_{t-n+1}, …, w_{t-1})}
]

2.2 平滑技术:应对稀疏数据

加一平滑(Laplace Smoothing)

为所有n-gram计数加1:
[
P_{\text{add-one}}(w_t | w_{t-1}) = \frac{\text{count}(w_{t-1}, w_t) + 1}{\text{count}(w_{t-1}) + |V|}
]

古德-图灵估计(Good-Turing)

将频次r rr的n-gram概率估计调整为r ∗ r^*r
[
r^* = (r+1) \frac{N_{r+1}}{N_r}
]
其中N r N_rN

http://www.rkmt.cn/news/143080.html

相关文章:

  • 拆解Mate X7的“超可靠折叠玄武架构”:从内到外全身都很“硬”!
  • 4453
  • Java计算机毕设之基于SpringBoot+Vue实现的前后端分离的高校毕业设计选题系基于SpringBoot和Vue的毕业设计选题管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • Java毕设项目:基于SpringBoot和Vue的毕业设计选题管理系统的设计与实现(源码+文档,讲解、调试运行,定制等)
  • 6436
  • 东莞精密机械加工工厂如何实现多名研发人员共享一台SolidWorks服务器来代替传统电脑
  • 2026年 Java 面试八股文(20w字)
  • Mate 80 系列智控键再升级!一滑呼出通知中心,竟可如此优雅?
  • 4634634564534
  • 人机协同:AI重构内容创作的价值逻辑
  • C语言中的变量类型
  • 2025现代化渗透测试:安全工程师的技术与道德完全指南
  • 基于Springboot开发的精简博客系统的设计与实现
  • GSDB全球金融制裁数据库
  • 【数据分享】1942-2024年全国观测站点逐日气象指标数据
  • HarmonyOS 5开发从入门到精通(九):动画与交互效果
  • Python用LightGBM、XGBoost、随机森林及Optuna超参数优化的航班票价数据集预测研究|附代码数据
  • FCKEditor组件支持WORD公式粘贴保留矢量属性
  • HarmonyOS 5开发从入门到精通(八):本地数据存储与持久化
  • 【毕业设计】基于SpringBoot和Vue的毕业设计选题管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 计算机专业毕业论文开题报告:研究方法写作示例与技术思路解析
  • 营销系统性能优化实战:50维度100万活动号求交集的精准性能对比
  • 知网AIGC疑似度90%?3步实操降到5%,亲测答辩顺利通过!
  • Stable Diffusion AIGC 视觉设计实战教程之 08-高级图像处理
  • 什么是 ‘Volatile’ 关键字?解析它在硬件交互中防止编译器优化的作用(及它与多线程无关的真相)
  • 解析 ‘Placement New’:如何在指定的物理内存地址(如 MMIO 寄存器)构造 C++ 对象?
  • 毕设开源 stm32 RFID员工打卡门禁系统(源码+硬件+论文)
  • k8s langfuse/langfuse 无法启动 error loading seccomp filter into kernel
  • 光伏MPPT仿真之变步长扰动观察法探索
  • GPU资源隔离:为多个用户提供独立推理环境的架构设计