尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

AI全景之第六章第一节:语言模型演进

AI全景之第六章第一节:语言模型演进
📅 发布时间:2026/6/20 18:44:24

第六章:自然语言处理技术全景

6.1 语言模型演进:从n-gram到BERT

学习目标

理解语言模型的核心任务与评估方法,掌握从统计语言模型到神经语言模型的关键技术跃迁,深入理解BERT的预训练范式创新及其历史意义,为后续大语言模型学习奠定基础。


一、语言模型的基本问题定义

1.1 什么是语言模型?

核心任务:语言模型(Language Model, LM)旨在计算一个词序列的概率,或预测序列中下一个词的概率分布。

数学形式:给定词序列w 1 , w 2 , . . . , w T w_1, w_2, ..., w_Tw1​,w2​,...,wT​,语言模型计算联合概率:
[
P(w_1, w_2, …, w_T) = \prod_{t=1}^T P(w_t | w_1, …, w_{t-1})
]

两大核心能力:

  1. 生成:采样生成符合语言规律的文本
  2. 评估:判断文本的流畅性与合理性

1.2 语言模型的关键挑战

维度灾难

词典大小∣ V ∣ |V|∣V∣通常为万到百万量级,n nn个词的联合概率空间大小为∣ V ∣ n |V|^n∣V∣n,完全不可枚举。

长距离依赖

自然语言中,相隔较远的词之间可能存在强依赖关系,如主谓一致、指代关系等。

数据稀疏性

实际语料中,大多数词序列组合从未出现,但模型需要合理估计其概率。


二、统计语言模型时代

2.1 n-gram模型:马尔可夫假设的实践

核心思想

通过马尔可夫假设简化条件概率计算:一个词的概率只依赖于其前n − 1 n-1n−1个词。

n-gram概率估计:
[
P(w_t | w_1, …, w_{t-1}) \approx P(w_t | w_{t-n+1}, …, w_{t-1})
]

n的选择权衡
n值模型名称优势劣势
1unigram参数少,估计稳定忽略所有上下文
2bigram捕捉局部依赖长距离依赖缺失
3trigram平衡性能与复杂度数据稀疏问题显著
4+4-gram, 5-gram捕捉更长上下文参数爆炸,严重稀疏
参数估计:最大似然估计

从语料中统计n-gram出现频次:
[
P(w_t | w_{t-n+1}, …, w_{t-1}) = \frac{\text{count}(w_{t-n+1}, …, w_t)}{\text{count}(w_{t-n+1}, …, w_{t-1})}
]

2.2 平滑技术:应对稀疏数据

加一平滑(Laplace Smoothing)

为所有n-gram计数加1:
[
P_{\text{add-one}}(w_t | w_{t-1}) = \frac{\text{count}(w_{t-1}, w_t) + 1}{\text{count}(w_{t-1}) + |V|}
]

古德-图灵估计(Good-Turing)

将频次r rr的n-gram概率估计调整为r ∗ r^*r∗:
[
r^* = (r+1) \frac{N_{r+1}}{N_r}
]
其中N r N_rN

相关新闻

  • 拆解Mate X7的“超可靠折叠玄武架构”:从内到外全身都很“硬”!
  • 4453
  • Java计算机毕设之基于SpringBoot+Vue实现的前后端分离的高校毕业设计选题系基于SpringBoot和Vue的毕业设计选题管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

最新新闻

  • 2026南京奢品高价回收白皮书|对比全城价,杜绝低价收割闲置 - 讯息早知道
  • GPC 凝胶净化色谱|月旭 GPC 系统基质净化实测与国标配套方案 - 新闻快传
  • 6月武汉奢侈品回收,这些奢侈品包包手表首饰出手前最好心中有数 - 钦扬网络
  • NVIDIA显卡广色域显示器色彩校准终极指南:使用novideo_srgb实现专业级色彩精度
  • 沈阳家长必看!给宝宝起名千万别犯这 5 个错误 - 资讯速览
  • 2026海南正规财税机构服务商哪家强?本土十大财税公司排行榜单 - 资讯速览

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号