尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

【LLM基础教程】统计语言模型N-gram

【LLM基础教程】统计语言模型N-gram
📅 发布时间:2026/6/19 0:33:40

​ 在深度学习语言模型(LSTM、Transformer)出现之前,统计语言模型(Statistical Language Model, SLM)长期占据 NLP 主流地位。它们通过对大量语料进行统计,来估计词序列的概率,是最早被广泛应用于机器翻译、语音识别等系统的语言模型形式。

​ 其中最经典、最重要的统计语言模型就是n-gram 模型。

1. n-gram 的基本思想

​ 根据概率论中的链式法则,长度为TTT的词序列x1,⋯ ,xTx_1, \cdots, x_Tx1​,⋯,xT​的联合概率可以写成:
p(x1,⋯ ,xT)=∏t=1TP(xt∣x1:t−1) p(x_1, \cdots, x_T)=\prod_{t=1}^{T} P(x_t \mid x_{1:t-1})p(x1​,⋯,xT​)=t=1∏T​P(xt​∣x1:t−1​)
​ 也就是说,如果我们能够正确建模每一个词在给定前文的情况下出现的概率,就能计算整句的概率。然而,这里会遇到一个致命问题:条件依赖长度太长!。xtx_txt​要依赖前面所有词,但真实语料根本不可能覆盖如此巨大的组合空间。

​ 于是,n-gram 模型引入了简化假设:马尔可夫假设。

(1) 马尔可夫假设

  • 一个词的出现只依赖它前面的n−1n-1n−1个词,而不是整个历史。

  • 基于这一假设,我们将复杂的条件概率近似为:
    P(xt∣x1:t−1)≈P(xt∣xt−n+1:t−1) P(x_{t}|x_{1:t-1}) \approx P(x_t|x_{t-n+1:t-1})P(xt​∣x1:t−1​)≈P(xt​∣xt−n+1:t−1​)
    这样,原本需要完整上下文的模型就简化成了只依赖固定长度窗口的模型,也就是n-gram 模型。

(2) n-gram 的概率估计

Maximum Likelihood Estimation

​ n-gram 的核心是计算:
P(xt∣xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1}, \cdots, x_{t-1})P(xt​∣xt−n+1​,⋯,xt−1​)
​ 用最大似然估计(MLE)可以直接通过计数求得:
P(xt∣xt−n+1,⋯ ,xt−1)=Count(xt−n+1,⋯ ,xt−1,xt)Count(xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1},\cdots,x_{t-1}) = \frac{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1}, x_{t})}{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1})}P(xt​∣xt−n+1​,⋯,xt−1​)=Count(xt−n+1​,⋯,xt−1​)Count(xt−n+1​,⋯,xt−1​,xt​)​
​nnn的阶数越高,对应的依赖关系就越长。

  • 1-gram(Unigram)

    Unigram 假设所有词独立出现,因此整句概率为:
    P(x1,⋯ ,xt)=∏i=1tP(xi) P(x_1, \cdots, x_t) = \prod_{i=1}^t P(x_i)P(x1​,⋯,xt​)=i=1∏t​P(xi​)
    此模型忽略了所有上下文信息,效果通常最差。

  • 2-gram(Bigram)

    基于一阶马尔可夫假设

    Bigram 是最常用的基础 n-gram 模型,它假设每个词只依赖前一个词:
    P(x1,⋯ ,xt)=P(x1)∏i=2tP(xi∣xi−1) P(x_1, \cdots, x_t) = P(x_1)\prod_{i=2}^t P(x_i|x_{i-1})P(x1​,⋯,xt​)=P(x1​)i=2∏t​P(xi​∣xi−1<

相关新闻

  • Nigx配置
  • gpt-oss-20b RESTful API设计与集成指南
  • 【玩转全栈】----Django根本设置和介绍

最新新闻

  • GEO获客优化推广与传统SEO、短视频搜索的差异化体验解析 - 起跑123
  • Camunda BPM平台:5个步骤快速掌握开源工作流自动化框架 [特殊字符]
  • 2026重庆防水补漏维修团队实测盘点TOP4:重庆业主房屋渗漏修缮靠谱选择 - 宅安选房屋修缮
  • CANN/asc-devkit asc_mul_add函数
  • 【新】5p216基于Hadoop的CBA球员数据可视化分析系统的设计3(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 探索Awesome Agent Skills:如何通过1000+官方技能库提升AI助手生产力

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号