最大似然估计（MLE）-尧图网站建设

📅 发布时间：2026/7/1 19:25:31

最大似然估计（Maximum Likelihood Estimation，简称 MLE）是统计学和机器学习中最核心的参数估计方法。

如果说 “均方误差（MSE）” 是为了衡量预测得准不准，那么“最大似然估计”就是为了解决一个更根本的问题：当我们观察到一堆数据后，如何反推出产生这些数据背后的“规则（参数）”？

本文我们用通俗的语言和生活中的例子来拆解。

通俗解释：
最大似然估计的核心思想是：既然这件事已经发生了，那么导致它发生的概率最大的那个原因，就是最真实的真相。

生活中的例子：
假设你在一个不透明的箱子里摸球。你摸了 10 次，摸出了 9 个红球，1 个白球。
现在让你猜箱子里红球和白球的比例是多少？

用脚趾头想也知道，你会选 A。因为在“红球占 90%”这个假设下，连续摸出 9 个红球的**可能性（似然）**是最大的。而如果是 50% 的比例，摸出这种结果的概率极低。

最大似然估计就是：寻找一个参数（比如红球的比例），使得我们当前观察到的这组数据出现的概率达到最大。

在数学上，MLE 的过程非常严谨，通常分为三步：

写出似然函数（Likelihood Function）：
假设数据是相互独立的，把每个数据点出现的概率乘在一起，得到一个总概率公式。这个公式里，数据是已知的，未知的是参数（比如均值μ\muμ或方差σ2\sigma^2σ2）。
取对数（Log-Likelihood）：
因为一堆概率乘在一起数字会非常小，而且乘法求导很麻烦。所以我们对这个式子取对数（Log），把“乘法”变成“加法”，数学上更好处理。
求导并令其为 0（最大化）：
把这个对数似然函数看作一个抛物线，我们对参数求导数，并让导数等于 0。找到这个“山顶”（最大值点），此时的参数值，就是最大似然估计的结果。

还记得我们前面的博文中聊过的正态分布和线性回归吗？它们在这里完美闭环了：

MLE 与正态分布：
如果我们假设数据服从正态分布，并使用 MLE 去推导它的均值μ\muμ和方差σ2\sigma^2σ2，你会发现：MLE 算出来的均值μ\muμ，刚好就是所有样本的算术平均数！算出来的方差，也刚好是样本方差。这说明 MLE 完全符合我们的直觉。
MLE 与线性回归（重点）：
线性回归寻找最佳直线时，用的是“最小二乘法”（让均方误差 MSE 最小）。
但这其实不是拍脑袋决定的。如果我们假设线性回归的误差项服从正态分布，然后使用最大似然估计（MLE）去推导，数学上推导出来的结果，刚好就是“最小化均方误差（MSE）”！
💡 核心洞察：
“最小二乘法”和“最大似然估计”在正态分布的假设下，是完全等价的。MSE 只是 MLE 在特定条件下的一个特例。这解释了为什么线性回归要用 MSE，因为它的底层逻辑就是 MLE。

理论基础极其扎实：在样本量足够大的情况下，MLE 估计出的参数具有“一致性”和“渐近正态性”（通俗说就是：数据越多，它给出的答案越准，且误差分布很规律）。
万能框架：只要你能写出数据的概率分布（似然函数），无论是正态分布、泊松分布还是逻辑回归，都可以用 MLE 来求解参数。它是现代机器学习（包括深度学习）的基石。

极度依赖假设：MLE 的前提是你必须猜对数据的分布。如果你明明知道数据是偏态的，却硬套正态分布的 MLE，得出的结果就会很离谱。
容易过拟合（Overfitting）：MLE 只看着眼前的数据，容易把数据里的“噪音”也当成“规律”学进去。如果数据量太少，MLE 可能会给出非常极端的参数。
💡 补救措施：为了解决这个问题，后来人们发明了MAP（最大后验估计），在 MLE 的基础上加了一个“先验惩罚”（比如 L1/L2 正则化），防止模型学得太偏。

最大似然估计（MLE）是一种“由果推因”的哲学。它认为：能让当前观测数据发生概率最大的那个参数，就是最合理的参数。它是连接概率论与机器学习的桥梁，也是最小二乘法背后的终极解释。

最大似然估计（MLE）