机器学习之数据集划分及验证和测试-尧图网站建设

📅 发布时间：2026/6/20 6:09:28

在标准的机器学习流程中，数据集通常被划分为以下几个主要部分：

1）. 训练集 (Training Set)

2）. 验证集 (Validation Set)

3）. 测试集 (Testing Set / Holdout Set)

主要有两种策略来划分数据集：

1）. 留出法（Hold-out Method / 简单划分）

这是最基础的划分方法，将数据集一次性划分为训练集和测试集（有时也包括验证集）。

2）. 交叉验证（Cross-Validation, CV）

为了克服留出法的随机性和数据利用率低的问题，交叉验证被广泛使用，其中最常用的是 K 折交叉验证（K-Fold CV）。

方法：
1. 将数据集随机平均分成 K 个大小相似的子样本（折，Fold）。
2. 进行 K 次独立的模型训练和评估。每一次，都使用其中 K-1 个子集作为训练集，剩下的那 1 个子集作为验证集（或测试集）。
3. 最终，将 K 次评估结果取平均值，得到一个更稳定、更可靠的模型性能估计。
优点：数据利用率高，评估结果更稳定、可靠。
缺点：计算成本高，需要训练 K 次模型。

在机器学习领域，验证（Validation）和测试（Testing）是模型开发过程中两个不同且关键的阶段，使用的数据集也不同。

在机器学习和深度学习中，**验证（Validation）**的核心目标是评估模型的泛化能力，并据此调整模型的超参数或进行模型选择。主要的验证方法可以分为以下几大类：

1. 标准单次划分验证

这是最基本、最常用的方法，将数据集一次性划分为训练集、验证集和测试集。

数据集划分比例：常见的比例有 70% 训练集，15% 验证集，15% 测试集；或者在深度学习中（数据量很大时），使用 98% 训练集，1% 验证集，1% 测试集。
优点：实现简单，计算成本低。
缺点：验证结果依赖于具体的随机划分方式，如果数据划分不具有代表性，验证结果可能存在偏差。

2. 交叉验证 (Cross-Validation, CV)

交叉验证是一种更鲁棒的验证方法，尤其适用于中小型数据集的机器学习模型调优。它通过多次不同的划分来全面评估模型性能。

a. K折交叉验证 (K-Fold Cross-Validation)

这是最流行的交叉验证形式。

方法：将训练数据集分成 K 个大小相等的“折”（Fold）。每次训练时，使用 K-1 折作为训练数据，剩下的一折作为验证数据。重复 K 次，每次使用不同的折作为验证集。
结果：最终的模型性能取 K 次验证结果的平均值。
优点：更全面地评估模型性能，减少了划分方式带来的偏差，更好地利用了有限的数据。
缺点：计算成本高，需要训练 K 个模型，在深度学习中很少直接用于调优（耗时太长）。

b. 留一法交叉验证 (Leave-One-Out Cross-Validation, LOOCV)

c. 分层K折交叉验证 (Stratified K-Fold CV)

3. 时间序列交叉验证 (Time Series Cross-Validation)

方法：对于时间序列数据，不能随机打乱顺序。必须按照时间顺序进行划分，确保模型只能使用过去的数据预测未来的数据（例如，使用 2023 年的数据预测 2024 年 Q1 的数据）。
用途：金融、天气预报等时间依赖性强的数据集。

4. 深度学习中的验证方法

在深度学习中，由于模型训练时间长、数据量大，通常使用标准单次划分验证结合早停法：

标准划分 + 早停法 (Early Stopping)：在训练过程中，周期性地（例如每个 Epoch 结束时）在验证集上评估模型损失或准确率。如果模型在验证集上的性能连续几个周期没有改善甚至开始下降，就提前停止训练。这既能有效防止过拟合，又能节省大量计算时间。

总结与推荐