当前位置：首页 > news >正文

用Python搞定CIC-IDS-2017数据集：从原始CSV到机器学习可用的完整预处理流程

news 2026/5/28 0:53:47

用Python搞定CIC-IDS-2017数据集从原始CSV到机器学习可用的完整预处理流程网络安全领域的研究者和数据科学家们常常面临一个共同挑战如何将原始网络流量数据转化为机器学习模型能够理解的格式。CIC-IDS-2017作为网络安全领域广泛使用的基准数据集包含了多种常见攻击类型和正常流量是训练入侵检测系统的理想选择。本文将带你一步步完成从原始CSV文件到最终可用于机器学习模型的完整预处理流程每个步骤都配有详细的Python代码示例和原理说明。1. 理解CIC-IDS-2017数据集在开始预处理之前我们需要先了解这个数据集的基本特征和结构。CIC-IDS-2017数据集由加拿大网络安全研究所收集模拟了真实的办公网络环境包含5天的网络流量数据正常流量周一全天的网络活动攻击流量周二至周五实施的各种攻击包括暴力破解FTP/SSH拒绝服务攻击DoS/DDoSHeartbleed漏洞利用Web攻击渗透测试僵尸网络活动数据集以CSV格式提供每个文件包含80个特征列和1个标签列。特征包括基本连接信息、流量统计特征和时间相关特征等。标签列标识每条记录是正常流量还是特定类型的攻击。数据集关键特点特性描述时间跨度5天周一到周五攻击类型8大类多种变体特征数量80个网络流量特征数据规模多个CSV文件总计约3GB数据质量包含缺失值和文本标签2. 环境准备与数据加载开始预处理前我们需要设置Python环境并安装必要的库。推荐使用Anaconda创建虚拟环境conda create -n ids-preprocess python3.8 conda activate ids-preprocess pip install pandas numpy scikit-learn加载数据时我们使用pandas库的read_csv函数。由于数据集文件较大建议逐块处理import pandas as pd # 加载单个CSV文件 file_path Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv try: # 尝试使用低内存模式加载 data pd.read_csv(file_path, low_memoryFalse) except pd.errors.ParserError: # 处理可能的解析错误 data pd.read_csv(file_path, error_bad_linesFalse) print(f数据集形状: {data.shape}) print(f前5行数据:\n{data.head()})常见问题处理编码问题如果遇到编码错误尝试指定encodingISO-8859-1内存不足使用chunksize参数分块读取标题行问题原始数据可能包含多余的行需要跳过3. 数据清洗与缺失值处理原始数据通常包含各种质量问题需要系统性地清洗3.1 处理缺失值首先检查数据中的缺失值情况# 检查每列的缺失值比例 missing_values data.isnull().sum() / len(data) * 100 print(missing_values[missing_values 0]) # 可视化缺失值分布 import matplotlib.pyplot as plt plt.figure(figsize(10,6)) missing_values[missing_values 0].plot(kindbar) plt.title(缺失值比例分布) plt.ylabel(缺失比例(%)) plt.show()根据缺失值比例我们可以采取不同策略删除高缺失列如果某列缺失值超过70%考虑直接删除插补中等缺失对于30%-70%缺失的列使用中位数或特定值填充保留低缺失低于30%的可以删除对应行# 删除高缺失列 threshold 0.7 data data.loc[:, data.isnull().mean() threshold] # 删除剩余缺失值的行 data data.dropna() print(f清洗后数据集形状: {data.shape})3.2 处理异常值网络流量数据常包含极端值可能影响模型性能# 检查数值列的统计分布 numeric_cols data.select_dtypes(include[float64, int64]).columns data[numeric_cols].describe().T对于异常值可以采用以下方法截断法将超出特定分位数的值设为该分位数对数变换对右偏分布的特征取对数分箱处理将连续值离散化# 截断处理示例 def winsorize_series(series, lower0.05, upper0.95): lower_bound series.quantile(lower) upper_bound series.quantile(upper) return series.clip(lower_bound, upper_bound) data[numeric_cols] data[numeric_cols].apply(winsorize_series)4. 特征工程与转换4.1 文本标签编码数据集中的攻击类型是文本标签需要转换为数值from sklearn.preprocessing import LabelEncoder # 初始化标签编码器 label_encoder LabelEncoder() # 提取标签列假设最后一列是标签 labels data.iloc[:, -1] # 拟合编码器并转换 encoded_labels label_encoder.fit_transform(labels) # 查看编码映射 print(标签编码映射:) for i, label in enumerate(label_encoder.classes_): print(f{label}: {i}) # 替换原始标签列 data.iloc[:, -1] encoded_labels4.2 特征标准化不同特征的尺度差异很大需要进行标准化from sklearn.preprocessing import StandardScaler # 分离特征和标签 features data.iloc[:, :-1] labels data.iloc[:, -1] # 初始化标准化器 scaler StandardScaler() # 拟合并转换特征 scaled_features scaler.fit_transform(features) # 转换回DataFrame scaled_df pd.DataFrame(scaled_features, columnsfeatures.columns) scaled_df[label] labels print(标准化后的特征示例:) print(scaled_df.head())4.3 特征选择并非所有特征都对入侵检测有用我们可以进行特征选择from sklearn.feature_selection import SelectKBest, f_classif # 选择前20个最重要的特征 selector SelectKBest(score_funcf_classif, k20) selected_features selector.fit_transform(scaled_features, labels) # 获取被选中的特征名 mask selector.get_support() selected_cols features.columns[mask] print(最重要的20个特征:) print(selected_cols)5. 数据集划分与保存预处理完成后我们需要将数据划分为训练集和测试集from sklearn.model_selection import train_test_split # 划分数据集 X_train, X_test, y_train, y_test train_test_split( selected_features, labels, test_size0.2, random_state42, stratifylabels ) # 保存处理后的数据 import numpy as np np.savez(processed_ids_data.npz, X_trainX_train, X_testX_test, y_trainy_train, y_testy_test) # 同时保存特征名和标签编码器 import joblib joblib.dump(selected_cols, selected_features.pkl) joblib.dump(label_encoder, label_encoder.pkl)完整预处理流程总结加载并检查原始数据处理缺失值和异常值编码文本标签标准化数值特征选择重要特征划分并保存数据集6. 高级预处理技巧6.1 处理类别不平衡网络流量数据通常存在严重的类别不平衡# 查看类别分布 import seaborn as sns plt.figure(figsize(10,6)) sns.countplot(xlabels) plt.title(类别分布) plt.xticks(rotation45) plt.show()处理方法包括过采样少数类使用SMOTE算法欠采样多数类随机删除部分多数类样本类别权重在模型训练时调整类别权重from imblearn.over_sampling import SMOTE smote SMOTE(random_state42) X_resampled, y_resampled smote.fit_resample(X_train, y_train)6.2 时间特征处理网络流量数据包含时间维度可以提取额外特征# 假设数据包含时间戳列需要根据实际列名调整 timestamps pd.to_datetime(data[timestamp]) # 提取时间特征 data[hour] timestamps.dt.hour data[day_of_week] timestamps.dt.dayofweek data[is_weekend] data[day_of_week].isin([5,6]).astype(int)6.3 特征交互创建特征间的交互项可能提升模型性能# 选择重要数值特征交互 top_features [Flow Duration, Total Fwd Packets, Total Backward Packets] for i in range(len(top_features)): for j in range(i1, len(top_features)): col_name f{top_features[i]}_x_{top_features[j]} data[col_name] data[top_features[i]] * data[top_features[j]]在实际项目中我发现特征交互对检测某些特定攻击类型如DDoS特别有效但需要注意避免过度增加特征维度。

查看全文

http://www.rkmt.cn/news/1408716.html