当前位置：首页 > news >正文

手把手教你用Python和Matplotlib给三维数据做K-Means聚类可视化（附完整代码）

news 2026/5/28 10:34:40

三维数据聚类实战用Python实现K-Means算法与可视化全流程在数据分析领域聚类算法能帮助我们发现数据中隐藏的自然分组。想象一下你手头有一组包含三个维度的用户行为数据——比如浏览时长、点击次数和购买金额。如何快速识别出具有相似行为模式的用户群体K-Means算法配合三维可视化就是你的理想选择。本文将带你从零开始用Python实现完整的聚类分析流程并生成直观的三维效果图。1. 环境准备与数据理解在开始编码之前我们需要确保开发环境配置正确。推荐使用Anaconda创建Python 3.8的虚拟环境它能方便地管理各种数据分析所需的依赖包。核心工具包安装pip install numpy pandas matplotlib scikit-learn三维数据集通常以以下几种形式存在CSV/Excel表格中的三列数值数据数据库查询结果中的三个特征字段通过API获取的JSON格式三维坐标无论原始数据格式如何最终我们需要将其转换为NumPy数组或Pandas DataFrame结构如下特征1特征2特征31.23.40.52.11.84.2.........提示如果各特征量纲差异较大如年龄0-100 vs 收入0-100000务必先进行标准化处理避免量纲影响聚类结果。2. 数据预处理为聚类做好准备高质量的数据预处理是成功聚类的前提。对于三维数据我们需要重点关注以下几个方面2.1 缺失值处理检查数据完整性是第一步import pandas as pd # 假设数据已加载到df中 print(df.isnull().sum()) # 简单填充策略 df.fillna(df.mean(), inplaceTrue)2.2 特征标准化不同尺度的特征会导致距离计算偏差MinMax标准化是最常用的方法之一from sklearn.preprocessing import MinMaxScaler scaler MinMaxScaler(feature_range(0, 1)) scaled_data scaler.fit_transform(df)标准化前后数据分布对比处理步骤特征1范围特征2范围特征3范围原始数据0-10000-500-1标准化后0-10-10-12.3 异常值检测三维数据中的异常点会显著影响聚类中心位置from scipy import stats # 使用Z-score检测异常值 z_scores stats.zscore(scaled_data) abs_z_scores np.abs(z_scores) filtered_entries (abs_z_scores 3).all(axis1) clean_data scaled_data[filtered_entries]3. K-Means算法实现与调优Scikit-learn提供了高效的K-Means实现但我们先理解其核心原理。3.1 算法核心步骤初始化随机选择K个点作为初始聚类中心分配阶段将每个点分配到最近的聚类中心更新阶段重新计算每个簇的中心点迭代重复2-3步直到中心点不再显著变化手动实现简化版K-Meansfrom sklearn.metrics import pairwise_distances_argmin_min def manual_kmeans(data, k, max_iter100): # 随机初始化中心点 centers data[np.random.choice(data.shape[0], k, replaceFalse)] for _ in range(max_iter): # 分配点到最近中心 labels, _ pairwise_distances_argmin_min(data, centers) # 更新中心点 new_centers np.array([data[labelsi].mean(0) for i in range(k)]) # 检查收敛 if np.allclose(centers, new_centers): break centers new_centers return labels, centers3.2 使用Scikit-learn高效实现生产环境推荐使用优化过的库实现from sklearn.cluster import KMeans # 确定最佳K值 - 肘部法则 inertia [] for k in range(1, 10): kmeans KMeans(n_clustersk, random_state42) kmeans.fit(scaled_data) inertia.append(kmeans.inertia_) # 可视化寻找肘点 plt.plot(range(1, 10), inertia, markero) plt.xlabel(Number of clusters) plt.ylabel(Inertia) plt.show()3.3 聚类质量评估除了肘部法则轮廓系数也是评估聚类效果的重要指标from sklearn.metrics import silhouette_score best_k 3 # 假设通过肘部法则确定 kmeans KMeans(n_clustersbest_k, random_state42) labels kmeans.fit_predict(scaled_data) score silhouette_score(scaled_data, labels) print(f轮廓系数: {score:.3f})轮廓系数解读接近1样本离其他簇很远聚类效果好接近0样本处在决策边界接近-1样本可能被分配到错误簇4. 三维可视化实战Matplotlib的mplot3d工具包提供了强大的三维可视化能力。4.1 基础三维散点图from mpl_toolkits.mplot3d import Axes3D fig plt.figure(figsize(10, 8)) ax fig.add_subplot(111, projection3d) # 为不同簇设置不同颜色 colors [r, g, b, y, c, m] for i in range(best_k): cluster_data scaled_data[labels i] ax.scatter(cluster_data[:, 0], cluster_data[:, 1], cluster_data[:, 2], ccolors[i], labelfCluster {i1}, s50, alpha0.6) # 标记聚类中心 centers kmeans.cluster_centers_ ax.scatter(centers[:, 0], centers[:, 1], centers[:, 2], cblack, markerx, s200, linewidths3) ax.set_xlabel(Feature 1) ax.set_ylabel(Feature 2) ax.set_zlabel(Feature 3) plt.legend() plt.title(3D K-Means Clustering Result) plt.tight_layout() plt.show()4.2 可视化增强技巧旋转动画可以让三维结构更清晰from matplotlib.animation import FuncAnimation def update(frame): ax.view_init(elev20, azimframe) return fig, ani FuncAnimation(fig, update, framesnp.arange(0, 360, 2), interval50) ani.save(cluster_rotation.gif, writerpillow, fps15)交互式可视化使用Plotly效果更佳import plotly.express as px df_plot pd.DataFrame(scaled_data, columns[Feat1, Feat2, Feat3]) df_plot[Cluster] labels.astype(str) fig px.scatter_3d(df_plot, xFeat1, yFeat2, zFeat3, colorCluster, opacity0.7, titleInteractive 3D Clustering) fig.update_traces(marker_size5) fig.show()4.3 高级可视化元素添加决策边界能更清晰展示聚类区域# 创建网格点 x_min, x_max scaled_data[:, 0].min() - 0.1, scaled_data[:, 0].max() 0.1 y_min, y_max scaled_data[:, 1].min() - 0.1, scaled_data[:, 1].max() 0.1 z_min, z_max scaled_data[:, 2].min() - 0.1, scaled_data[:, 2].max() 0.1 xx, yy, zz np.meshgrid(np.linspace(x_min, x_max, 10), np.linspace(y_min, y_max, 10), np.linspace(z_min, z_max, 10)) # 预测网格点类别 grid_points np.c_[xx.ravel(), yy.ravel(), zz.ravel()] grid_labels kmeans.predict(grid_points) # 绘制半透明决策区域 ax.scatter(grid_points[:, 0], grid_points[:, 1], grid_points[:, 2], cgrid_labels, alpha0.02, s1)5. 实战案例用户分群分析假设我们有一组电商用户的三维行为数据X轴每月访问次数5-50次Y轴平均停留时长1-30分钟Z轴转化率0%-20%应用完整流程后的分析步骤数据清洗去除机器人访问异常高访问量零转化标准化处理MinMax标准化各维度确定K值肘部法则确定最佳K4聚类分析得到4个典型用户群体三维可视化清晰展示群体分布特征典型聚类结果解读群体访问频率停留时长转化率营销策略建议1高中高忠诚客户推荐高价值商品2高长低浏览型用户需要促销刺激3低短低潜在流失客户需召回策略4中中中普通用户常规运营维护三维可视化中可能会发现群体2和群体3在某个维度上非常接近群体1明显与其他群体分离存在少量边界点难以明确分类这些洞察能帮助运营团队制定更精准的营销策略。比如对处于群体2和群体3边界上的用户可以采用A/B测试来确定最适合的沟通方式。

查看全文

http://www.rkmt.cn/news/1412442.html