尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Math - 中心化,标准化和归一化

Math - 中心化,标准化和归一化
📅 发布时间:2026/6/20 18:58:02

归一化(Normalization)是把数据或物理量转换为无量纲或统一尺度的处理,使不同来源、不同量纲或不同量级的数据具有可比性,便于比较、加权、融合与后续计算。典型情形包括:把数值缩放到[0, 1]或[-1, 1]区间,或将分布调整为具有零均值、单位方差的形式;在信号处理中,也常把频率按奈奎斯特频率归一化到[0, 1]以便设计与比较。

常见方法公式与适用场景

方法

公式

输出范围/性质

典型用途与注意

Min-Max 缩放

x' = (x − X_min) / (X_max − X_min)

[0, 1](可推广到[a, b])

特征缩放、图像处理;对异常值敏感,新增数据可能改变极值

Z-score 标准化

x' = (x − μ) / σ

均值0、标准差1

假设近似正态、算法需稳定尺度的场景(如SVM、KNN、神经网络

以上方法在不同学科中还有变体与扩展,选择取决于数据分布、业务约束与算法需求。

与标准化中心化的区别

* 归一化:强调把特征缩放到固定区间(如[0, 1])或满足特定约束(如概率和为1),常由极值或分布参数决定,属于“重缩放”。

* 标准化(Z-score):把特征转换为零均值、单位方差,强调分布层面的对齐,属于“重缩放+平移”。

* 中心化:仅做减均值(x' = x − μ),不改变尺度。

信号处理与图像处理:以奈奎斯特频率归一化频率到[0, 1]便于滤波器设计与比较;图像像素强度归一化到[0, 1]便于显示、融合与相似度计算。

概念与作用

在数据分析与机器学习中,标准化指对特征做中心化与缩放,使特征具有零均值、单位方差(Z-score),或将数据线性缩放到固定区间(Min-Max)。其核心目的是消除量纲差异、提升可比性,并改善基于距离或梯度的算法的收敛速度与稳定性。典型地,Z-score 转换公式为:z = (x − μ) / σ;Min-Max 为:x' = (x − X_min) / (X_max − X_min)。需要注意,标准化通常会改变数据的分布范围与数值尺度,因此应保存所用的均值/标准差/极值等参数以便一致地应用于新数据。

常用方法公式与适用场景

Min-Max 标准化(线性映射到[0,1]或[a,b])

* 公式:x' = (x − X_min)/(X_max − X_min);若映射到[a,b]:x' = a + (b − a)·(x − X_min)/(X_max − X_min)。

* 适用:需要固定输出范围(如图像像素[0,255]→[0,1])、距离度量或神经网络输入。

* 优点:直观、保留单调关系;缺点:对异常值敏感,新增数据可能越界。

Z-score 标准化(均值0、标准差1)

* 公式:z = (x − μ)/σ。

* 适用:特征单位不同、可能存在未知极值/离群值、或算法假设近似正态(如回归、SVM、KNN、PCA、神经网络)。

* 优点:消除量纲、稳健于未知边界;缺点:均值与标准差受异常值影响。

* 术语边界

* 中心化:x' = x − μ(仅平移,均值变0,方差不变)。

* 标准化(Z-score):中心化后再按标准差缩放(均值0、标准差1)。

* 归一化(常见口语):多指Min-Max 缩放到固定区间;在不少资料中也作为“标准化/缩放”的泛称,需结合上下文辨析。

* 与数据清洗的关系

* 标准化不替代清洗。应先处理缺失值、异常值、重复与错误,再做标准化,以避免参数估计被污染。

* 方法选择速览

* 需要固定范围(如0–1)或图像/可视化:优先Min-Max。

* 单位不同、存在离群或未知极值、做距离/协方差/PCA相关分析:优先Z-score。

流程建议

1. 数据清洗:处理缺失/异常/重复/错误,统一单位与编码。

2. 探索分布:绘制直方图/箱线图,评估偏度/峰度与异常值。

3. 选择方法:依据模型与业务约束在Min-Max / Z-score / 分位数等中取舍。

4. 拟合与转换:在训练集上拟合(计算μ、σ、min、max或分位数),再转换验证/测试/线上数据,避免数据泄露。

5. 记录与复用:持久化scaler/参数与版本,保证推理一致性。

6. 评估与回溯:用统计描述与可视化核验标准化效果,必要时回滚或调整方法。


z分数(z-score),也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。

z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。 z分数是一种可以看出某分数在分布中相对位置的方法。

z分数能够真实的反映一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成z分数,那么每一个z分数会以标准差为单位表示一个具体分数到平均数的距离或离差。将成正态分布的数据中的原始分数转换为z分数,我们就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。一个数列的各z分数的平方和等于该数列数据的个数,并且z分数的标准差和方差都为1.平均数为0.

Z分数的应用主要有:①表示各原始数据在数据组中的相对位置;②对于正态数据,可表示该数据以下或以上数据的比例,具体说可以求解诸如分数线问题或人数比例问题;③表示标准化测验的分数;④用于异常值的取舍。标准分数在学生教育评价中常有以下五种应用:纵横比较、成绩等级化、标准转化、等级比例确定、品质评定数量化。


相关新闻

  • 西安交大突破:视觉语言模型功能词忽略提升鲁棒性
  • 利用RSS订阅扩大技术内容影响力范围
  • 写一个简单的Linux驱动程序

最新新闻

  • 如何用Ice拯救你的Mac菜单栏?3步打造极致整洁的工作空间
  • 盘点抖店主流上货工具:抖掌柜核心功能全解,商家高频疑问一次性解答(2026最新) - 抖掌柜
  • LPC213x I2C驱动开发:寄存器解析、状态机实战与调试指南
  • 智己LS6和问界M7怎么选?2026款值得买的深度对比与理性选购建议 - 外贸老黄
  • Agent 越能干,你越不敢放手?ANOLISA给它穿上全套防护
  • OpenWRT终极指南:iStore软件中心3大核心问题完整解决方案

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号