【南洋理工-林达华组-arXiv25】棱镜假说：通过统一自编码协调语义与像素表征-尧图网站建设

📅 发布时间：2026/6/20 2:41:20

文章：The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

代码：https://github.com/WeichenFan/UAE

单位：南洋理工大学

近年来，AI基础模型在感知（比如图像识别）和生成（比如图像创作）领域都取得了巨大突破，但这两大方向却长期“各自为战”：

为了兼顾两者，过去的研究要么把语义编码器嵌入生成模型，要么给像素编码器加文本监督，但都只是“表面融合”——要么细节丢失，要么语义跑偏，始终没实现真正的统一。核心痛点在于：如何让模型既懂“是什么”，又能还原“长什么样”？

论文团队跳出传统思路，提出了一个极具启发的“棱镜假说”，并基于此设计了Unified Autoencoding（UAE）统一编码器，完美解决了语义与像素的融合问题。

就像棱镜能把白光分解成不同光谱，论文发现：所有自然信息（图片、文字）都能拆成“频率成分”：

这一假说的关键洞察是：不同模态（图、文）本质是同一“信息光谱”的不同投影，语义对齐靠低频成分，细节还原靠高频成分，只要拆分合理就能实现和谐共存。

基于棱镜假说，UAE的设计思路很简单——“先拆分、再融合、强对齐”：

整个过程就像“先定骨架，再填血肉”，既保证了“不认错”，又做到了“画得像”。

论文在ImageNet和MS-COCO两大权威数据集上做了全面测试，结果让人眼前一亮：

在ImageNet上，UAE的PSNR（清晰度指标）从RAE基线的18.05飙升到29.65，SSIM（相似度指标）从0.50提升到0.88，rFID（感知质量指标）从2.04降至0.19（越低越好），相当于清晰度和相似度翻倍，感知质量提升90%+；
在MS-COCO上，表现同样亮眼：PSNR达29.23，SSIM达0.89，rFID仅0.18，远超同类统一编码器，甚至能媲美Flux-VAE、SD3-VAE等专门的生成模型。

用ViT-B backbone做线性探测，UAE的ImageNet分类准确率达83.0%，不仅超过了VFMTok（69.4%）、BEiT（73.5%）等大模型，还和专门的语义模型RAE打平，证明其低频语义带完美保留了分类能力。

在类别条件生成任务中，UAE的gFID达1.68，IS达301.6，接近当前SOTA水平，且生成过程从低频到高频逐步细化，既保证了全局合理，又不缺局部细节。

这篇论文用“棱镜假说”打通了语义与像素的壁垒，UAE统一编码器通过频率拆分与融合，让模型既能“看懂”抽象含义，又能“画准”精细细节，为多模态理解与生成提供了兼顾性能、效率和兼容性的实用方案，有望成为下一代基础模型的核心组件。