传音TEX AI团队AI消除算法技术成果入选ECCV 2026-尧图网站建设

$传音TEX AI团队AI消除算法技术成果入选ECCV 2026$

📅 发布时间：2026/7/2 14:35:18

传音控股TEX AI团队联合上海交通大学最新产学研成果“AI消除算法”，近日成功被计算机视觉领域国际顶级会议ECCV 2026（ European Conference on Computer Vision）接收。ECCV与CVPR、ICCV长期被认为是计算机视觉领域最具影响力的国际顶级学术会议之一，每两年举办一届。本届会议共有10,473篇论文进入评审流程，最终2,883篇论文被接收，接收率为27.5%。

该研究成果聚焦智能手机影像领域中的重要AI能力——AI目标消除（AI Object Removal），突破传统扩散模型推理效率瓶颈，在保持高质量生成效果的同时，大幅降低模型推理成本，为生成式AI技术在移动终端影像场景中的规模化应用提供了新的技术路径。未来，该技术将应用于传音手机图库AI消除能力以及智能助手AI修图产品，为全球用户带来更加自然、高效、智能的影像编辑体验。

从“多步生成”到“单步推理”，突破AI消除效率瓶颈

随着智能手机影像能力不断升级，用户对于照片编辑的要求也从简单的滤镜、美化，提高到基于生成式AI的智能编辑，AI正在重新定义移动影像体验。其中，AI目标消除作为生成式影像的重要应用方向，可以帮助用户快速去除照片中的路人、杂物、文字等干扰内容，并自动恢复自然背景。当前基于扩散模型的生成式编辑方法虽然具备优秀的视觉生成能力，但通常依赖多轮迭代去噪过程，推理耗时较长，难以满足手机影像场景对于实时交互、快速响应和低计算成本的需求。

针对上述挑战，TEX AI算法团队联合上海交通大学开展深入研究，探索如何将先进生成式AI技术转化为适用于智能终端场景的高效算法能力。团队创新性地提出OSOR（One-Step Object Removal）单步扩散目标消除算法框架，将复杂的多步扩散生成过程压缩为一次前向推理，实现了高质量与高效率兼顾的AI消除能力。相比传统扩散式消除方案，该技术实现了显著的速度提升，在多个测试场景中达到4倍至30倍推理加速，同时保持优异的图像生成质量。在1024×1024分辨率图像处理任务中，可在单张A100 GPU上实现1秒以内完成推理。这一突破进一步推动生成式AI影像技术从“高质量生成”向“高效率应用”发展，为未来智能手机中的实时AI编辑提供技术基础。

图示：OSOR与现有方法推理速度和效果对比。OSOR能够有效消除目标物体及其关联视觉影响（如阴影），在保持高质量生成效果的同时，相比次优方法ObjectClear实现10.6倍推理加速。单张1024×1024分辨率图像可在单张A100 GPU上1秒内完成处理。该效果对比基于六个公开测试基准综合得出。

面向真实用户场景，让AI消除更加简单可靠

在真实手机影像场景中，用户通常不会进行精细化的目标标注，而是通过简单涂抹、圈选等方式选择希望移除的对象。因此，如何适应用户输入的不精准性，并在复杂拍摄环境下实现自然恢复，成为AI消除技术走向产品化的重要挑战。与此同时，真实照片中的目标物体往往与周围环境存在复杂的视觉关联，例如阴影、反射、倒影等，仅对目标区域进行简单移除容易造成背景不自然、画面违和等问题。

针对这些实际使用难点，团队研究提出了面向真实交互场景优化的鲁棒性AI消除方案。通过引入轻量化Alpha区域感知机制，模型能够智能理解用户选定区域与目标物体之间的关系，自动推断目标主体及其关联影响范围。即使用户圈选区域存在偏差，模型仍能够完成更完整、更精准的目标移除，并恢复自然一致的背景环境。此外，团队针对真实目标消除任务构建了系统化的数据生成与验证流程，建立包含28万组高质量目标消除样本的数据集，为模型学习复杂场景理解能力提供了可靠的数据支撑。

这些技术创新推动AI消除能力从传统的“删除目标”，进一步升级为基于场景理解的“智能重建”，让用户能够以更简单的操作获得更加自然真实的照片编辑效果。

图示：模型能够基于用户提供的不完整目标掩码，智能推理待消除目标及其附带阴影等视觉影响区域，实现完整区域识别，并完成自然背景恢复。

此次入选ECCV 2026，是传音在计算机视觉领域的又一重要成果。长期以来，传音持续关注视觉智能、生成式AI、多模态交互等前沿方向的研究，并致力于将这些能力转化为可落地的终端产品体验，逐步打通从基础研究、技术研发到产品开发的创新链路。

基于此次研究成果，图库AI消除与智能助手AI修图能力将率先在传音手机产品中落地，帮助用户快速去除照片中的干扰元素，实现更自然的影像优化，同时结合多模态理解能力，提升照片编辑的智能化与自动化水平。未来，传音将继续以用户真实需求为出发点，加速AI技术在智能终端场景中的创新应用，让更多用户享受到更智能、高效、自然的影像体验。