尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

传音TEX AI团队AI消除算法技术成果入选ECCV 2026

传音TEX AI团队AI消除算法技术成果入选ECCV 2026
📅 发布时间:2026/7/2 14:35:18

传音控股TEX AI团队联合上海交通大学最新产学研成果“AI消除算法”,近日成功被计算机视觉领域国际顶级会议ECCV 2026( European Conference on Computer Vision)接收。ECCV与CVPR、ICCV长期被认为是计算机视觉领域最具影响力的国际顶级学术会议之一,每两年举办一届。本届会议共有10,473篇论文进入评审流程,最终2,883篇论文被接收,接收率为27.5%。

该研究成果聚焦智能手机影像领域中的重要AI能力——AI目标消除(AI Object Removal),突破传统扩散模型推理效率瓶颈,在保持高质量生成效果的同时,大幅降低模型推理成本,为生成式AI技术在移动终端影像场景中的规模化应用提供了新的技术路径。未来,该技术将应用于传音手机图库AI消除能力以及智能助手AI修图产品,为全球用户带来更加自然、高效、智能的影像编辑体验。

从“多步生成”到“单步推理”,突破AI消除效率瓶颈

随着智能手机影像能力不断升级,用户对于照片编辑的要求也从简单的滤镜、美化,提高到基于生成式AI的智能编辑,AI正在重新定义移动影像体验。其中,AI目标消除作为生成式影像的重要应用方向,可以帮助用户快速去除照片中的路人、杂物、文字等干扰内容,并自动恢复自然背景。当前基于扩散模型的生成式编辑方法虽然具备优秀的视觉生成能力,但通常依赖多轮迭代去噪过程,推理耗时较长,难以满足手机影像场景对于实时交互、快速响应和低计算成本的需求。

针对上述挑战,TEX AI算法团队联合上海交通大学开展深入研究,探索如何将先进生成式AI技术转化为适用于智能终端场景的高效算法能力。团队创新性地提出OSOR(One-Step Object Removal)单步扩散目标消除算法框架,将复杂的多步扩散生成过程压缩为一次前向推理,实现了高质量与高效率兼顾的AI消除能力。相比传统扩散式消除方案,该技术实现了显著的速度提升,在多个测试场景中达到4倍至30倍推理加速,同时保持优异的图像生成质量。在1024×1024分辨率图像处理任务中,可在单张A100 GPU上实现1秒以内完成推理。这一突破进一步推动生成式AI影像技术从“高质量生成”向“高效率应用”发展,为未来智能手机中的实时AI编辑提供技术基础。

图示:OSOR与现有方法推理速度和效果对比。OSOR能够有效消除目标物体及其关联视觉影响(如阴影),在保持高质量生成效果的同时,相比次优方法ObjectClear实现10.6倍推理加速。单张1024×1024分辨率图像可在单张A100 GPU上1秒内完成处理。该效果对比基于六个公开测试基准综合得出。

面向真实用户场景,让AI消除更加简单可靠

在真实手机影像场景中,用户通常不会进行精细化的目标标注,而是通过简单涂抹、圈选等方式选择希望移除的对象。因此,如何适应用户输入的不精准性,并在复杂拍摄环境下实现自然恢复,成为AI消除技术走向产品化的重要挑战。与此同时,真实照片中的目标物体往往与周围环境存在复杂的视觉关联,例如阴影、反射、倒影等,仅对目标区域进行简单移除容易造成背景不自然、画面违和等问题。

针对这些实际使用难点,团队研究提出了面向真实交互场景优化的鲁棒性AI消除方案。通过引入轻量化Alpha区域感知机制,模型能够智能理解用户选定区域与目标物体之间的关系,自动推断目标主体及其关联影响范围。即使用户圈选区域存在偏差,模型仍能够完成更完整、更精准的目标移除,并恢复自然一致的背景环境。此外,团队针对真实目标消除任务构建了系统化的数据生成与验证流程,建立包含28万组高质量目标消除样本的数据集,为模型学习复杂场景理解能力提供了可靠的数据支撑。

这些技术创新推动AI消除能力从传统的“删除目标”,进一步升级为基于场景理解的“智能重建”,让用户能够以更简单的操作获得更加自然真实的照片编辑效果。

图示:模型能够基于用户提供的不完整目标掩码,智能推理待消除目标及其附带阴影等视觉影响区域,实现完整区域识别,并完成自然背景恢复。

此次入选ECCV 2026,是传音在计算机视觉领域的又一重要成果。长期以来,传音持续关注视觉智能、生成式AI、多模态交互等前沿方向的研究,并致力于将这些能力转化为可落地的终端产品体验,逐步打通从基础研究、技术研发到产品开发的创新链路。

基于此次研究成果,图库AI消除与智能助手AI修图能力将率先在传音手机产品中落地,帮助用户快速去除照片中的干扰元素,实现更自然的影像优化,同时结合多模态理解能力,提升照片编辑的智能化与自动化水平。未来,传音将继续以用户真实需求为出发点,加速AI技术在智能终端场景中的创新应用,让更多用户享受到更智能、高效、自然的影像体验。

相关新闻

  • 低成本条码采集系统设计与实现:基于LV30和PIC18F4550
  • League Akari 1.5.0:英雄联盟LCU工具箱完整使用教程,快速提升游戏效率
  • STM32G431KB与LV3296嵌入式数据采集系统设计

最新新闻

  • 遗传算法实战:N皇后问题的Python实现与工程调优
  • Anthropic归零提示层:隐式结构化推理与零提示开销实践
  • 文字到多模态:三层架构实现语义一致的图文音视频生成
  • Python开发中五个提升代码效率的小技巧
  • 无人机设计塑胶材料选型指南
  • RAG中Chunk Size如何选择:语义完整性与向量检索的平衡术

日新闻

  • Python Playwright录制功能:从零到一构建自动化测试脚本
  • 如何用开源工具永久保存你心爱的小说:novel-downloader全攻略
  • In-Context Learning不是教知识,而是模式对齐:从5个示例到100个工业级样本的真相

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号