当前位置：首页 > news >正文

通义千问Qwen重磅发布Qwen-Image-Edit：开创图像编辑“语义+外观“双控新纪元

news 2026/5/27 1:49:28

通义千问Qwen重磅发布Qwen-Image-Edit：开创图像编辑"语义+外观"双控新纪元

【免费下载链接】Qwen-Image-Edit-MeiTu项目地址: https://ai.gitcode.com/hf_mirrors/valiantcat/Qwen-Image-Edit-MeiTu

8月19日，人工智能领域再添突破性进展——通义千问Qwen正式对外发布全新图像编辑模型Qwen-Image-Edit。作为Qwen-Image模型的升级版，该产品基于200亿参数的Qwen-Image架构深度优化而来，首次实现文本渲染能力向图像编辑领域的跨场景迁移，攻克了图片文字精准修改的行业难题。更值得关注的是，该模型创新性地采用双路径输入机制，将原始图像同步馈送至Qwen2.5-VL视觉语言模型与VAE编码器，构建起兼具语义逻辑控制与视觉细节还原的双重编辑体系。目前，用户可通过访问Qwen Chat官方平台（chat.qwen.ai），在功能菜单中选择"图像编辑"模块体验这项技术。

Qwen-Image-Edit的核心竞争力体现在三大技术突破：首先是开创"语义-外观"协同编辑范式，既支持像素级精细修改（如物体增删、元素调整），确保图像其他区域保持原始状态；又能实现高层语义转换（如IP角色创作、三维视角变换、艺术风格迁移），允许整体视觉重构但维持核心语义一致性。其次是突破多语言文字编辑瓶颈，支持中英文双语环境下的文本精准操控，可在完整保留原始字体、字号、排版风格的前提下，直接对图片中的文字内容进行添加、删除与修改。最后是建立行业领先的基准性能，在多项国际权威图像编辑评测中均取得SOTA（State-of-the-Art）结果，奠定其作为基础编辑模型的技术优势地位。

在众多技术亮点中，语义与外观的双重编辑能力构成了Qwen-Image-Edit的核心差异化优势。语义编辑技术的核心价值在于，能够在改变图像像素分布的同时，完整保留原始内容的核心语义特征。以官方展示的Qwen吉祥物"卡皮巴拉"编辑案例为例，即便经过多轮创作迭代，编辑后的图像虽然在视觉呈现上与原始素材存在显著差异，但依然精准维持了角色的身份特征与形象辨识度。这种特性为原创IP的多元化开发提供了强大技术支撑——开发团队通过在Qwen Chat平台设计基于MBTI十六型人格的系列编辑指令，成功将卡皮巴拉形象拓展为风格迥异的表情包矩阵，验证了该技术在IP衍生创作中的商业价值。

视角转换功能进一步展现了语义编辑的技术深度。通过对比官方发布的实证案例可见，Qwen-Image-Edit不仅能够实现物体90度的平面旋转，更支持180度的三维视角转换，使原本不可见的物体背面细节得到精准呈现。这种空间感知能力突破了传统图像编辑工具的平面局限，为产品设计、室内装潢等需要多视角展示的场景提供了全新解决方案。

艺术风格迁移则彰显了模型在美学表达上的创造力。当输入普通人物头像时，系统可快速将其转化为吉卜力动画、油画、素描等数十种艺术风格，且保持人物核心特征不变。这项技术已在虚拟偶像打造、游戏角色定制等领域展现出应用潜力，特别是在元宇宙内容创作中，能够大幅降低高质量视觉资产的生产门槛。

相较于语义编辑的创造性，外观编辑功能更注重对图像细节的精准把控。该技术的核心诉求是在进行局部修改时，确保图像其他区域的像素信息完全不受影响，实现真正意义上的"无痕编辑"。在官方演示的指示牌添加案例中，模型不仅准确生成了符合场景透视的指示牌主体，还自动补全了水面倒影等环境光效细节，达到专业设计师的修图水准。另一项颇具实用价值的功能是微小物体消除，系统能够精准识别并移除图片中如发丝、污渍等细小干扰元素，且不会对周围背景造成任何损伤。在文字颜色修改测试中，模型成功将指定字母"n"的色调调整为蓝色，同时完整保留了字体纹理与光影效果，展示出像素级的操控精度。

在人物图像处理领域，外观编辑技术展现出独特优势。无论是复杂背景的智能替换、服装款式的实时变更，还是饰品细节的精准调整，系统均能在保持人物主体特征不变的前提下，实现场景元素的自然融合。这种能力为电商平台的商品展示、影视后期制作等行业提供了高效工具，据测算可将传统修图流程耗时缩短60%以上。

文字编辑功能作为Qwen-Image-Edit的另一项核心突破，继承了Qwen-Image模型在文本渲染领域的技术积累。在英文场景测试中，系统可直接对图片中的英文文本进行内容替换，且新生成文字的字体、字号、倾斜角度与原始文本保持高度一致。更值得关注的是其中文编辑能力——即便是在分辨率较低的海报图片中，模型也能精准识别细小文字区域，实现中文字符的增删改操作，解决了长期困扰行业的图片文字编辑难题。

官方展示的"兰亭集序"书法修复案例，生动诠释了该模型的链式编辑能力。当系统首次尝试修改"稽"字时，虽然整体字形基本正确，但右下角误将"旨"部写为"日"部。通过二次编辑指令，用户用红框圈定错误区域并发出修正提示，模型成功完成细节调整。这种渐进式编辑机制允许用户通过多轮交互持续优化效果，最终获得完全符合规范的书法作品。该案例不仅验证了模型的精细操控能力，更展示了人机协作完成复杂创作任务的可能性。

目前，Qwen-Image-Edit已通过多平台开放生态建设，降低技术应用门槛。开发者可通过ModelScope（https://modelscope.cn/models/Qwen/Qwen-Image-Edit）、Hugging Face（https://huggingface.co/Qwen/Qwen-Image-Edit）及GitHub（https://github.com/QwenLM/Qwen-Image）获取模型权重与技术文档，快速搭建定制化编辑工具。随着AIGC技术的持续演进，Qwen-Image-Edit所开创的"语义+外观"双控编辑范式，有望重塑图像内容创作的生产流程，推动设计、营销、娱乐等行业进入智能化创作新纪元。未来，随着多模态交互技术的深化发展，我们或将见证图文编辑向"自然语言指令驱动"的全流程变革，真正实现"所想即所见"的创作自由。

【免费下载链接】Qwen-Image-Edit-MeiTu项目地址: https://ai.gitcode.com/hf_mirrors/valiantcat/Qwen-Image-Edit-MeiTu

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.rkmt.cn/news/84001.html