Qwen-Image Edit以AI驱动的文生图编辑功能在数秒内完成创作，让Photoshop都倍感压力-阿里西西

据Photutorial统计，Adobe Photoshop是全球认知度最高的软件之一，超过90%的创意专业人士都在使用。

因此，全新开源AI模型——中国电商巨头阿里巴巴旗下通义千问AI研究团队昨日发布的Qwen-Image Edit——能够仅通过文本输入完成大量类Photoshop编辑任务，堪称重大突破。

基于本月早些时候发布的200亿参数Qwen-Image基础模型，Qwen-Image-Edit将该系统在文本渲染方面的独特优势扩展至广泛编辑场景，从细微外观调整到整体语义转换皆可胜任。

只需上传原始图片（笔者尝试了旧金山VentureBeat年度Transform大会的个人照片），输入修改指令，Qwen-Image-Edit即可返回编辑后的新图像。

输入图像示例：

输出图像示例（指令："让这位男士穿燕尾服"）：

该模型现已在通义千问对话助手、Hugging Face、ModelScope、GitHub及阿里云API等平台开放，后者允许第三方开发者或企业将模型集成至自有应用和工作流。

笔者示例通过通义千问对话助手（Qwen团队对标OpenAI ChatGPT的产品）生成，但需注意：非付费用户每12小时仅限约8次免费生成，付费用户可享更高额度。

Qwen-Image-Edit支持中英双语输入，兼顾语义理解与视觉保真度，旨在降低专业级视觉内容创作门槛。

该模型采用Apache 2.0开源协议，企业可免费下载部署于自有硬件或虚拟云环境，相比Photoshop等商业软件有望实现显著成本节约。

正如通义千问研究员林俊阳在X平台所言："它能精准移除一缕发丝，实现极其精细的图像修改。"

团队公告强调，Qwen-Image-Edit并非全新系统，而是基于Qwen-Image独特文本渲染与双重编码技术自然延伸的编辑工具。

双重编码技术实现风格与内容保留的编辑

Qwen-Image-Edit继承Qwen-Image核心技术，后者是今年初发布的专精图像生成与文本渲染的大模型。

Qwen-Image技术报告曾重点展示其处理段落级文本渲染、中英字符混排及多行布局等复杂任务的能力。

报告还强调其双重编码机制：图像同时输入Qwen2.5-VL模型实现语义控制，并经由变分自编码器(VAE)保留重建细节。这种设计确保编辑结果既符合指令意图，又忠实于原图风格。

Qwen-Image-Edit沿用该架构，通过双重编码实现两级调整：改变场景含义/结构的语义编辑，以及增删元素而不影响其他部分的外观编辑。

语义编辑包括创造新IP、90/180度旋转物体展现不同视角，或将输入转换为吉卜力风格等艺术形式。此类编辑通常涉及大量像素变动，但保留物体本质特征。

AI应用平台Replicate工程师Shridhar Athinarayanan的示例：使用托管版Qwen将曼哈顿照片重制为乐高积木风格。

外观编辑专注局部精准修改。演示案例包括：添加会在水面产生倒影的招牌、移除人像杂发、更改文字图像中单个字母颜色。

AnswerAI联合创始人Thomas Hill在X平台发布的对比图：拱门下穿婚纱的妻子 vs 相同拱门被涂鸦覆盖的版本。

结合Qwen卓越的中英文本渲染能力，这套编辑系统成为需要超越简单生成的创作者的灵活工具。

对语义范围与外观保真的双重控制，使同一工具既能满足创意IP开发，也能胜任专业级照片精修。

图像文本增删改

另一突出功能是双语文本编辑。Qwen-Image-Edit允许用户增删改中英文字，同时保持字体、大小和样式。

这延续了Qwen-Image在复杂中文字符等挑战性场景下的文本渲染优势。

实际应用中，可精准编辑海报、招牌、T恤或书法作品等注重文字细节的场景，如下方Replicate示例所示。

某演示案例通过链式编辑逐步修正生成书法作品的错误：用户标出错误区域→系统修正→细节微调→最终呈现正确字符。这种迭代方式展现了模型在高精度编辑任务中的应用潜力。

应用场景

通义千问团队列举了多领域应用前景：

通过融合精细化编辑与创造性转换，Qwen-Image-Edit既满足专业人士的精准控制需求，也适合非专业用户随意尝试。

性能基准

通义千问团队表示，公开基准测试表明Qwen-Image-Edit具备业界领先的图像编辑性能。

这源于Qwen-Image基础模型在通用图像生成与文本渲染任务中的优异表现。

虽然具体编辑基准数据未披露，但Qwen-Image在AI Arena等第三方评估中，经人类评审对比多个模型输出后获得高位排名。

API定价与可用性

通过阿里云Model Studio，开发者可以API形式调用Qwen-Image-Edit，定价为每图0.045美元，激活后享有180天内100张免费额度。

服务初期开放新加坡区域，速率限制为每秒5次请求，每个账户最多2个并发任务。

开发者需获取Model Studio API密钥，可通过HTTP或Python/Java版DashScope SDK调用。支持512-4,096像素分辨率、最大10MB的URL或Base64格式图像输入，输出图像存储在阿里云OSS，链接24小时有效。

未来展望

通义千问将Image-Edit视为降低视觉内容创作门槛的重要一步。通过提供精准且风格一致的编辑能力，该模型既能服务设计工作室，也能帮助普通用户优化个人项目。

这反映了AI发展的宏观趋势：从单一生成转向融合编辑、校正与优化的工具。

兼具语义灵活性与外观级精度，Qwen-Image-Edit正将大模型的生成能力与专业编辑所需的可靠性相融合。

Qwen-Image Edit以AI驱动的文生图编辑功能在数秒内完成创作，让Photoshop都倍感压力

双重编码技术实现风格与内容保留的编辑

图像文本增删改

应用场景

性能基准

API定价与可用性

未来展望

相关文章

vivo Vision 混合现实头显探索版全国首批 12 家官方授权体验店公布，第二批后续开放

2025最新全球五大加密货币交易所交易量排名

高通 SM8845 芯片被曝非 8s 系列改名：台积电 N3P 工艺、自研 Oryon 架构

消息称英特尔正与其它大型投资者谈判，欲复刻软银“优惠价入股”融资合同

从TB级数据到洞察力：现实世界AI可观测性架构

Win10 / Win11 版 64 位金山 WPS 办公套件正式发布：性能提升 50%，历经 15 个月打磨

相关应用

最近更新

网友在玩

相关标签