Qwen-Image Edit以AI驱动的文生图编辑功能在数秒内完成创作,让Photoshop都倍感压力

时间:2025-08-21 16:00:03来源:互联网

下面小编就为大家分享一篇Qwen-Image Edit以AI驱动的文生图编辑功能在数秒内完成创作,让Photoshop都倍感压力,具有很好的参考价值,希望对大家有所帮助。

据Photutorial统计,Adobe Photoshop是全球认知度最高的软件之一,超过90%的创意专业人士都在使用。

因此,全新开源AI模型——中国电商巨头阿里巴巴旗下通义千问AI研究团队昨日发布的Qwen-Image Edit——能够仅通过文本输入完成大量类Photoshop编辑任务,堪称重大突破。

基于本月早些时候发布的200亿参数Qwen-Image基础模型,Qwen-Image-Edit将该系统在文本渲染方面的独特优势扩展至广泛编辑场景,从细微外观调整到整体语义转换皆可胜任。

只需上传原始图片(笔者尝试了旧金山VentureBeat年度Transform大会的个人照片),输入修改指令,Qwen-Image-Edit即可返回编辑后的新图像。

输入图像示例:

输出图像示例(指令:"让这位男士穿燕尾服"):

该模型现已在通义千问对话助手Hugging FaceModelScopeGitHub阿里云API等平台开放,后者允许第三方开发者或企业将模型集成至自有应用和工作流。

笔者示例通过通义千问对话助手(Qwen团队对标OpenAI ChatGPT的产品)生成,但需注意:非付费用户每12小时仅限约8次免费生成,付费用户可享更高额度。

Qwen-Image-Edit支持中英双语输入,兼顾语义理解与视觉保真度,旨在降低专业级视觉内容创作门槛。

该模型采用Apache 2.0开源协议,企业可免费下载部署于自有硬件或虚拟云环境,相比Photoshop等商业软件有望实现显著成本节约。

正如通义千问研究员林俊阳在X平台所言:"它能精准移除一缕发丝,实现极其精细的图像修改。"

团队公告强调,Qwen-Image-Edit并非全新系统,而是基于Qwen-Image独特文本渲染与双重编码技术自然延伸的编辑工具。

双重编码技术实现风格与内容保留的编辑

Qwen-Image-Edit继承Qwen-Image核心技术,后者是今年初发布的专精图像生成与文本渲染的大模型。

Qwen-Image技术报告曾重点展示其处理段落级文本渲染、中英字符混排及多行布局等复杂任务的能力。

报告还强调其双重编码机制:图像同时输入Qwen2.5-VL模型实现语义控制,并经由变分自编码器(VAE)保留重建细节。这种设计确保编辑结果既符合指令意图,又忠实于原图风格。

Qwen-Image-Edit沿用该架构,通过双重编码实现两级调整:改变场景含义/结构的语义编辑,以及增删元素而不影响其他部分的外观编辑

语义编辑包括创造新IP、90/180度旋转物体展现不同视角,或将输入转换为吉卜力风格等艺术形式。此类编辑通常涉及大量像素变动,但保留物体本质特征。

AI应用平台Replicate工程师Shridhar Athinarayanan的示例:使用托管版Qwen将曼哈顿照片重制为乐高积木风格。

外观编辑专注局部精准修改。演示案例包括:添加会在水面产生倒影的招牌、移除人像杂发、更改文字图像中单个字母颜色。

AnswerAI联合创始人Thomas Hill在X平台发布的对比图:拱门下穿婚纱的妻子 vs 相同拱门被涂鸦覆盖的版本。

结合Qwen卓越的中英文本渲染能力,这套编辑系统成为需要超越简单生成的创作者的灵活工具。

对语义范围与外观保真的双重控制,使同一工具既能满足创意IP开发,也能胜任专业级照片精修。

图像文本增删改

另一突出功能是双语文本编辑。Qwen-Image-Edit允许用户增删改中英文字,同时保持字体、大小和样式。

这延续了Qwen-Image在复杂中文字符等挑战性场景下的文本渲染优势。

实际应用中,可精准编辑海报、招牌、T恤或书法作品等注重文字细节的场景,如下方Replicate示例所示。

某演示案例通过链式编辑逐步修正生成书法作品的错误:用户标出错误区域→系统修正→细节微调→最终呈现正确字符。这种迭代方式展现了模型在高精度编辑任务中的应用潜力。

应用场景

通义千问团队列举了多领域应用前景:

通过融合精细化编辑与创造性转换,Qwen-Image-Edit既满足专业人士的精准控制需求,也适合非专业用户随意尝试。

性能基准

通义千问团队表示,公开基准测试表明Qwen-Image-Edit具备业界领先的图像编辑性能。

这源于Qwen-Image基础模型在通用图像生成与文本渲染任务中的优异表现。

虽然具体编辑基准数据未披露,但Qwen-Image在AI Arena等第三方评估中,经人类评审对比多个模型输出后获得高位排名。

API定价与可用性

通过阿里云Model Studio,开发者可以API形式调用Qwen-Image-Edit,定价为每图0.045美元,激活后享有180天内100张免费额度

服务初期开放新加坡区域,速率限制为每秒5次请求,每个账户最多2个并发任务

开发者需获取Model Studio API密钥,可通过HTTP或Python/Java版DashScope SDK调用。支持512-4,096像素分辨率、最大10MB的URL或Base64格式图像输入,输出图像存储在阿里云OSS,链接24小时有效。

未来展望

通义千问将Image-Edit视为降低视觉内容创作门槛的重要一步。通过提供精准且风格一致的编辑能力,该模型既能服务设计工作室,也能帮助普通用户优化个人项目

这反映了AI发展的宏观趋势:从单一生成转向融合编辑、校正与优化的工具。

兼具语义灵活性与外观级精度,Qwen-Image-Edit正将大模型的生成能力与专业编辑所需的可靠性相融合。

本站部分内容转载自互联网,如果有网站内容侵犯了您的权益,可直接联系我们删除,感谢支持!