Qwen-Image 模型

模型及量化格式分类

  • 通义千问原版:BF16
  • ComfyOrg:FP8
  • DiffSynth-Studio:Distill-Full(BF16)
  • City96 QuantStack:GGUF(包含 Q8_0、Q6_K、Q5_K_S、Q5_K_M、Q5_I、Q5_0、Q4_K_S、Q4_K_M、Q4_I、Q4_0、Q3_K_S、Q3_K_M、Q2_K 等量化版本)
  • mit-han-lab:Nunchaku(包含 svdq-fp4_r32、svdq-fp4_r128、svdq-int4_r32、svdq-int4_r128 等格式)

理论上的模型效果排序
BF16 > GGUF Q8_0 > FP8 ≈ Nunchaku FP4(50 系 N 卡)> GGUF Q6_K ≈ Nunchaku INT4 > GGUF Q4_0 及更低量化的版本

模型选择建议(效果)

  • 24G 显存或以上的显卡:选 BF16 原版模型
  • 16G 显存:选 GGUF Q8_0 或是 FP8 模型
  • 12G 显存:用 Q6_K

模型选择建议(速度)

  • Nunchaku 模型
  • 50 系显卡选 FP4 格式
  • 非 50 系选 INT4 格式
  • 8G 或 6G 显存:建议使用 Nunchaku 模型

模型存放位置

  • Qwen-Image模型
    • models\diffusion_models
  • Clip&VAE模型 (qwen_2.5_vl_7b、qwen_image_vae)
    • models\text_encoders
    • models\vae

基础工作流演示

1.模型下载:

2.ControlNet:

ControlNets/tree/main/split_files/model_patches

  • 模型路径:ComfyUI/models/model_patches
  • LoRA版: huggingface下载
  • 模型路径:ComfyUI/models/loras

3.text_encoders : huggingface下载

4.vae : huggingface下载

5.加速LoRA: huggingface下载

工作流演示

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

模型名称
qwen_image_fp8_e4m3fn.safetensors
qwen_2.5_vl_7b_fp8_scaled.safetensors
qwen_image_vae.safetensors

FP8蒸馏版本工作流演示

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

模型名称
qwen_image_distill_full_fp8_e4m3fn.safetensors
qwen_2.5_vl_7b_fp8_scaled.safetensors
qwen_image_vae.safetensors

步数调整:10
CFG:

GGUF版本工作流演示

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

模型名称
qwen-image-Q8_0.gguf
qwen_2.5_vl_7b_fp8_scaled.safetensors
qwen_image_vae.safetensors

步数调整:20
CFG调整:2.5

Nunchaku版本工作流演示

因为我这里显存较低,只能使用svdq-fp4_r32-qwen-image.safetensors

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

模型名称
svdq-int4_r128-qwen-image.safetensors(40系显卡)
svdq-fp4_r128-qwen-image.safetensors(50系显卡)
qwen_2.5_vl_7b_fp8_scaled.safetensors
qwen_image_vae.safetensors

步数调整:20
CFG调整:2.5

Qwen-Image-Lightning 加速模型

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

模型名称
qwen_image_distill_full_fp8_e4m3fn.safetensors
Qwen-Image-Lightning-8steps-V1.1.safetensors
qwen_2.5_vl_7b_fp8_scaled.safetensors
qwen_image_vae.safetensors

步数调整:20
CFG调整:2.5

高清放大

提示词
卡通3D风格海报,欢乐明亮。背景是夏季的马尔代夫,那里蓝天白云,椰林树影,水清沙白,坐落于印度洋的世外桃源。远处有飞机在空中飞过,画出航迹云。地上各种3D风格小动物在海边玩耍。
文字排版:
上方大标题(粗体活泼中文,带码头和沙滩排球):"夏季的海边,蓝天白云,波光粼粼"
副标题(英文点缀):"Summer Travel"
中部彩色圆角框内标语:"一起拥抱激情的夏天"
活动亮点介绍(白色小字,居中两行):
"风筝冲浪·沙滩派对·日落摄影"
"亲子沙雕·潮间探秘·海滨市集"
底部日期与地点(现代中文字体,居中两行):
"活动时间:2025年8月30日"
"活动地点:马尔代夫"

对于大于2K的图片建议先生成较小的图片,然后在通过高清方法到目标尺寸

避免豆包脸——AWPortrait-QW_1.0

正向提示词
Black and white portrait of an Asian woman with dynamic hair movement,wearing a dark jacket against a light background.,
反向提示词
blurry, bad faces, bad hands,worst quality, low quality, jpeg artifacts

ControlNet控制

qwen_image_union_control_lora

Qwen-Image-Union-Control-LoRA 是一个专为通义千问Qwen-Image图像生成模型设计的多合一控制模型。它采用LoRA(低秩自适应)技术,能够以一个模型支持多种控制条件,显著提升了图像生成的结构可控性。

模型概述

Qwen-Image-Union-Control-LoRA 的核心价值在于其“一体化”设计。与需要为每种控制类型(如边缘、深度、姿态)单独加载一个模型不同,该Union模型将多种控制功能集成在一个LoRA中 。这意味着用户在需要切换控制条件时,无需更换整个模型,只需在工作流中加载这一个LoRA并指定控制类型即可,大大简化了操作流程并节省了存储空间 。

主要特性与支持的控制类型

该模型支持多种控制模式,为用户提供了灵活的图像结构引导方式:

  • 支持的控制类型:包括Canny边缘检测、软边缘(SoftEdge)、深度图(Depth)、人体姿态(Openpose)以及线稿(Lineart)和法线贴图(Normal)等 。
  • 技术基础:它是一个基于Qwen-Image训练的LoRA模型,采用了In-Context Control的技术路线,能够在推理时根据输入的控制图(如深度图、姿态图)和提示词来精确控制输出图像的结构 。
  • 高兼容性:该模型可以与社区内已有的上千种不同风格的Qwen-Image LoRA结合使用,从而在保证结构准确性的同时,丰富图像的艺术风格和质感 。

使用技巧与注意事项

为了获得最佳效果,在使用该模型时需要注意以下几点:

  • 提示词前缀:建议在输入提示词时以“Context_Control.”作为前缀,这可能有助于模型更好地识别控制意图 。
  • 参数调整:控制权重(通常设置在0.8-1.0之间)和控制步数(结束点一般设在0.7-1.0之间)对最终效果有显著影响,需要根据不同的控制类型和LoRA风格进行灵活调整 。
  • 模型加载:在ComfyUI等工具中,该Union LoRA模型需要通过专门的LoRA加载器节点进行调用,而非传统的ControlNet节点 。

模型演示

a tough and elegant woman with natural long wavy curls, wearing a vintage leather tight top adorned with brass fasteners and a mechanical pocket watch, standing against a steampunk industrial background filled with rusted metal gears and pipes, low saturation color palette dominated by brown and dark gold, backlit portrait with Rembrandt lighting and inverted halos, shot on Ilford HPS black and white film with a Nikon 50mm standard lens at f/1.8 large aperture, 8K ultra-high definition, professional photographic artwork, steampunk aesthetics, retro-futurism, clear facial details, delicate skin texture and distinct metal texture, conveying an adventurous and romantic mood with a sense of mystery

image_qwen_image_controlnet_patch

image_qwen_image_controlnet_patch 是 Qwen-Image 文生图模型的一系列 ControlNet 控制模型补丁,它们作为功能扩展模块,允许用户通过边缘、深度、人体姿态等条件图来精确控制 Qwen-Image 生成图像的结构与内容。

核心功能与支持的控制类型

这些模型补丁为 Qwen-Image 带来了多种可控生成能力,主要支持以下几种控制类型:

  1. Canny 边缘检测:根据输入的边缘图生成图像,能很好地保留原图的轮廓结构。
  2. 深度图:根据深度信息图控制生成图像的景深和前后层次关系。
  3. 局部重绘:基于遮罩对图像的特定区域进行修复或内容替换。
  4. 多合一控制:除了上述独立的 ControlNet 模型,还存在一个名为 Qwen-Image-In-Context-Control-Union 的多合一 LoRA 模型。该模型在一个模型中集成了对 Canny、软边缘、深度、法线贴图、人体姿态等多种条件的支持。

技术实现与部署方式

这些模型补丁的技术实现基于 ControlNet 架构,通过锁定预训练的 Qwen-Image 模型权重,并训练一个并行网络来学习从条件图(如边缘、深度)到图像生成的控制映射。在使用时,它们通常以 .safetensors 格式的文件存在,需要被放置在 ComfyUI 的特定目录下(例如 ComfyUI/models/model_patches/)。在工作流中,通过专门的节点(如 QwenImageDiffsynthControlnetModelPatchLoader)进行加载和应用,将控制条件注入到 Qwen-Image 的生成过程中。

实际应用与效果

在实际应用中,Canny 和 Depth 控制模型通常能获得较好的效果,尤其在保持结构一致性方面。例如,通过一张线稿或深度图,可以引导模型生成细节丰富且符合预期构图的图像。局部重绘功能在图像扩展、物体替换等场景中表现出色,能够实现自然的无缝衔接。需要注意的是,控制权重等参数对最终效果有显著影响,有时需要根据具体控制类型和期望效果进行微调,例如有用户反馈深度控制模型在权重过高时可能保留过多原图痕迹,适当降低权重效果更佳。

a tough and elegant woman with natural long wavy curls, wearing a vintage leather tight top adorned with brass fasteners and a mechanical pocket watch, standing against a steampunk industrial background filled with rusted metal gears and pipes, low saturation color palette dominated by brown and dark gold, backlit portrait with Rembrandt lighting and inverted halos, shot on Ilford HPS black and white film with a Nikon 50mm standard lens at f/1.8 large aperture, 8K ultra-high definition, professional photographic artwork, steampunk aesthetics, retro-futurism, clear facial details, delicate skin texture and distinct metal texture, conveying an adventurous and romantic mood with a sense of mystery

image_qwen_image_instantx_controlnet

image_qwen_image_instantx_controlnet 是一个为 Qwen-Image 图像生成模型设计的统一控制网络模型,它在一个模型中集成了多种常见的图像结构控制功能,旨在显著提升图像生成的可控性和工作效率 。

模型的核心优势

image_qwen_image_instantx_controlnet 最显著的特点是“多合一”的设计 。传统上,用户为了实现不同的控制效果(如边缘检测、深度感知等),需要下载、管理和切换多个独立的 ControlNet 模型。而该模型将四种最常用的控制模式整合于一体 :

  • Canny(边缘检测):擅长处理线稿和硬边结构,能精准勾勒物体的轮廓 。
  • Soft Edge(软边缘):提供更平滑、灵活的结构引导,生成的画面边缘更柔和 。
  • Depth(深度):基于深度图信息,使生成的图像具备三维空间感和透视效果,特别适用于室内设计和建筑可视化 。
  • Pose(姿态):通过人体关键点精准控制人物的动作和姿势,有效避免人物形态失真,在虚拟模特和人物写真领域非常实用 。

这种集成化设计不仅节省了用户的磁盘空间,还简化了工作流程,避免了在不同模型文件间频繁切换的麻烦 。

技术特点与平台集成

该模型由 InstantX 团队开发,基于千万级高质量数据训练,训练分辨率达到 1328x1328,旨在提供优秀的控制精度和图像质量 。它在发布后迅速获得了主流AI绘画工具 ComfyUI 的官方支持 。用户只需将 ComfyUI 更新至最新版本,即可直接使用官方提供的模板工作流,这大大降低了上手门槛 。此外,ComfyUI 的 Subgraph(子图) 功能与该模型配合得非常好,用户可以将不同的控制输入(如深度图、姿态图)封装在不同的子图中,从而保持主工作流的整洁,并方便快速切换和对比不同控制条件产生的效果 。

实际应用场景

该模型的能力使其能够直接应用于多种实战场景中 :

  • 电商行业:利用 Canny 或 Soft Edge 控制,可以快速将产品线稿转化为风格统一的营销图片,保持商品结构一致的同时丰富视觉效果。
  • 内容创作:通过 Pose 控制,创作者可以确保虚拟人物在系列图片中保持动作一致性,非常适合漫画创作和短视频制作。
  • 设计与建筑:Depth 控制模式能够生成具有准确透视和空间感的效果图,为室内设计和概念建筑图提供强大支持。

使用建议与技巧

根据用户实测,为了获得最佳效果,可以关注以下几点 :

  • 控制权重:该参数对最终效果影响显著,通常建议在 0.5 到 1.0 之间进行调节,以平衡控制力度和生成创造性 。
  • 提示词(Prompt):虽然该模型在一定程度上降低了对提示词详细程度的要求,但提供清晰、准确的描述仍有助于生成更符合预期的图像 。
  • 功能互补:需要注意的是,image_qwen_image_instantx_controlnet 主要专注于结构控制,并不包含局部重绘(Inpainting)功能。在实际项目中,用户可以将其与支持局部重绘的 DiffSynth-ControlNet 等模型补丁结合使用,以实现更全面的控制需求 。

a tough and elegant woman with natural long wavy curls, wearing a vintage leather tight top adorned with brass fasteners and a mechanical pocket watch, standing against a steampunk industrial background filled with rusted metal gears and pipes, low saturation color palette dominated by brown and dark gold, backlit portrait with Rembrandt lighting and inverted halos, shot on Ilford HPS black and white film with a Nikon 50mm standard lens at f/1.8 large aperture, 8K ultra-high definition, professional photographic artwork, steampunk aesthetics, retro-futurism, clear facial details, delicate skin texture and distinct metal texture, conveying an adventurous and romantic mood with a sense of mystery