ComfyUI VibeVoice 节点使用

Doge
AICG
2025-10-27
36热度
0评论

内容隐藏

1 文章内容

2 ComfyUI VibeVoice 节点功能特性

3 ComfyUI VibeVoice 节点安装方法

4 ComfyUI VibeVoice 节点参数说明

5 VibeVoice模型下载

文章内容

ComfyUI VibeVoice 节点功能特性
ComfyUI VibeVoice 节点安装方法
ComfyUI VibeVoice 节点参数说明
VibeVoice模型（百度网盘）下载

ComfyUI VibeVoice 节点功能特性

VibeVoice ComfyUI 节点是一个综合的 ComfyUI 集成插件，用于 Microsoft 的 VibeVoice 文本转语音模型，在您的 ComfyUI 工作流中直接实现高质量的单人和多人语音合成。

Github: https://github.com/bozoyan/ComfyUI-VibeVoice?tab=readme-ov-file
单人语音合成: 生成自然语音，支持可选的语音克隆
多人对话: 支持最多 4 个不同说话人
语音克隆: 从音频样本克隆语音
文本文件加载: 从文本文件加载脚本
两种模型大小: 1.5B（更快）和 7B（更高质量）
灵活配置: 控制温度、采样和引导比例
注意力机制: 可选择 auto、eager、sdpa 或 flash_attention_2
扩散步数: 可调节的质量与速度平衡（默认: 20）
内存管理: 生成后自动清理 VRAM 的开关
释放内存节点: 复杂工作流的手动内存控制

microsoft/VibeVoice-1.5B: https://huggingface.co/microsoft/VibeVoice-1.5B/tree/main
大小: ~5GB 下载
速度: 推理更快
质量: 适合单人说话
使用场景: 快速原型设计、单个语音

vibevoice/VibeVoice-7B: https://huggingface.co/vibevoice/VibeVoice-7B/tree/main
大小: ~17GB 下载
速度: 推理较慢
质量: 优秀，尤其适合多人说话
使用场景: 生产质量、多人对话

ComfyUI VibeVoice 节点安装方法

ComfyUI Manager（推荐）

在ComfyUI Manager中搜索ComfyUI-VibeVoice并安装
或通过工作流自动补全

自动安装

将此仓库克隆到您的 ComfyUI 自定义节点文件夹

cd ComfyUI/custom_nodes
git clone https://github.com/bozoyan/ComfyUI-VibeVoice

cd ComfyUI/custom_nodes
git clone https://github.com/bozoyan/ComfyUI-VibeVoice

重启 ComfyUI - 节点将在首次使用时自动安装 VibeVoice

手动安装

如果自动安装失败：

cd ComfyUI
python_embeded/python.exe -m pip install git+https://github.com/microsoft/VibeVoice.git

如果自动安装失败：

cd ComfyUI
python_embeded/python.exe -m pip install git+https://github.com/microsoft/VibeVoice.git

ComfyUI VibeVoice 节点参数说明

工作流

VibeVoice 多人说话

说话人格式: 使用 [N]: 记号，其中 N 为 1-4
语音分配: 每个说话人的可选语音样本
推荐模型: VibeVoice-7B-Preview 以获得更好的多人说话质量
参数（按顺序）：
text: 带有说话人标签的输入文本
model: VibeVoice-1.5B 或 VibeVoice-7B-Preview
attention_type: auto、eager、sdpa 或 flash_attention_2（默认: auto）
free_memory_after_generate: 生成后释放显存（默认: True）
diffusion_steps: 去噪步数（5-100，默认: 20）
seed: 用于可复现性的随机种子（默认: 42）
cfg_scale: 分类器无关引导（1.0-2.0，默认: 1.3）
use_sampling: 启用/禁用确定性生成（默认: False）

可选参数:
speaker1_voice 到 speaker4_voice: 用于语音克隆的音频输入
temperature: 采样温度（0.1-2.0，默认: 0.95）
top_p: 核采样参数（0.1-1.0，默认: 0.95）

单人说话文本格式

对于多人说话生成，使用 [N]: 记号格式化您的文本：

[1] 你好啊小家伙，跟我说，一，二，三，三，二，一，啊，啊。

对于多人说话生成，使用 [N]: 记号格式化您的文本：

[1] 你好啊小家伙，跟我说，一，二，三，三，二，一，啊，啊。

多人说话文本格式

对于多人说话生成，使用 [N]: 记号格式化您的文本：

[1] 你好啊小家伙。
[2] 跟我说。
[3] 一，二，三，三，二，一。
[4] 啊。
[1] 啊。

对于多人说话生成，使用 [N]: 记号格式化您的文本：

[1] 你好啊小家伙。
[2] 跟我说。
[3] 一，二，三，三，二，一。
[4] 啊。
[1] 啊。

重要注意事项

使用 [1]:、[2]:、[3]:、[4]: 作为说话人标签
最多支持 4 个说话人
系统会自动从您的文本中检测说话人数量
每个说话人都可以有一个可选的语音样本用于克隆

VibeVoice模型下载

模型文件储存在： ComfyUI\models\tts\VibeVoice中

VibeVoice-1.5B： ComfyUI\models\tts\VibeVoice\VibeVoice-1.5B

VibeVoice-Large：ComfyUI\models\tts\VibeVoice\VibeVoice-Large

模型文件储存在： ComfyUI\models\tts\VibeVoice中

VibeVoice-1.5B： ComfyUI\models\tts\VibeVoice\VibeVoice-1.5B

VibeVoice-Large：ComfyUI\models\tts\VibeVoice\VibeVoice-Large

VibeVoice-1.5B：https://pan.baidu.com/s/1E820vgOgl3AKcRHJj3P2bQ 提取码: 7ssm

VibeVoice-Large：https://pan.baidu.com/s/11xhEuNuARHHlSAvUCYnGAQ 提取码: wwi2