ComfyUI VibeVoice 节点使用
- AICG
- 2025-10-27
- 36热度
- 0评论
文章内容
- ComfyUI VibeVoice 节点功能特性
- ComfyUI VibeVoice 节点安装方法
- ComfyUI VibeVoice 节点参数说明
- VibeVoice模型(百度网盘)下载
ComfyUI VibeVoice 节点功能特性
VibeVoice ComfyUI 节点是一个综合的 ComfyUI 集成插件,用于 Microsoft 的 VibeVoice 文本转语音模型,在您的 ComfyUI 工作流中直接实现高质量的单人和多人语音合成。
- Github: https://github.com/bozoyan/ComfyUI-VibeVoice?tab=readme-ov-file
- 单人语音合成: 生成自然语音,支持可选的语音克隆
- 多人对话: 支持最多 4 个不同说话人
- 语音克隆: 从音频样本克隆语音
- 文本文件加载: 从文本文件加载脚本
- 两种模型大小: 1.5B(更快)和 7B(更高质量)
- 灵活配置: 控制温度、采样和引导比例
- 注意力机制: 可选择 auto、eager、sdpa 或 flash_attention_2
- 扩散步数: 可调节的质量与速度平衡(默认: 20)
- 内存管理: 生成后自动清理 VRAM 的开关
- 释放内存节点: 复杂工作流的手动内存控制
- microsoft/VibeVoice-1.5B: https://huggingface.co/microsoft/VibeVoice-1.5B/tree/main
- 大小: ~5GB 下载
- 速度: 推理更快
- 质量: 适合单人说话
- 使用场景: 快速原型设计、单个语音
- vibevoice/VibeVoice-7B: https://huggingface.co/vibevoice/VibeVoice-7B/tree/main
- 大小: ~17GB 下载
- 速度: 推理较慢
- 质量: 优秀,尤其适合多人说话
- 使用场景: 生产质量、多人对话
ComfyUI VibeVoice 节点安装方法
ComfyUI Manager(推荐)
- 在ComfyUI Manager中搜索ComfyUI-VibeVoice并安装
- 或通过工作流自动补全
自动安装
- 将此仓库克隆到您的 ComfyUI 自定义节点文件夹
cd ComfyUI/custom_nodes
git clone https://github.com/bozoyan/ComfyUI-VibeVoice- 重启 ComfyUI - 节点将在首次使用时自动安装 VibeVoice
手动安装
如果自动安装失败:
cd ComfyUI
python_embeded/python.exe -m pip install git+https://github.com/microsoft/VibeVoice.gitComfyUI VibeVoice 节点参数说明
工作流

VibeVoice 多人说话
- 说话人格式: 使用 [N]: 记号,其中 N 为 1-4
- 语音分配: 每个说话人的可选语音样本
- 推荐模型: VibeVoice-7B-Preview 以获得更好的多人说话质量
- 参数(按顺序):
- text: 带有说话人标签的输入文本
- model: VibeVoice-1.5B 或 VibeVoice-7B-Preview
- attention_type: auto、eager、sdpa 或 flash_attention_2(默认: auto)
- free_memory_after_generate: 生成后释放显存(默认: True)
- diffusion_steps: 去噪步数(5-100,默认: 20)
- seed: 用于可复现性的随机种子(默认: 42)
- cfg_scale: 分类器无关引导(1.0-2.0,默认: 1.3)
- use_sampling: 启用/禁用确定性生成(默认: False)
- 可选参数:
- speaker1_voice 到 speaker4_voice: 用于语音克隆的音频输入
- temperature: 采样温度(0.1-2.0,默认: 0.95)
- top_p: 核采样参数(0.1-1.0,默认: 0.95)
单人说话文本格式
对于多人说话生成,使用 [N]: 记号格式化您的文本:
[1] 你好啊小家伙,跟我说,一,二,三,三,二,一,啊,啊。多人说话文本格式
对于多人说话生成,使用 [N]: 记号格式化您的文本:
[1] 你好啊小家伙。
[2] 跟我说。
[3] 一,二,三,三,二,一。
[4] 啊。
[1] 啊。重要注意事项
- 使用 [1]:、[2]:、[3]:、[4]: 作为说话人标签
- 最多支持 4 个说话人
- 系统会自动从您的文本中检测说话人数量
- 每个说话人都可以有一个可选的语音样本用于克隆
VibeVoice模型下载
模型文件储存在: ComfyUI\models\tts\VibeVoice中 VibeVoice-1.5B: ComfyUI\models\tts\VibeVoice\VibeVoice-1.5B VibeVoice-Large:ComfyUI\models\tts\VibeVoice\VibeVoice-Large
VibeVoice-1.5B:https://pan.baidu.com/s/1E820vgOgl3AKcRHJj3P2bQ 提取码: 7ssm
VibeVoice-Large:https://pan.baidu.com/s/11xhEuNuARHHlSAvUCYnGAQ 提取码: wwi2