ComfyUI VibeVoice 节点使用

文章内容

  • ComfyUI VibeVoice 节点功能特性
  • ComfyUI VibeVoice 节点安装方法
  • ComfyUI VibeVoice 节点参数说明
  • VibeVoice模型(百度网盘)下载

ComfyUI VibeVoice 节点功能特性

VibeVoice ComfyUI 节点是一个综合的 ComfyUI 集成插件,用于 Microsoft 的 VibeVoice 文本转语音模型,在您的 ComfyUI 工作流中直接实现高质量的单人和多人语音合成。

  • Github: https://github.com/bozoyan/ComfyUI-VibeVoice?tab=readme-ov-file
  • 单人语音合成: 生成自然语音,支持可选的语音克隆
  • 多人对话: 支持最多 4 个不同说话人
  • 语音克隆: 从音频样本克隆语音
  • 文本文件加载: 从文本文件加载脚本
  • 两种模型大小: 1.5B(更快)和 7B(更高质量)
  • 灵活配置: 控制温度、采样和引导比例
  • 注意力机制: 可选择 auto、eager、sdpa 或 flash_attention_2
  • 扩散步数: 可调节的质量与速度平衡(默认: 20)
  • 内存管理: 生成后自动清理 VRAM 的开关
  • 释放内存节点: 复杂工作流的手动内存控制

  • microsoft/VibeVoice-1.5B: https://huggingface.co/microsoft/VibeVoice-1.5B/tree/main
  • 大小: ~5GB 下载
  • 速度: 推理更快
  • 质量: 适合单人说话
  • 使用场景: 快速原型设计、单个语音

  • vibevoice/VibeVoice-7B: https://huggingface.co/vibevoice/VibeVoice-7B/tree/main
  • 大小: ~17GB 下载
  • 速度: 推理较慢
  • 质量: 优秀,尤其适合多人说话
  • 使用场景: 生产质量、多人对话

ComfyUI VibeVoice 节点安装方法

ComfyUI Manager(推荐)

  • 在ComfyUI Manager中搜索ComfyUI-VibeVoice并安装
  • 或通过工作流自动补全

自动安装

  • 将此仓库克隆到您的 ComfyUI 自定义节点文件夹
cd ComfyUI/custom_nodes
git clone https://github.com/bozoyan/ComfyUI-VibeVoice
  • 重启 ComfyUI - 节点将在首次使用时自动安装 VibeVoice

手动安装

如果自动安装失败:

cd ComfyUI
python_embeded/python.exe -m pip install git+https://github.com/microsoft/VibeVoice.git

ComfyUI VibeVoice 节点参数说明

工作流

VibeVoice 多人说话

  • 说话人格式: 使用 [N]: 记号,其中 N 为 1-4
  • 语音分配: 每个说话人的可选语音样本
  • 推荐模型: VibeVoice-7B-Preview 以获得更好的多人说话质量
  • 参数(按顺序):
  • text: 带有说话人标签的输入文本
  • model: VibeVoice-1.5B 或 VibeVoice-7B-Preview
  • attention_type: auto、eager、sdpa 或 flash_attention_2(默认: auto)
  • free_memory_after_generate: 生成后释放显存(默认: True)
  • diffusion_steps: 去噪步数(5-100,默认: 20)
  • seed: 用于可复现性的随机种子(默认: 42)
  • cfg_scale: 分类器无关引导(1.0-2.0,默认: 1.3)
  • use_sampling: 启用/禁用确定性生成(默认: False)

  • 可选参数:
  • speaker1_voice 到 speaker4_voice: 用于语音克隆的音频输入
  • temperature: 采样温度(0.1-2.0,默认: 0.95)
  • top_p: 核采样参数(0.1-1.0,默认: 0.95)

单人说话文本格式

对于多人说话生成,使用 [N]: 记号格式化您的文本:

[1] 你好啊小家伙,跟我说,一,二,三,三,二,一,啊,啊。

多人说话文本格式

对于多人说话生成,使用 [N]: 记号格式化您的文本:

[1] 你好啊小家伙。
[2] 跟我说。
[3] 一,二,三,三,二,一。
[4] 啊。
[1] 啊。

重要注意事项

  • 使用 [1]:、[2]:、[3]:、[4]: 作为说话人标签
  • 最多支持 4 个说话人
  • 系统会自动从您的文本中检测说话人数量
  • 每个说话人都可以有一个可选的语音样本用于克隆

VibeVoice模型下载

模型文件储存在: ComfyUI\models\tts\VibeVoice中

VibeVoice-1.5B: ComfyUI\models\tts\VibeVoice\VibeVoice-1.5B

VibeVoice-Large:ComfyUI\models\tts\VibeVoice\VibeVoice-Large

VibeVoice-1.5B:https://pan.baidu.com/s/1E820vgOgl3AKcRHJj3P2bQ 提取码: 7ssm

VibeVoice-Large:https://pan.baidu.com/s/11xhEuNuARHHlSAvUCYnGAQ 提取码: wwi2