侧边栏壁纸
  • 累计撰写 13 篇文章
  • 累计创建 4 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

VoxCPM2:基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

温馨提示:
部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

VoxCPM2 是 OpenBMB(面壁智能)联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)等机构推出的开源 TTS(Text-to-Speech)模型,是 VoxCPM 系列的最新大版本。

VoxCPM 是一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。

VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建,总计 20亿 参数,在超过 200万小时 的多语种音频数据上训练,支持 30种全球语言+9种中文方言音色设计可控声音克隆,原生输出 48kHz 高质量音频。

ChatGPT Image 2026年5月2日 17_09_52-zbdt.png

🎛️ 核心技术亮点:基于连续表征的 Tokenizer-Free 架构

传统 TTS 通常依赖​离散音频分词器​(Tokenizer),将语音编码成有限的 token 序列,这容易导致信息损失、表现力不足和音色细节丢失。

VoxCPM2 采用​端到端扩散自回归(Diffusion Autoregressive)架构​,直接在连续语音表征空间中建模和生成:

  • 架构流程​:LocEnc(局部编码器)→ TSLM(时序语言模型)→ RALM(参考注意力语言模型)→ LocDiT(局部扩散 Transformer)。
  • AudioVAE V2​:支持 16kHz 输入 → 48kHz 高保真输出。
  • 骨干模型​:基于 MiniCPM-4,​总参数量 2B​。
  • 训练数据​:超过 200 万小时 多语言语音数据。
  • LM Token Rate​:6.25 Hz,支持较长序列(最大 8192 tokens)。

这种连续表征方式保留了更多原始声学细节、情感、呼吸、韵律等信息,生成语音更自然、富有表现力,尤其在声音克隆和跨语言迁移上优势明显。

资源链接

✨ 核心特性

  • 🌍 30种语言语音合成 — 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签
  • 🎨 音色设计 — 用自然语言描述(性别、年龄、音色、情绪、语速……)凭空创建全新音色,无需参考音频
  • 🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色
  • 🎙️ 极致克隆 — 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)
  • 🔊 48kHz 高质量音频 — 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力
  • 🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
  • 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLMvLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13
  • 📜 完全开源,商用就绪 — 权重和代码基于 Apache-2.0 协议发布,免费商用
🌍 支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语

中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话


📦 模型与版本

VoxCPM2 VoxCPM1.5 VoxCPM-0.5B
状态 🟢 最新版本 稳定版 旧版
主模型参数量 2B 0.6B 0.5B
音频采样率 48kHz 44.1kHz 16kHz
LM处理码率 6.25Hz 6.25Hz 12.5Hz
语言支持数量 30 2(中文、英文) 2(中文、英文)
克隆模式 隔离参考音频(无需文本) & 音频续写 仅音频续写 仅音频续写
音色设计
可控声音克隆
SFT / LoRA
RTF (RTX 4090) ~0.30 ~0.15 ~0.17
RTF Nano-VLLM (RTX 4090) ~0.13 ~0.08 ~0.10
显存占用 ~8 GB ~6 GB ~5 GB
模型权重 🤗 HF / MS 🤗 HF / MS 🤗 HF / MS
技术报告 即将发布 arXiv ICLR 2026
Demo 页面 音频示例 音频示例

VoxCPM2 采用连续音频表征、扩散自回归范式,模型在 AudioVAE 的连续隐空间中通过四阶段处理:LocEnc → TSLM → RALM → LocDiT,实现丰富的表现力语音合成和 48kHz 原生音频输出。

VoxCPM 模型架构


📊 性能评测

VoxCPM2 在公开的零样本和可控 TTS 基准测试中取得了 SOTA 或可比的结果。

Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果(点击展开)
Model Parameters Open-Source test-EN test-ZH test-Hard
WER/%⬇ SIM/%⬆ CER/%⬇ SIM/%⬆ CER/%⬇ SIM/%⬆
MegaTTS3 0.5B 2.79 77.1 1.52 79.0 - -
DiTAR 0.6B 1.69 73.5 1.02 75.3 - -
CosyVoice3 0.5B 2.02 71.8 1.16 78.0 6.08 75.8
CosyVoice3 1.5B 2.22 72.0 1.12 78.1 5.83 75.8
Seed-TTS - 2.25 76.2 1.12 79.6 7.59 77.6
MiniMax-Speech - 1.65 69.2 0.83 78.3 - -
F5-TTS 0.3B 2.00 67.0 1.53 76.0 8.67 71.3
MaskGCT 1B 2.62 71.7 2.27 77.4 - -
CosyVoice 0.3B 4.29 60.9 3.63 72.3 11.75 70.9
CosyVoice2 0.5B 3.09 65.9 1.38 75.7 6.83 72.4
SparkTTS 0.5B 3.14 57.3 1.54 66.0 - -
FireRedTTS 0.5B 3.82 46.0 1.51 63.5 17.45 62.1
FireRedTTS-2 1.5B 1.95 66.5 1.14 73.6 - -
Qwen2.5-Omni 7B 2.72 63.2 1.70 75.2 7.97 74.7
Qwen3-Omni 30B-A3B 1.39 - 1.07 - - -
OpenAudio-s1-mini 0.5B 1.94 55.0 1.18 68.5 23.37 64.3
IndexTTS2 1.5B 2.23 70.6 1.03 76.5 7.12 75.5
VibeVoice 1.5B 3.04 68.9 1.16 74.4 - -
HiggsAudio-v2 3B 2.44 67.7 1.50 74.0 55.07 65.6
VoxCPM-0.5B 0.6B 1.85 72.9 0.93 77.2 8.87 73.0
VoxCPM1.5 0.8B 2.12 71.4 1.18 77.0 7.74 73.1
MOSS-TTS 1.85 73.4 1.20 78.8 - -
Qwen3-TTS 1.7B 1.23 71.7 1.22 77.0 6.76 74.8
FishAudio S2 4B 0.99 - 0.54 - 5.99 -
LongCat-Audio-DiT 3.5B 1.50 78.6 1.09 81.8 6.04 79.7
VoxCPM2 2B 1.84 75.3 0.97 79.5 8.13 75.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果(点击展开)
Model zh en hard-zh hard-en ja ko de es fr it ru
CosyVoice2 4.08 6.32 12.58 11.96 9.13 19.7 - - - - -
CosyVoice3-1.5B 3.91 4.99 9.77 10.55 7.57 5.69 6.43 4.47 11.8 10.5 6.64
Fish Audio S2 2.65 2.43 9.10 4.40 3.96 2.76 2.22 2.00 6.26 2.04 2.78
VoxCPM2 3.65 5.00 8.55 8.48 5.96 5.69 4.77 3.80 9.85 4.25 5.21

MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果(点击展开)
Language Minimax ElevenLabs Qwen3-TTS FishAudio S2 VoxCPM2
Arabic 1.665 1.666 3.500 13.046
Cantonese 34.111 51.513 30.670 38.584
Chinese 2.252 16.026 0.928 0.730 1.136
Czech 3.875 2.108 2.840 24.132
Dutch 1.143 0.803 0.990 0.913
English 2.164 2.339 0.934 1.620 2.289
Finnish 4.666 2.964 3.330 2.632
French 4.099 5.216 2.858 3.050 4.534
German 1.906 0.572 1.235 0.550 0.679
Greek 2.016 0.991 5.740 2.844
Hindi 6.962 5.827 14.640 19.699
Indonesian 1.237 1.059 1.460 1.084
Italian 1.543 1.743 0.948 1.270 1.563
Japanese 3.519 10.646 3.823 2.760 4.628
Korean 1.747 1.865 1.755 1.180 1.962
Polish 1.415 0.766 1.260 1.141
Portuguese 1.877 1.331 1.526 1.140 1.938
Romanian 2.878 1.347 10.740 21.577
Russian 4.281 3.878 3.212 2.400 3.634
Spanish 1.029 1.084 1.126 0.910 1.438
Thai 2.701 73.936 4.230 2.961
Turkish 1.52 0.699 0.870 0.817
Ukrainian 1.082 0.997 2.300 6.316
Vietnamese 0.88 73.415 7.410 3.307
Minimax-MLS-test SIM(⬆) 结果(点击展开)
Language Minimax ElevenLabs Qwen3-TTS FishAudio S2 VoxCPM2
Arabic 73.6 70.6 75.0 79.1
Cantonese 77.8 67.0 80.5 83.5
Chinese 78.0 67.7 79.9 81.6 82.5
Czech 79.6 68.5 79.8 78.3
Dutch 73.8 68.0 73.0 80.8
English 75.6 61.3 77.5 79.7 85.4
Finnish 83.5 75.9 81.9 89.0
French 62.8 53.5 62.8 69.8 73.5
German 73.3 61.4 77.5 76.7 80.3
Greek 82.6 73.3 79.5 86.0
Hindi 81.8 73.0 82.1 85.6
Indonesian 72.9 66.0 76.3 80.0
Italian 69.9 57.9 81.7 74.7 78.0
Japanese 77.6 73.8 78.8 79.6 82.8
Korean 77.6 70.0 79.9 81.7 83.3
Polish 80.2 72.9 81.9 88.4
Portuguese 80.5 71.1 81.7 78.1 83.7
Romanian 80.9 69.9 73.3 79.7
Russian 76.1 67.6 79.2 79.0 81.1
Spanish 76.2 61.5 81.4 77.6 83.1
Thai 80.0 58.8 78.6 84.0
Turkish 77.9 59.6 83.5 87.1
Ukrainian 73.0 64.7 74.7 79.8
Vietnamese 74.3 36.9 74.0 80.6

Internal 30-Language ASR Benchmark

我们额外进行了内部多语言可懂度评测:30 语种 × 500 样本,ASR 转写评估使用 Gemini 3.1 Flash Lite API

内部30语种评测集ASR结果(点击展开)
语言 指标 VoxCPM2 Fish S2-Pro
ar (阿拉伯语) CER 1.23% 0.30%
da (丹麦语) WER 2.70% 3.52%
de (德语) WER 0.96% 0.64%
el (希腊语) WER 3.17% 4.61%
en (英语) WER 0.42% 1.03%
es (西班牙语) WER 1.33% 0.64%
fi (芬兰语) WER 2.24% 2.80%
fr (法语) WER 2.16% 2.34%
he (希伯来语) CER 2.98% 15.27%
hi (印地语) CER 0.79% 0.91%
id (印尼语) WER 1.36% 1.68%
it (意大利语) WER 1.65% 1.08%
ja (日语) CER 2.40% 1.82%
km (高棉语) CER 2.05% 75.15%
ko (韩语) CER 0.95% 0.29%
lo (老挝语) CER 1.90% 87.40%
ms (马来语) WER 1.75% 1.41%
my (缅甸语) CER 1.42% 85.27%
nl (荷兰语) WER 1.25% 1.68%
no (挪威语) WER 2.49% 3.76%
pl (波兰语) WER 1.90% 1.65%
pt (葡萄牙语) WER 1.48% 1.49%
ru (俄语) WER 0.90% 0.86%
sv (瑞典语) WER 2.22% 2.63%
sw (斯瓦希里语) CER 1.07% 2.02%
th (泰语) CER 0.94% 1.92%
tl (菲律宾语) WER 2.63% 4.00%
tr (土耳其语) WER 1.65% 1.65%
vi (越南语) WER 1.56% 5.56%
zh (中文) CER 0.92% 1.02%
平均(30 语种) 1.68% -

InstructTTSEval

指令驱动音色设计结果 (点击展开)
Model InstructTTSEval-ZH InstructTTSEval-EN
APS⬆ DSD⬆ RP⬆ APS⬆ DSD⬆ RP⬆
Hume 83.0 75.3 54.3
VoxInstruct 47.5 52.3 42.6 54.9 57.0 39.3
Parler-tts-mini 63.4 48.7 28.6
Parler-tts-large 60.0 45.9 31.2
PromptTTS 64.3 47.2 31.4
PromptStyle 57.4 46.4 30.9
VoiceSculptor 75.7 64.7 61.5
Mimo-Audio-7B-Instruct 75.7 74.3 61.5 80.6 77.6 59.5
Qwen3TTS-12Hz-1.7B-VD 85.2 81.1 65.1 82.9 82.4 68.4
VoxCPM2 85.2 71.5 60.8 84.2 83.2 71.4

⚙️ 微调

VoxCPM 支持全参数微调(SFT)LoRA 微调。仅需 5-10分钟 的音频数据,即可适配特定说话人、语言或领域。

# LoRA 微调(参数高效,推荐)
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml

# 全参数微调
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml

# WebUI 训练与推理
python lora_ft_webui.py   # 然后打开 http://localhost:7860

完整指南 → 微调文档(数据准备、配置、训练、LoRA 热切换、常见问题)


📚 文档

完整文档:voxcpm.readthedocs.io

主题 链接
快速开始与安装 快速开始
使用指南与 Cookbook 使用指南
VoxCPM 系列模型 模型列表
微调(SFT & LoRA) 微调指南
常见问题 FAQ

🌟 生态与社区

项目 说明
Nano-vLLM 高吞吐快速 GPU 推理引擎
vLLM-Omni 官方 vLLM 全模态服务(原生支持 VoxCPM2)— PagedAttention、OpenAI 兼容 API
VoxCPM.cpp GGML/GGUF:CPU、CUDA、Vulkan 推理
VoxCPM-ONNX ONNX 导出,支持 CPU 推理
VoxCPMANE Apple Neural Engine 后端
voxcpm_rs Rust 重新实现
ComfyUI-VoxCPM ComfyUI 节点工作流
ComfyUI_RH_VoxCPM 面向 VoxCPM 2 的功能更完整的 ComfyUI 工作流,支持多说话人、LoRA 和自动 ASR
ComfyUI-VoxCPMTTS ComfyUI TTS 扩展
TTS WebUI 浏览器端 TTS 扩展

完整生态见文档。社区项目非 OpenBMB 官方维护。


0

评论区