VoxCPM2：基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆-极简笔记

VoxCPM2 是 OpenBMB（面壁智能）联合清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）等机构推出的开源 TTS（Text-to-Speech）模型，是 VoxCPM 系列的最新大版本。

VoxCPM 是一个无离散音频分词器（Tokenizer-Free）的语音合成系统，通过端到端的扩散自回归架构直接生成连续语音表征，绕过对音频的离散编码步骤，实现高度自然且富有表现力的语音合成。

VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建，总计 20亿 参数，在超过 200万小时 的多语种音频数据上训练，支持 30种全球语言+9种中文方言、音色设计、可控声音克隆，原生输出 48kHz 高质量音频。

ChatGPT Image 2026年5月2日 17_09_52-zbdt.png

🎛️ 核心技术亮点：基于连续表征的 Tokenizer-Free 架构

传统 TTS 通常依赖离散音频分词器（Tokenizer），将语音编码成有限的 token 序列，这容易导致信息损失、表现力不足和音色细节丢失。

VoxCPM2 采用端到端扩散自回归（Diffusion Autoregressive）架构，直接在连续语音表征空间中建模和生成：

架构流程：LocEnc（局部编码器）→ TSLM（时序语言模型）→ RALM（参考注意力语言模型）→ LocDiT（局部扩散 Transformer）。
AudioVAE V2：支持 16kHz 输入 → 48kHz 高保真输出。
骨干模型：基于 MiniCPM-4，总参数量 2B。
训练数据：超过 200 万小时 多语言语音数据。
LM Token Rate：6.25 Hz，支持较长序列（最大 8192 tokens）。

这种连续表征方式保留了更多原始声学细节、情感、呼吸、韵律等信息，生成语音更自然、富有表现力，尤其在声音克隆和跨语言迁移上优势明显。

资源链接

GitHub：https://github.com/OpenBMB/VoxCPM （包含详细文档和中文 README）
Hugging Face 模型：https://huggingface.co/openbmb/VoxCPM2
在线 Demo / Playground：https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
文档：https://voxcpm.readthedocs.io/

✨ 核心特性

🌍 30种语言语音合成 — 直接输入原始文本即可合成（支持语言详见下文），无需额外语言标签
🎨 音色设计 — 用自然语言描述（性别、年龄、音色、情绪、语速……）凭空创建全新音色，无需参考音频
🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音，可叠加风格指令控制情绪、语速和表现力，同时保持原始音色
🎙️ 极致克隆 — 提供参考音频及其文本内容，模型接着参考音频进行无缝续写，从而精准还原声音细节特征（与 VoxCPM1.5 一致）
🔊 48kHz 高质量音频 — 输入 16kHz 参考音频，通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频，内置超分能力
🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
⚡ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3，通过 Nano-vLLM 或 vLLM-Omni（官方 vLLM 全模态服务，原生支持 VoxCPM2，提供 PagedAttention 与 OpenAI 兼容 API）加速后可达 ~0.13
📜 完全开源，商用就绪 — 权重和代码基于 Apache-2.0 协议发布，免费商用

🌍 支持的语言（30种）

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语

中国方言：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

📦 模型与版本

	VoxCPM2	VoxCPM1.5	VoxCPM-0.5B
状态	🟢 最新版本	稳定版	旧版
主模型参数量	2B	0.6B	0.5B
音频采样率	48kHz	44.1kHz	16kHz
LM处理码率	6.25Hz	6.25Hz	12.5Hz
语言支持数量	30	2（中文、英文）	2（中文、英文）
克隆模式	隔离参考音频（无需文本） & 音频续写	仅音频续写	仅音频续写
音色设计	✅	—	—
可控声音克隆	✅	—	—
SFT / LoRA	✅	✅	✅
RTF (RTX 4090)	~0.30	~0.15	~0.17
RTF Nano-VLLM (RTX 4090)	~0.13	~0.08	~0.10
显存占用	~8 GB	~6 GB	~5 GB
模型权重	🤗 HF / MS	🤗 HF / MS	🤗 HF / MS
技术报告	即将发布	—	arXiv ICLR 2026
Demo 页面	音频示例	—	音频示例

VoxCPM2 采用连续音频表征、扩散自回归范式，模型在 AudioVAE 的连续隐空间中通过四阶段处理：LocEnc → TSLM → RALM → LocDiT，实现丰富的表现力语音合成和 48kHz 原生音频输出。

VoxCPM 模型架构

📊 性能评测

VoxCPM2 在公开的零样本和可控 TTS 基准测试中取得了 SOTA 或可比的结果。

Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果（点击展开）

Model	Parameters	Open-Source	test-EN		test-ZH		test-Hard
			WER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆
MegaTTS3	0.5B	❌	2.79	77.1	1.52	79.0	-	-
DiTAR	0.6B	❌	1.69	73.5	1.02	75.3	-	-
CosyVoice3	0.5B	❌	2.02	71.8	1.16	78.0	6.08	75.8
CosyVoice3	1.5B	❌	2.22	72.0	1.12	78.1	5.83	75.8
Seed-TTS	-	❌	2.25	76.2	1.12	79.6	7.59	77.6
MiniMax-Speech	-	❌	1.65	69.2	0.83	78.3	-	-
F5-TTS	0.3B	✅	2.00	67.0	1.53	76.0	8.67	71.3
MaskGCT	1B	✅	2.62	71.7	2.27	77.4	-	-
CosyVoice	0.3B	✅	4.29	60.9	3.63	72.3	11.75	70.9
CosyVoice2	0.5B	✅	3.09	65.9	1.38	75.7	6.83	72.4
SparkTTS	0.5B	✅	3.14	57.3	1.54	66.0	-	-
FireRedTTS	0.5B	✅	3.82	46.0	1.51	63.5	17.45	62.1
FireRedTTS-2	1.5B	✅	1.95	66.5	1.14	73.6	-	-
Qwen2.5-Omni	7B	✅	2.72	63.2	1.70	75.2	7.97	74.7
Qwen3-Omni	30B-A3B	✅	1.39	-	1.07	-	-	-
OpenAudio-s1-mini	0.5B	✅	1.94	55.0	1.18	68.5	23.37	64.3
IndexTTS2	1.5B	✅	2.23	70.6	1.03	76.5	7.12	75.5
VibeVoice	1.5B	✅	3.04	68.9	1.16	74.4	-	-
HiggsAudio-v2	3B	✅	2.44	67.7	1.50	74.0	55.07	65.6
VoxCPM-0.5B	0.6B	✅	1.85	72.9	0.93	77.2	8.87	73.0
VoxCPM1.5	0.8B	✅	2.12	71.4	1.18	77.0	7.74	73.1
MOSS-TTS		✅	1.85	73.4	1.20	78.8	-	-
Qwen3-TTS	1.7B	✅	1.23	71.7	1.22	77.0	6.76	74.8
FishAudio S2	4B	✅	0.99	-	0.54	-	5.99	-
LongCat-Audio-DiT	3.5B	✅	1.50	78.6	1.09	81.8	6.04	79.7
VoxCPM2	2B	✅	1.84	75.3	0.97	79.5	8.13	75.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果（点击展开）

Model	zh	en	hard-zh	hard-en	ja	ko	de	es	fr	it	ru
CosyVoice2	4.08	6.32	12.58	11.96	9.13	19.7	-	-	-	-	-
CosyVoice3-1.5B	3.91	4.99	9.77	10.55	7.57	5.69	6.43	4.47	11.8	10.5	6.64
Fish Audio S2	2.65	2.43	9.10	4.40	3.96	2.76	2.22	2.00	6.26	2.04	2.78
VoxCPM2	3.65	5.00	8.55	8.48	5.96	5.69	4.77	3.80	9.85	4.25	5.21

MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果（点击展开）

Language	Minimax	ElevenLabs	Qwen3-TTS	FishAudio S2	VoxCPM2
Arabic	1.665	1.666	–	3.500	13.046
Cantonese	34.111	51.513	–	30.670	38.584
Chinese	2.252	16.026	0.928	0.730	1.136
Czech	3.875	2.108	–	2.840	24.132
Dutch	1.143	0.803	–	0.990	0.913
English	2.164	2.339	0.934	1.620	2.289
Finnish	4.666	2.964	–	3.330	2.632
French	4.099	5.216	2.858	3.050	4.534
German	1.906	0.572	1.235	0.550	0.679
Greek	2.016	0.991	–	5.740	2.844
Hindi	6.962	5.827	–	14.640	19.699
Indonesian	1.237	1.059	–	1.460	1.084
Italian	1.543	1.743	0.948	1.270	1.563
Japanese	3.519	10.646	3.823	2.760	4.628
Korean	1.747	1.865	1.755	1.180	1.962
Polish	1.415	0.766	–	1.260	1.141
Portuguese	1.877	1.331	1.526	1.140	1.938
Romanian	2.878	1.347	–	10.740	21.577
Russian	4.281	3.878	3.212	2.400	3.634
Spanish	1.029	1.084	1.126	0.910	1.438
Thai	2.701	73.936	–	4.230	2.961
Turkish	1.52	0.699	–	0.870	0.817
Ukrainian	1.082	0.997	–	2.300	6.316
Vietnamese	0.88	73.415	–	7.410	3.307

Minimax-MLS-test SIM(⬆) 结果（点击展开）

Language	Minimax	ElevenLabs	Qwen3-TTS	FishAudio S2	VoxCPM2
Arabic	73.6	70.6	–	75.0	79.1
Cantonese	77.8	67.0	–	80.5	83.5
Chinese	78.0	67.7	79.9	81.6	82.5
Czech	79.6	68.5	–	79.8	78.3
Dutch	73.8	68.0	–	73.0	80.8
English	75.6	61.3	77.5	79.7	85.4
Finnish	83.5	75.9	–	81.9	89.0
French	62.8	53.5	62.8	69.8	73.5
German	73.3	61.4	77.5	76.7	80.3
Greek	82.6	73.3	–	79.5	86.0
Hindi	81.8	73.0	–	82.1	85.6
Indonesian	72.9	66.0	–	76.3	80.0
Italian	69.9	57.9	81.7	74.7	78.0
Japanese	77.6	73.8	78.8	79.6	82.8
Korean	77.6	70.0	79.9	81.7	83.3
Polish	80.2	72.9	–	81.9	88.4
Portuguese	80.5	71.1	81.7	78.1	83.7
Romanian	80.9	69.9	–	73.3	79.7
Russian	76.1	67.6	79.2	79.0	81.1
Spanish	76.2	61.5	81.4	77.6	83.1
Thai	80.0	58.8	–	78.6	84.0
Turkish	77.9	59.6	–	83.5	87.1
Ukrainian	73.0	64.7	–	74.7	79.8
Vietnamese	74.3	36.9	–	74.0	80.6

Internal 30-Language ASR Benchmark

我们额外进行了内部多语言可懂度评测：30 语种 × 500 样本，ASR 转写评估使用 Gemini 3.1 Flash Lite API。

内部30语种评测集ASR结果（点击展开）

语言	指标	VoxCPM2	Fish S2-Pro
ar (阿拉伯语)	CER	1.23%	0.30%
da (丹麦语)	WER	2.70%	3.52%
de (德语)	WER	0.96%	0.64%
el (希腊语)	WER	3.17%	4.61%
en (英语)	WER	0.42%	1.03%
es (西班牙语)	WER	1.33%	0.64%
fi (芬兰语)	WER	2.24%	2.80%
fr (法语)	WER	2.16%	2.34%
he (希伯来语)	CER	2.98%	15.27%
hi (印地语)	CER	0.79%	0.91%
id (印尼语)	WER	1.36%	1.68%
it (意大利语)	WER	1.65%	1.08%
ja (日语)	CER	2.40%	1.82%
km (高棉语)	CER	2.05%	75.15%
ko (韩语)	CER	0.95%	0.29%
lo (老挝语)	CER	1.90%	87.40%
ms (马来语)	WER	1.75%	1.41%
my (缅甸语)	CER	1.42%	85.27%
nl (荷兰语)	WER	1.25%	1.68%
no (挪威语)	WER	2.49%	3.76%
pl (波兰语)	WER	1.90%	1.65%
pt (葡萄牙语)	WER	1.48%	1.49%
ru (俄语)	WER	0.90%	0.86%
sv (瑞典语)	WER	2.22%	2.63%
sw (斯瓦希里语)	CER	1.07%	2.02%
th (泰语)	CER	0.94%	1.92%
tl (菲律宾语)	WER	2.63%	4.00%
tr (土耳其语)	WER	1.65%	1.65%
vi (越南语)	WER	1.56%	5.56%
zh (中文)	CER	0.92%	1.02%
平均（30 语种）		1.68%	-

InstructTTSEval

指令驱动音色设计结果 (点击展开)

Model	InstructTTSEval-ZH			InstructTTSEval-EN
	APS⬆	DSD⬆	RP⬆	APS⬆	DSD⬆	RP⬆
Hume	–	–	–	83.0	75.3	54.3
VoxInstruct	47.5	52.3	42.6	54.9	57.0	39.3
Parler-tts-mini	–	–	–	63.4	48.7	28.6
Parler-tts-large	–	–	–	60.0	45.9	31.2
PromptTTS	–	–	–	64.3	47.2	31.4
PromptStyle	–	–	–	57.4	46.4	30.9
VoiceSculptor	75.7	64.7	61.5	–	–	–
Mimo-Audio-7B-Instruct	75.7	74.3	61.5	80.6	77.6	59.5
Qwen3TTS-12Hz-1.7B-VD	85.2	81.1	65.1	82.9	82.4	68.4
VoxCPM2	85.2	71.5	60.8	84.2	83.2	71.4

⚙️ 微调

VoxCPM 支持全参数微调（SFT） 和 LoRA 微调。仅需 5-10分钟 的音频数据，即可适配特定说话人、语言或领域。

# LoRA 微调（参数高效，推荐）
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml

# 全参数微调
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml

# WebUI 训练与推理
python lora_ft_webui.py   # 然后打开 http://localhost:7860

完整指南 → 微调文档（数据准备、配置、训练、LoRA 热切换、常见问题）

📚 文档

完整文档：voxcpm.readthedocs.io

主题	链接
快速开始与安装	快速开始
使用指南与 Cookbook	使用指南
VoxCPM 系列模型	模型列表
微调（SFT & LoRA）	微调指南
常见问题	FAQ

🌟 生态与社区

项目	说明
Nano-vLLM	高吞吐快速 GPU 推理引擎
vLLM-Omni	官方 vLLM 全模态服务（原生支持 VoxCPM2）— PagedAttention、OpenAI 兼容 API
VoxCPM.cpp	GGML/GGUF：CPU、CUDA、Vulkan 推理
VoxCPM-ONNX	ONNX 导出，支持 CPU 推理
VoxCPMANE	Apple Neural Engine 后端
voxcpm_rs	Rust 重新实现
ComfyUI-VoxCPM	ComfyUI 节点工作流
ComfyUI_RH_VoxCPM	面向 VoxCPM 2 的功能更完整的 ComfyUI 工作流，支持多说话人、LoRA 和自动 ASR
ComfyUI-VoxCPMTTS	ComfyUI TTS 扩展
TTS WebUI	浏览器端 TTS 扩展

完整生态见文档。社区项目非 OpenBMB 官方维护。

目录CONTENT

VoxCPM2：基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆