微软研究院开源了突破性音频模型VibeVoice-1.5B,该模型能一次性合成90分钟超长语音,支持四位发言人切换,并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构(声学+语义)解决了音色漂移问题,通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆,相关资源已在Hugging Face平台开放。
扫码关注二维码
2025-08-28 09:26
2025-08-27 13:58
2025-08-27 20:50
2025-08-28 20:20
2025-08-29 17:02
2025-08-29 17:04
扫码加入社群
扫一扫
关注亿恩公众号