联系我们

新闻投稿:jingjing@enec.net

商务合作:coco@enec.net

搜索
下载亿恩app

微软开源VibeVoice-1.5B音频模型 支持90分钟长语音合成与多发言人切换

1周前

微软研究院开源了突破性音频模型VibeVoice-1.5B,该模型能一次性合成90分钟超长语音,支持四位发言人切换,并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构(声学+语义)解决了音色漂移问题,通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆,相关资源已在Hugging Face平台开放。

更多精彩内容,请关注亿恩网微信公众号: (ENECNEWS

扫码关注二维码

) 每天为您推送最新,最热干货!
声明:亿恩网原创稿件,未经授权不得以任何方式转发。转载请联系:yujie@enec.net
分享:
1469 0 0
热门词条

印度尼西亚

美容

拉丁美洲

MercadoLibre

价格战

标签

DTC

奢侈品

拉美

审核

出海

垄断

断货

跨境电子商务

Mercado Libre

Prime day

返校季

Tokopedia

Noon

AR

社群

扫码加入社群

公众号

扫一扫
关注亿恩公众号

顶部