首页 > 技术

高度还原!火山语音MegaTTS算法秒级别生成你的专属AI声音!

2023-11-10 20:10:30      搜狐   


  仅仅需要五秒钟就能复刻你的声音?

  快来登录火山引擎官网在语音技术下的开放产品体验中心(https://www.volcengine.com/product/voicecloning)体验火山引擎声音复刻2.0版本的惊艳效果吧!

  火山引擎声音复刻2.0采用了全新自研语音算法MegaTTS,经专业评测,声音复刻2.0版本与真人录音复刻的平均相似度已高达97.5%,不但超过一半的评测人员认为复刻合成效果与真并无任何差异,而且在金融客服、视频配音、智能语音助手、虚拟数字人等相关场景均可适用!

五秒钟复刻:极速获取高品质AI专属音色

  传统技术下,通常声音复刻往往需要用户录制20-100句话,并训练几分钟甚至几小时后才可就绪,这样的“复刻门槛”往往让人缺乏耐心且质量也不尽如人意。

  对此,火山引擎音色复刻2.0版本则在全面提升效果品质的同时,还攻克了录制量级及训练时长这两大难关。

  其核心算法MegaTTS只需要五秒钟的数据量,就能对各种风格、口音以及声学环境下的音色进行克隆。同时MegaTTS算法具有大模型特有的In-context-learning能力,无需对用户音色进行Fine-tuning就能实现复刻。区别于传统的音色复刻模型,MegaTTS可以免除训练时长,即时极速复刻。

高度还原:平均相似度高达97.5%

  此外MegaTTS算法还设计了基于注意力机制的细粒度无限长音色提示模块,以及基于大语言模型的韵律提示模块,在音色与韵律上都能够极高还原用户输入音频的发声特点。

  在真实的评测和用户体验中,不但还原之后的平均相似度已高达97.5%,环境音也可以被完美重现。

  值得提及的是,火山引擎声音复刻2.0版本为客户了提供多种接入方式,并支持云端接入和私有化集成。无论是在金融客服、视频配音、智能语音助手、虚拟数字人还是其他语音应用场景中都能快速接入。

语音大模型创新范式 MegaTTS将声音复刻带入新境界

  火山引擎声音复刻2.0版本采用了火山语音团队全新自研语音算法MegaTTS,新一代算法仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。彻底攻克了传统声音复刻对录音数据量的依赖,超低门槛的数据输入即可获得超高品质的AI专属音色。

  实验结果表明,当数据量在10秒到5分钟之间时,MegaTTS不仅可以在任意来源的新用户的短提示下合成保同语音,而且始终优于基于Fine-tuning的基线方法(Portaspeech 2)。

  此外得益于音色和韵律独立建模的方式,火山语音的韵律语言模型可以以细粒度和可控的方式将各种说话风格转移到目标音色,甚至可以模仿Rap。未来这些功能也会陆续上线,为更多用户提供创作空间。

  一直以来,火山语音团队不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上,并助力多家行业头部企业实现AI语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。

相关阅读