首页 > 技术

车载语音交互技术繁荣发展,火山语音让车企品牌“绘声绘色”

2022-12-30 19:03:03      搜狐   


  汽车消费历来是国民消费经济的重要组成部分,配备了智能技术的新能源汽车更是在近年来快速崛起,成为汽车消费的主流。在日益成熟的智能汽车科技中,车载语音交互与应用随之步入市场爆发期,进而成为继智能手机和智能音箱之后的第三大智能语音场景。在车载语音交互新势力中,火山引擎凭借长期以来对汽车行业的深刻洞察与丰富经验,依托一直以来为字节跳动内部各业务线提供优质语音AI技术能力以及全栈语音产品解决方案的火山语音团队,为车企带来了耳目一新的交互体验。

  日前,火山语音团队正式为哪吒汽车旗下重磅车型哪吒S推出“哪吒音色”新功能,以更低成本和更高效率为车企打造专属“音色”,成为哪吒汽车遥遥领先2022年新能源车新势力销量榜单的关键技术竞争力之一。据了解,“哪吒音色”不但可以生动表达高兴、失落、娇蛮、冷静四种情绪,还支持河南话、广东话、川渝话等特色方言以及以小萝莉、活泼女声等为代表的趣味音色。更重要的一点,凭借超99%的准确率和在线、离线环境下稳定流畅的语音表现,火山语音成功让汽车绘声绘色,再造品牌新势力。

智能语音合成引领车载语音交互市场

  据中国汽车工业协会数据,2022年1月到11月中国新能源汽车产销超过600万辆,同比均增长1倍,市场占有率达25%,该市场的强势拉升已成定局,随之而来车载语音交互市场迎来了发展的黄金期。

  目前,车载语音交互功能已成为中国乘用汽车座舱内的标配功能,渗透率高达86%,其中以主机厂商、造车新势力、智能语音处理引擎及应用供应商、云服务商、平台整体商等为代表的“多元竞争”逐步走入白热化阶段,可以预见智能语音合成技术或将成为各方势力的下一个杀手锏。

  此外伴随新能源汽车销量的快速拉升,也促成了新消费群体和需求的规模化涌现。以Z世代和女性消费群体为代表的新消费群体,对于消费个性化和差异化需求显著,迫使汽车消费正从出行刚需转向个性消费。社交需求、自我塑造、悦己需求等,让智能音色成为新消费群体选择汽车品牌的新因素。总体而言,通过语音合成技术形成的个性化、情感化、可定制化的智能音色,或成为突围车载语音交互同质化竞争的关键突破口。

  众多周知,当前新能源汽车的车载语音通常为标准音色,主要由于可定制化音色通常需要不同的语料包进行训练,但优质音频数据和发音人较为稀缺,部分小语种音频数据标注员更为稀缺等原因,所以训练多趣味、多方言、多语种的音色模型消耗成本较高,因此能够既好又快推出车载智能音色的汽车品牌,或将率先占领市场,而在这一方面,我们不可忽视哪吒汽车的异军突起。

全新的智能音色,背后是强大的技术实力

  放眼厮杀激烈的中国新能源车市场,哪吒汽车交出的成绩单可谓亮眼:2022年11月,月交付同比增长51%;1-11月累计交付同比增长142%……而在出色的销售数据之下,实力强大的智能技术体系不可小觑,其中就包括全双工连续对话、可见即可说等流畅精准的智能语音体验,而近日“哪吒音色”的正式上线,则为用户带来了“你的情绪我都懂”的全新感受。

  作为一款活力动感、富有“人情味儿”的车载语音助手音色,哪吒汽车S联合火山语音为用户提供了多样与个性兼具的音色选择,无论是趣味音色、还是多方言、多语种的尝试,都可随心切换。例如,“哪吒音色”提供了高兴、失落、娇蛮、冷静四大情感交互场景,比方说无法完成车主要求时的歉意表达音色、车主违规超速时提醒的娇蛮可爱音色等。关于此,火山语音团队采用了半监督情感模块,仅凭借1小时的情感数据作为参考,智能分析出其余全量录制语句的情感类型和情感强度,进而让所有录制数据都参与合成语音情感能力的建模,实现更显著、更自然和更细腻的情感表现力。值得提及的一点,在“哪吒音色”个性化的听感下,是极速响应灵敏加成。火山语音团队表示,“哪吒音色”运用了业界领先的基于无监督表征的并行对抗深度神经网络,语音请求延时低于150毫秒,全链路句准确率达到98.1%。在语音质量MOS评分中达到4.6分(满分5分),以行业领先水平做到“更懂你心”!

  自2022年10月试上线以来,“哪吒音色”引起了用户和众多汽车品牌的强大兴趣,其背后正是火山语音强大的语音合成能力。一直以来团队针对数据获取难、专业要求高、训练难度大、消耗成本高等业界疑难问题开展多音色模型训练,提出了低成本、高效率、批量生产的方案,为企业用户提供了许多“听得懂”、“说的好”、“会的多”的音色。尤其是不久之前上新发布的超自然对话语音合成技术,相较传统TTS更加真实自然,语气词、吸气声、犹豫时的停顿以及字音拖长等细节都被精准复现,而且只需常规音库1/4数据,就可极大还原真人说话细微的韵律特点、发音口癖,让合成效果更加真实,给人带来沉浸式的听感体验。其对外推出的“音色复刻技术”,作为一套全自动高效化的轻量级音色定制方案,不同于传统语音合成技术对数据的高门槛要求,对数据量的需求仅为传统方法的0.3%,普通人在相对安静的开放环境录制2分钟以上,即可达到音色空间建模的标准,生成专属音色的AI模型,便捷又高效。

  在“哪吒音色”的背后是火山语音团队。作为火山引擎语音合成产品的技术能力提供方,火山语音团队即字节跳动AI Lab Speech & Audio智能语音与音频团队,自2017年成立以来就专注研发行业领先的AI智能语音技术,截止2022年上半年,团队已有17篇论文入选AI顶级会议,其中音频生成方向接受了8篇论文。火山语音团队攻克了很多语音合成技术的前沿挑战,例如在在韵律建模方面,不同的语言、方言、风格都具备自身的韵律特点,有不同的语速、语调、重音模式等语音变化信息,这种细粒度的韵律特征显著地影响着发音准确性和地道性,而传统的端到端神经网络框架很难隐式建模和控制这种细粒度的韵律特征变化。对此,火山语音团队提出了音素级别细粒度韵律建模的AM架构,通过引入音调、短语重音等音素级别的韵律特征以及音素级变量适配器,可以分别实现音节、短语和句子级别语调、重音模式变化,实现“听得懂”、“说的好”。

  在火山语音团队强大科研力量的支持下,火山引擎语音合成产品于2022年11月获得国家语音及图像识别产品质量检验检测中心颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达最高等级标准。经评测,火山引擎提供的音色MOS评分最高可达4.64分,处行业领先水平。目前,火山语音将打磨多年的语音技术能力面向市场,通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景。

  展望2023:在火山语音团队的持续创新与快速创新成果转换的推动下,火山引擎已经成为了车载语音交互行业的新势力,越来越多的车企品牌将在火山引擎平台上快速发展,抓住2023年即将爆发的市场机会;而在更广泛的智能语音市场,火山语音团队也将带来源源不断的新技术、新产品,以更低门槛、更高品质、更快交付等,助力更多行业大步迈入智能时代!

相关阅读