突破TTS自然度瓶颈：双工对话数据集让合成语音更像真人说话

2025-09-10 21:32:42 西盟科技资讯

　　在人工智能快速发展的今天，语音合成技术(TTS)已经能够生成清晰可懂的语音，但如何让AI说话更加自然、更像真人对话，仍是当前研究面临的重要挑战。传统语音合成系统大多依赖交替说话式的“半双工”语料，难以还原真实对话中频繁发生的语音重叠、实时反馈、插话和情感呼应等行为。

　　为此，Magic Data研究团队开展了针对全双工对话语音数据的研究，相关论文《Open-Source Full-Duplex Conversational Datasets for Natural and Interactive Speech Synthesis》已在arXiv平台发布。

　　研究背景和动机

　　研究表明，人类自然对话中超过40%的语句存在重叠现象，包括打断、实时反馈(如“嗯嗯”、“对的”)和非语言发声(如笑声)等。这些动态交互特征正是合成语音是否“像人”的关键。然而，现有大多数语音语料库(如Switchboard、DailyTalk)仍以轮流说话为主，缺乏显性的重叠语音标注与对齐机制，限制了全双工语音交互模型的训练效果。

　　为解决这一问题，Magic Data研究团队构建了中英双语全双工对话数据集，旨在为对话式TTS系统提供更贴合真实交互情境的高质量训练数据。

　　数据构建和方法

　　核心创新：研究团队构建了两个开源的全双工对话数据集(中文10小时，英文5小时)，通过双轨录音技术捕获真实的对话动态，包括重叠、回应声、笑声等自然对话元素。

　　数据采集设置

　　我们邀请了以中文和英语为母语的说话人参与录制，所有对话均在独立房间内进行，每位说话人使用独立设备录制，生成双声道分离的高质量语音轨。说话人两两一组，优先选择彼此熟悉的组合(如朋友、家人)，便于激发更自然的对话行为。

　　话题内容不设限制，说话人可自由选择日常感兴趣的主题进行讨论，从而覆盖多样化的语境和语音现象。

　　转写和标注

　　所有合格录音均由经过培训的标注员进行人工转写与标注，内容包括：

　　· 说话人身份、性别信息;

　　·精确的时间戳(起始与结束点);

　　·重叠语音区间标注;

　　·副语言现象(如笑声、语气词)和对话行为标签。

　　我们特别强调基于语义完整性的语音活动检测(VAD)分段，确保每段语音不仅 acoustically 完整，更具备语义上的独立性，从而适用于TTS训练与语义理解任务。

　　数据统计与结构

　　数据集共包含35段对话，其中中文27段(10小时)、英语8段(5小时)，由14名不同说话人完成。所有音频均以16kHz、16bit PCM格式发布，配套按时间排序的双人转写文本，每行包含时间信息、说话人ID与文本内容。

表1 数据集统计

　　文件命名遵循结构化规则：A_S_0_G，便于识别与管理。

　　实验验证与结果分析

　　为验证数据集有效性，我们使用 CosyVoice-300M 模型作为基线，分别在使用该数据微调前后生成语音，并从客观声学指标与主观听感两方面进行综合评估。

　　客观评价

　　实验结果显示，微调后模型在所有指标上均有提升，尤其F0距离显著下降(中文7.08%，英文3.67%)，证明合成语音在韵律和节奏方面更接近自然语音。

表2 微调后客观指标的改进(中文与英文子集)

　　主观评价

　　我们招募了以中英文为母语的听者进行A/B偏好测试，结果显示：

　　· 中文合成语音中，45%听者认为微调后的模型更自然;

　　·英文合成语音中，46.4%听者认为微调后的模型更自然。

图1 A/B 偏好分布统计

　　MOS(平均意见分)评分在自然度与可懂度两个维度均出现一致提升。

表3 中文与英文MOS评分比较

　　结果表明，使用全双工数据微调能显著提升语音的交互真实感与整体自然度。

　　数据开放与使用许可

　　本数据集已通过ScienceDB平台公开，采用CC BY 4.0许可协议，允许学术研究使用，需注明来源。

　　此外，数据集也在MagicHub开源社区发布，欢迎研究人员下载使用。

　　除已开源部分外，Magic Data 还可提供更大规模、多语种、可商用双工对话数据，满足企业级应用的需求。

　　总结与展望

　　本研究通过构建高质量中英全双工对话数据集，并验证其在提升TTS自然度与对话交互感方面的有效性，为推进对话语音合成的发展提供了重要数据基础与实验依据。未来，我们期待看到更多研究者开发出更自然、更智能的对话系统。

　　如果您希望进一步了解数据集细节或合作意向，欢迎联系Magic Data官方团队。

分享到微博分享到微信

突破TTS自然度瓶颈：双工对话数据集让合成语音更像真人说话

相关阅读

新动态

关注度

最话题