首页 > 技术

全球化浪潮下的“沟通利器”:讯飞双屏翻译机 2.0用“耳朵+大脑”搭建“沟通桥梁”

2025-06-10 15:39:34      中华网   


  在全球化进程不断加快的当下,国际交流的场景早已从会议室里的安静对话,拓展到展会、工厂等复杂环境。随之而来的,是跨语言沟通面临的诸多现实挑战:嘈杂的环境、多人同时交谈、声源相互交织,让传统翻译设备常常难以应对。作为人工智能领域的“国家队”,科大讯飞凭借着深厚技术积淀,创造性地给讯飞双屏翻译机2.0配备了“耳朵+大脑”,让这款设备既听得清又会思考,为用户带来了全新的跨语种沟通体验。

  首先,在声音捕捉层面,讯飞双屏翻译机 2.0 配备了五颗高灵敏麦克风,它们以星型分布在设备的左右两侧与底部。这种独特的阵列布局,如同为翻译机打造了多个“敏锐的耳朵”,能够从不同角度捕捉声音。在复杂的声场环境中,这些麦克风协同工作,快速判断哪个声音离设备最近,哪个来自远方,为后续的“语音识别”筑牢根基。

  有了精准的声音捕捉,接下来就是对声音的“筛选过滤”。讯飞双屏翻译机 2.0引入深度强化学习技术和深度神经网络,在嘈杂声场中构建了智能化的“声学结界”。它会优先处理 1 米以内的近场人声,将其视为“主角”;而1米以外的环境音,则自动被识别为“干扰配角”,算法会对其进行削弱或滤除。这就好比在用户和翻译机之间拉起了一圈“隐形的听力护栏”,将外界的嘈杂声音隔绝在外,让关键语音清晰传递。

  并且,讯飞双屏翻译机 2.0还引入了自适应注意力机制,使算法模型进一步具备了类似人耳的“选择性聚焦”能力,模拟人类听觉注意力机制,在瞬间完成从“环境识别”到“目标锁定”的全过程,让机器能够精准捕捉目标语音,使讯飞双屏翻译机 2.0即便在多人交谈、背景复杂的环境中,也能够自动聚焦对话对象,翻译机等同于有了会思考的“大脑”。

  “通过深度强化学习方法,目标语音的STOI(语音可懂度)达到0.92,在工厂90dB机械轰鸣噪音、展会复杂背景人声混杂场景,语音识别率从32.39%提升到98.69%,这个准确率已经接近了理论极限。”讯飞研究院声学算法高级工程师程枫介绍道。

  从会议室的精准对译到展会现场的嘈杂交涉,从工厂机械的轰鸣背景到机场人流的多音交织,当全球化浪潮推动着人类交流走向更复杂的场景,讯飞双屏翻译机 2.0凭借“耳朵 + 大脑”的创新架构,真正实现了从“能翻译”到“会沟通”的跨越。

  正如科大讯飞翻译业务线产品总监孙境廷所言,“从技术中来,到用户中去,技术创新优化用户体验”,讯飞双屏翻译机2.0通过最前沿的强降噪技术,让跨国交流不再受困于语音识别的模糊地带,为全球用户打开了更广阔的沟通空间。未来随着人工智能与声学技术的进一步融合,科大讯飞将持续以技术创新助力实现“声动世界 智联未来”的愿景。

相关阅读