百融智能开源语音评测：AI“接对话”，不等于“真听懂”

2026-04-21 09:21:20 西盟科技资讯

　　语音AI正在变得越来越“像人”。

　　无论是客服、外呼,还是车载助手,很多系统已经可以做到自然接话、几乎不卡顿。但一个新的问题开始浮现:

　　AI真的听懂用户了吗?

　　近期,百融智能(百融云创)发布了一项语音评测研究,指出当前主流语音模型中,相当一部分“看起来做对了”的交互,其实并没有理解用户,只是“碰巧没做错”。

　　被忽视的一个问题:动作正确,不等于理解正确

　　在实际语音交互中,系统往往需要根据用户的即时反馈决定是否继续说话或进行回应。例如,当用户在AI讲话过程中发出声音时,系统通常会暂停输出,以等待用户表达。

　　从结果上看,这种处理方式是合理的。但问题在于,用户发声背后的语义并不单一:可能是咳嗽、与旁人交流、环境噪音,或者真正的打断行为。不同语义对应完全不同的交互策略,而当前不少系统并未区分这些差异。

　　换言之,系统做出的“暂停”动作虽然正确,但其判断依据未必正确。这种情况下,模型并非真正理解了用户意图,而是将不同情境统一映射为同一信号进行处理。

　　这一现象在现有评测体系中长期被忽略。主流评测方法多基于端点检测(Endpoint Detection),核心在于判断用户是否说完,从而决定系统是否接话。这种方式本质上是对行为结果的评估,而非对决策逻辑的验证。

　　评测方式的变化:从“做什么”到“为什么这么做”

　　针对上述问题,百融智能在CoDeTT中引入了“决策意图”这一评测维度,将语音交互能力拆解为三个层次:系统状态识别、行为决策以及决策意图判断。其中,第三层是核心变化。

　　具体而言,CoDeTT构建了14类细粒度语音场景,对应不同类型的用户行为与环境干扰。在这些场景下,模型即便做出相同动作,其正确性也需要结合语义进行判断。例如,在“继续讲话”这一动作下,用户的“反馈确认”、轻微噪声或旁人对话,均可能对应合理决策,但背后的语义解释完全不同。

　　这一设计,使评测从单一结果判断,转向对模型“理解能力”的检验。

　　一个关键指标:揭示“看起来正确”的误判

　　在指标设计上,百融智能的CoDeTT提出了“语义错位率”(Semantic Misalignment Rate,SMR),用于衡量模型在动作正确前提下,其语义判断的偏差程度。

　　测试结果显示,即使是当前表现较优的模型,SMR仍普遍处于15%至25%区间,部分模型在特定场景中甚至超过50%。这意味着,在相当比例的交互中,模型虽然做出了正确动作,但其判断依据并不符合真实语境。

　　这一发现从侧面反映出,语音模型在复杂语义理解方面仍存在结构性不足,尤其是在多人交互、背景干扰及意图辨识等场景中,表现波动较大。

　　反直觉现象:上下文增加未必提升效果

　　研究还观察到一个值得关注的现象:增加对话历史并不总能提升模型表现。在1至3轮上下文条件下,模型在部分语义判断上有所改善;但当上下文扩展至5轮时,一些模型的准确率反而下降,同时SMR上升。

　　这表明,模型在处理长上下文时,可能更多依赖历史模式进行推断,而非基于当前语义做出判断,从而引入新的误差。

　　从评测升级看行业阶段

　　从能力结构来看,语音交互可以大致划分为三个层级:边界检测(判断用户是否说完)、语义推理(理解用户行为原因)以及语用理解(识别多方关系与交互意图)。当前大多数系统仍主要集中在第一层,部分具备初步语义推理能力,而在更复杂的语用层面仍有明显不足。

　　对于金融、电销及客服等高频对话场景而言,这种差距会直接影响用户体验与业务转化。例如,用户在思考时被系统打断、旁人对话被误识别为指令,或明确拒绝未被及时响应,均可能带来实际损失。

　　开源背后:评测标准的潜在变化

　　据了解,百融智能CoDeTT已对外开源,包含约300小时中英双语语音数据及完整评测工具。百融智能希望通过开放评测体系,推动行业从“接话是否自然”向“决策是否合理”转变。

　　在大模型逐步进入应用深水区的背景下,评测标准的变化,往往意味着竞争维度的调整。从这一角度看,CoDeTT不仅是一项技术工具,也可能成为语音交互能力评估的新参考。