首页 > 技术

云知声上市路径清晰,推出山海多模态大模型,迎接“Her时代”

2024-09-05 14:02:55      恩施新闻网   


  2023年5月中旬,OpenAI推出的GPT-4o凭借其突破性的智能交互能力,颠覆了我们对人机交互的传统认知,掀起了一股多模态大模型的新浪潮。3个月后的今天,国内AI领域的独角兽企业云知声也正式推出了山海多模态大模型,迎接“Her时代”的正式到来。

  云知声山海多模态大模型通过整合跨模态信息,实现了文本、音频、图像等多种形式输入的全面兼容,并能够实时生成文本、音频和图像的任意组合输出,为用户带来实时多模态拟人交互体验。

  这一模型的发布预示着云知声在AI技术领域的又一次重大飞跃。回顾2023年5月,云知声首次发布了山海大模型,这是其在AGI领域交出的第一张答卷。自发布以来,山海大模型始终保持高速迭代,不断在权威赛事上崭露头角。在SuperCLUE中文大模型基准测评、MedBench中文医疗大模型评测、CCKS 2023医疗大模型评测等赛事中,山海大模型屡获佳绩,展现出全面的通用能力和不俗的专业能力,稳居全球大模型的第一梯队。

  在大模型迭代路上,云知声深知,虽然山海的语言理解、知识储备和逻辑推理能力至关重要,但推动其迈进AGI的关键,在于多模态交互能力的发展。多模态交互能力的提升将使山海不再局限于单向的信息处理,而是真正成为一个能够深入理解世界、与人类进行自然而富有洞察力的交流的智能伙伴。

  正是基于这样的愿景,云知声在不断提升山海大模型自然语言处理能力的同时,也在积极发展其多模态能力。在CVPR 2024开放环境情感行为分析竞赛中,云知声一举夺得了人脸情绪识别、复合情绪识别、情绪模仿强度估计三个赛道的季军,充分展现了其在情感分析方面的能力。

  此次推出的山海多模态大模型,在语音交互方面更是实现了质的飞跃。它不仅能够实时秒回、自由插话,与用户进行几乎无感知延迟的流畅对话,还支持对话随时打断,用户可在对话中灵活插话,无需等待,交互过程自然不受阻碍。同时,山海还能通过智能语音技术感知和表达情绪,细致捕捉用户语音的语气、节奏和音调等微妙变化,从而更准确地感知对方情绪状态,并像人类一样予以适当的情感反馈。

  除此之外,山海多模态大模型在视觉交互方面也有着出色的表现。通过摄像头,它能够看见周围环境,实现所见即所得的精准识别。无论是场景理解分析还是物体信息描述,山海多模态大模型都能提供全面而深入的分析。同时,它还具备图像创意生成的能力,能够根据用户指令快速创建视觉内容,并提供符合个性化需求的定制画面。

  随着多模态技术的深入发展,云知声山海多模态大模型将具备更强的能说能听会看的能力,还将进一步拓展实时语言翻译、面部情绪分析等更深入的多模态能力。这些能力的提升将使山海多模态大模型全方位满足人们在工作、社交、娱乐等方面的多样化需求,成为人们生活中不可或缺的一部分。

相关阅读