出席2024声网RTE大会，Soul App展现多模态大模型情感交互能力

2024-10-29 14:46:06 搜狐

　　10月25日~26日，由声网和RTE开发者社区联合主办的RTE 2024实时互联网大会在北京举行。在AI技术突破式发展引发各行业革新浪潮的当下，此次大会主题聚焦“AI 爱”，汇聚行业代表企业、技术大咖、专家学者等嘉宾，共同深度探讨AI为互联网生态带来的新发展。作为AI在社交领域落地的前沿探索者，Soul App与通义千问、MiniMax、智谱等受邀参加开幕式当天的“AI论坛”，展现现阶段最新的技术能力积累以及应用创新方向的更多可能。

　　在活动现场，Soul App AI算法技术总监刘忠亮以《实时互动、情感陪伴，开启智能社交新时代》为主题，重点分享了Soul多模态大模型的技术研发脉络，以及围绕社交场景深度打磨多模态交互、情感陪伴、自然反馈等AI能力方向的最新成果和应用实践。

　　刘忠亮表示，Soul致力于构建一个AI Being与Human Being共存的社交社区，其中，“人”是最为关键的，因此Soul的AI探索从用户的实际社交场景出发，在AI辅助人、解决人与人链接需求的基础上，以更智能、更沉浸的人机互动升级社交体验。“Soul在AI方向的布局有清晰的推进层次，在以AI增强关系建立的效率和质量后，团队探索多模态大模型、重点关注AI如何提供即时的交流反馈和情绪价值。”

　　2016年上线之初，Soul首先推出了灵犀引擎，基于平台用户站内全场景画像与独特算法，持续挖掘有效特征，实现平台上“人与人”“人与内容”的智能连接，合理分配注意力资源和交流机会，这让Soul在当时成为了较早将AI引入人与人链接的社交平台，并在用户群体中形成了差异化的产品认知。

　　2020年，Soul正式启动对AIGC的技术研发工作，系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作。2023年，Soul推出自研语言大模型Soul X，成为行业中较早通过备案的科技企业之一，此后，平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。

　　今年6月，Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型，具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点，能够直接理解丰富的声音世界，支持超拟人化的多风格语言。

　　2024年，Soul AI大模型能力整体升级为了多模态端到端大模型，支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性，特别是团队在模型感知能力和推理能力层面的技术突破，叠加端到端方案对延迟问题的解决(现阶段Soul端到端对话模型的延迟低于200毫秒)，进一步实现了实现更接近生活日常的交互对话和“类真人”的情感陪伴体验，使人机互动也能具备“在场感”和超拟人属性。

　　通过在现场展示目前Soul多模态大模型落地在平台智能机器人“AI苟蛋”、AI聊天助理、狼人杀Agent、数字分身以及最新的AI虚拟人智能陪伴功能的实际效果，刘忠亮说，“大模型能力服务人的社交需求，并不只是单点的人机对话，而是在丰富、趣味的社交场景中，以AI建立完善的关系链发现——建立——深化的环节，并让AI为人提供情绪价值，这是Soul在产品应用探索层面的主脉络，目前平台推出的相关功能也受到了用户的广泛认可和积极反馈。”

　　在不久前结束的全球最具影响力的盛会之一—— GITEX GLOBAL海湾信息技术博览会上，Soul携集成3D虚拟人能力的多模态AI交互方案亮相，在博览会现场接受记者采访时，Soul App CTO陶明表示，“预计今年年底，Soul多模态端到端大模型将再次升级，推出全双工视频通话能力。”

　　这也意味着，Soul将实现真正意义上的AI多模态交互，集合文字、语音、动作交互的多模态大模型，让用户可以在平台实现更接近人类模式的互动体验和更高效、自然、丰富维度的信息传递，真正获得社交体验的颠覆式升级。

声网RTE大会 Soul

分享到微博分享到微信

出席2024声网RTE大会，Soul App展现多模态大模型情感交互能力

相关阅读

新动态

关注度

最话题