Soul App创始人张璐团队升级端到端语音大模型，带来流畅人机交互体验

来源：网络时间：2024-11-04 14:22

随着人工智能走进千家万户,越来越多的人开始尝试与AI进行交流互动。在此背景下,Soul App创始人张璐团队发布了其自研的端到端全双工语音通话大模型。此次语音大模型升级,不仅是人机交互体验的一次升级,也是Soul在语音技术方面的一次进步。

与传统使用级联方案的语音模型相比,Soul的端到端语音通话大模型大幅缩短了响应时间。传统的语音交互系统通常依赖于多个步骤,如语音识别、自然语言理解和语音生成,每一个步骤都可能导致信息损失或延迟增加。而Soul的端到端语音通话大模型则通过直接实现“语音输入——语音输出”的流转,在提升响应效率的同时最大限度地保持了信息的完整性。

不仅如此,Soul的端到端全双工语音通话大模型可以让用户在进行语音对话时,体验到AI丰富的情绪感知以及超真实的声音表现。此次端到端语音模型的应用不仅限于传统的语音交流,它还支持对物理世界声音的理解和模拟。通过对声音场景的感知,Soul的语音通话大模型非但可以模拟自然界的声音,还能理解复杂的多人对话场景,甚至实现即兴演唱和多语言切换。此外,端到端语音通话大模型还能够提供情感陪伴,通过深度理解人类声音中的情绪,做出有温度的回应,为用户提供更具情感关怀的互动。

自2016年上线以来,Soul始终致力于通过技术创新扩展社交体验。在人工智能技术逐渐成熟的过程中,Soul于2020年开始对AIGC展开深入研发,重点探索智能对话、语音技术等关键技术,并将这些技术应用到社交场景中。

为了实现拟人化、自然化的情感陪伴,Soul专注于语音技术的研发,在此次升级前就已推出自研的语音生成、语音识别、语音对话等大模型。这些技术不仅支持真实音色生成、多语言切换,还能够在实时对话中实现情感表达和理解,为用户提供高度拟真的互动体验。目前,这些大模型已经应用于“AI苟蛋”和“狼人魅影”AI语音互动。