随着人工智能走进千家万户,越来越多的人开始尝试与AI进行交流互动。在此背景下,Soul App创始人张璐团队发布了其自研的端到端全双工语音通话大模型。此次语音大模型升级,不仅是人机交互体验的一次升级,也是Soul在语音技术方面的一次进步。
与传统使用级联方案的语音模型相比,Soul的端到端语音通话大模型大幅缩短了响应时间。传统的语音交互系统通常依赖于多个步骤,如语音识别、自然语言理解和语音生成,每一个步骤都可能导致信息损失或延迟增加。而Soul的端到端语音通话大模型则通过直接实现“语音输入——语音输出”的流转,在提升响应效率的同时最大限度地保持了信息的完整性。
自2016年上线以来,Soul始终致力于通过技术创新扩展社交体验。在人工智能技术逐渐成熟的过程中,Soul于2020年开始对AIGC展开深入研发,重点探索智能对话、语音技术等关键技术,并将这些技术应用到社交场景中。
为了实现拟人化、自然化的情感陪伴,Soul专注于语音技术的研发,在此次升级前就已推出自研的语音生成、语音识别、语音对话等大模型。这些技术不仅支持真实音色生成、多语言切换,还能够在实时对话中实现情感表达和理解,为用户提供高度拟真的互动体验。目前,这些大模型已经应用于“AI苟蛋”和“狼人魅影”AI语音互动。
此外,Soul在语音技术上的努力更得到了国际的认可。今年7月,Soul的语音技术团队在国际人工智能联合会议举办的多模态情感识别挑战赛(MER24)上获得了半监督学习赛道的第一名。这一成就不仅体现了Soul在语音技术领域的技术沉淀,也展示了其在人工智能领域的科研实力。
此次端到端语音通话大模型的上线,是Soul在语音技术领域的又一次突破。从提升语音交互的自然度和情感表达能力,到实现拟人化的陪伴体验,Soul App创始人张璐团队通过持续的技术创新,不断优化人机交互体验,为用户带来了更加真实、有温度的社交体验。
编辑:rwzh2
上一篇:
Soul App创始人张璐团队自研多模态大模型,亮相GITEX GLOBAL获好评
下一篇:
强化人机语音交互,Soul App创始人张璐团队发布端到端全双工语音大模型