(网经社讯)10月29日消息,社交平台Soul App旗下AI团队(Soul AI Lab)宣布开源其播客语音合成模型SoulX-Podcast。该模型专注于多人、多轮对话场景的语音生成,能够稳定输出超过60分钟的自然流畅对话,并支持中文、英语、四川话、粤语、河南话等多种语言及方言。除播客场景外,该模型在通用语音合成和零样本克隆任务中也表现出较高自然度与适应性。
据网经社数字生活台(DL.100EC.CN)了解,SoulX-Podcast的核心优势体现在多轮对话的连贯性与方言兼容性上。模型具备零样本克隆能力,能够根据少量参考语音还原说话人的音色与风格,并根据对话上下文动态调整韵律节奏。此外,模型支持笑声、清嗓等副语言元素的可控生成,提升语音的临场感。在方言处理方面,即使仅提供普通话参考语音,模型仍可生成符合四川话、粤语等方言特征的语音,实现跨方言音色克隆。
技术架构上,SoulX-Podcast采用LLM(语言模型)与Flow Matching结合的语音生成范式,并以Qwen3-1.7B作为基座模型,以继承其语义理解能力。在多项测试中,该模型在语音可懂度和音色相似度上均达到当前开源模型的先进水平,尤其擅长处理长时对话中的音色一致性与角色切换准确性。
该模型的开发与Soul App在AI社交领域的布局密切相关。团队此前已在平台内测全双工语音通话系统,并推出虚拟人互动功能(如虚拟人“孟知时”与“屿你”的40分钟对话实验),探索AI在情感陪伴与内容创作中的应用。SoulX-Podcast的开源旨在解决当前开源语音模型中长时多轮对话支持不足、方言覆盖有限等问题,推动AIGC社区在语音交互领域的协作创新。
未来,Soul团队表示将持续优化语音对话合成、全双工通话等核心能力,并推动技术在虚拟生态、多模态交互等场景的落地。开源资源包括技术报告、源代码、演示页面及HuggingFace模型库,开发者可通过GitHub等平台获取使用。








































