当前位置:100EC>数字生活>​​Soul App开源语音合成模型SoulX-Podcast 支持多方言长时对话​
​​Soul App开源语音合成模型SoulX-Podcast 支持多方言长时对话​
网经社发布时间:2025年10月29日 17:52:48

(网经社讯)10月29日消息,社交平台Soul App旗下AI团队(Soul AI Lab)宣布开源其播客语音合成模型SoulX-Podcast。该模型专注于多人、多轮对话场景的语音生成,能够稳定输出超过60分钟的自然流畅对话,并支持中文、英语四川话、粤语、河南话等多种语言及方言。除播客场景外,该模型在通用语音合成和零样本克隆任务中也表现出较高自然度与适应性。

据网经社数字生活台(DL.100EC.CN)了解,SoulX-Podcast的核心优势体现在多轮对话的连贯性与方言兼容性上。模型具备零样本克隆能力,能够根据少量参考语音还原说话人的音色与风格,并根据对话上下文动态调整韵律节奏。此外,模型支持笑声、清嗓等副语言元素的可控生成,提升语音的临场感。在方言处理方面,即使仅提供普通话参考语音,模型仍可生成符合四川话、粤语等方言特征的语音,实现跨方言音色克隆。

技术架构上,SoulX-Podcast采用LLM(语言模型)与Flow Matching结合的语音生成范式,并以Qwen3-1.7B作为基座模型,以继承其语义理解能力。在多项测试中,该模型在语音可懂度和音色相似度上均达到当前开源模型的先进水平,尤其擅长处理长时对话中的音色一致性与角色切换准确性。

该模型的开发与Soul App在AI社交领域的布局密切相关。团队此前已在平台内测全双工语音通话系统,并推出虚拟人互动功能(如虚拟人“孟知时”与“屿你”的40分钟对话实验),探索AI在情感陪伴与内容创作中的应用。SoulX-Podcast的开源旨在解决当前开源语音模型中长时多轮对话支持不足、方言覆盖有限等问题,推动AIGC社区在语音交互领域的协作创新。

未来,Soul团队表示将持续优化语音对话合成、全双工通话等核心能力,并推动技术在虚拟生态、多模态交互等场景的落地。开源资源包括技术报告、源代码、演示页面及HuggingFace模型库,开发者可通过GitHub等平台获取使用。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【关键词】 SoulApp数字生活原创
【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”