(网经社讯)5月9日,腾讯AI实验室旗下混元团队宣布正式推出并开源全新多模态视频生成工具Hunyuan Custom,该工具基于混元视频生成大模型(Hunyuan Video)开发,旨在通过多模态融合技术突破传统视频创作的边界,为用户提供高效、可控的定制化视频生成解决方案。此次开源标志着腾讯在多模态AI领域的技术积累进一步向行业开放,助力数字内容创作生态的全面升级。
核心优势:多模态融合重塑视频生成范式
据网经社(WWW.100EC.CN)获悉,Hunyuan Custom的核心竞争力在于其对文本、图像、音频、视频等多模态数据的深度融合能力。与传统模型仅支持单一或有限模态输入不同,该工具能够同时处理多元信息,并转化为逻辑连贯、视觉自然的视频内容。通过深度学习算法对多维度数据的协同解析,Hunyuan Custom在生成质量、动态控制及场景适配性上实现了显著提升。例如,用户只需输入一张图片和简短文本描述,Hunyuan Custom即可生成包含复杂动作、服饰变化及场景转换的高质量视频,彻底打破传统模型在人物一致性及场景连续性上的技术瓶颈。
四大生成模式解锁多元创作场景
为满足不同应用场景的需求,Hunyuan Custom提供了四大核心功能模块:单主体视频生成、多主体视频生成、单主体视频配音及视频局部编辑。目前,单主体生成能力已率先在腾讯混元官网“模型广场-图生视频-参考生视频”板块开源上线,用户可直观体验“图片+文本”驱动的个性化视频创作。其余功能模块预计于5月内陆续开放,进一步释放多模态创作的潜力。 在单主体生成模式下,工具通过深度学习人物身份特征,可实现同一主体在不同动作、服饰及场景中的无缝转换,确保视频叙事连贯性;多主体生成则支持多角色协同演绎,满足剧情类视频的复杂需求。此外,音频驱动模式可将人物图像与音频信号实时同步,生成音视频一体的数字人表演,广泛应用于虚拟直播、客服交互等场景;视频驱动模式则通过智能替换或插入技术,实现任意视频片段的创意重构,为内容二次创作提供全新工具。
技术突破:破解人物一致性与场景变换难题
针对传统视频生成模型在人物特征保持及场景动态切换上的局限性,Hunyuan Custom通过两项关键技术实现突破。首先,模型引入“多模态特征锚定”机制,通过图像与文本的交叉验证,精准锁定主体身份信息,即使在动作、服饰及背景剧烈变化的情况下仍能维持人物一致性。其次,采用“动态场景生成网络”,模型可根据文本语义自动构建适配场景,并通过物理引擎模拟实现环境交互的真实感。例如,用户输入“女孩在雨中奔跑”的描述,模型不仅生成连贯动作,还能同步渲染雨滴轨迹、地面反射等环境细节,大幅提升视频逼真度。
开源生态构建:加速AI创作民主化进程
腾讯混元团队表示,Hunyuan Custom的开源旨在推动AI创作技术的普惠化发展。目前,单主体生成模块已通过官网开放API接口及模型代码,开发者可自由调用或二次开发。后续模块开源后,将进一步降低视频创作的门槛,赋能广告营销、影视制作、教育培训等行业。团队同时承诺持续优化模型性能,并通过社区反馈机制完善工具生态,构建开放协作的技术发展模式。