腾讯混元发布多模态视频生成工具并开源上线网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>数字生活>腾讯混元发布多模态视频生成工具并开源上线

腾讯混元发布多模态视频生成工具并开源上线

作者：来源：网经社发布时间：2025年05月12日 11:26:02

(网经社讯)5月9日，腾讯AI实验室旗下混元团队宣布正式推出并开源全新多模态视频生成工具Hunyuan Custom，该工具基于混元视频生成大模型（Hunyuan Video）开发，旨在通过多模态融合技术突破传统视频创作的边界，为用户提供高效、可控的定制化视频生成解决方案。此次开源标志着腾讯在多模态AI领域的技术积累进一步向行业开放，助力数字内容创作生态的全面升级。

核心优势：多模态融合重塑视频生成范式

据网经社（WWW.100EC.CN）获悉，Hunyuan Custom的核心竞争力在于其对文本、图像、音频、视频等多模态数据的深度融合能力。与传统模型仅支持单一或有限模态输入不同，该工具能够同时处理多元信息，并转化为逻辑连贯、视觉自然的视频内容。通过深度学习算法对多维度数据的协同解析，Hunyuan Custom在生成质量、动态控制及场景适配性上实现了显著提升。例如，用户只需输入一张图片和简短文本描述，Hunyuan Custom即可生成包含复杂动作、服饰变化及场景转换的高质量视频，彻底打破传统模型在人物一致性及场景连续性上的技术瓶颈。

四大生成模式解锁多元创作场景

为满足不同应用场景的需求，Hunyuan Custom提供了四大核心功能模块：单主体视频生成、多主体视频生成、单主体视频配音及视频局部编辑。目前，单主体生成能力已率先在腾讯混元官网“模型广场-图生视频-参考生视频”板块开源上线，用户可直观体验“图片+文本”驱动的个性化视频创作。其余功能模块预计于5月内陆续开放，进一步释放多模态创作的潜力。在单主体生成模式下，工具通过深度学习人物身份特征，可实现同一主体在不同动作、服饰及场景中的无缝转换，确保视频叙事连贯性；多主体生成则支持多角色协同演绎，满足剧情类视频的复杂需求。此外，音频驱动模式可将人物图像与音频信号实时同步，生成音视频一体的数字人表演，广泛应用于虚拟直播、客服交互等场景；视频驱动模式则通过智能替换或插入技术，实现任意视频片段的创意重构，为内容二次创作提供全新工具。

技术突破：破解人物一致性与场景变换难题

针对传统视频生成模型在人物特征保持及场景动态切换上的局限性，Hunyuan Custom通过两项关键技术实现突破。首先，模型引入“多模态特征锚定”机制，通过图像与文本的交叉验证，精准锁定主体身份信息，即使在动作、服饰及背景剧烈变化的情况下仍能维持人物一致性。其次，采用“动态场景生成网络”，模型可根据文本语义自动构建适配场景，并通过物理引擎模拟实现环境交互的真实感。例如，用户输入“女孩在雨中奔跑”的描述，模型不仅生成连贯动作，还能同步渲染雨滴轨迹、地面反射等环境细节，大幅提升视频逼真度。

开源生态构建：加速AI创作民主化进程

腾讯混元团队表示，Hunyuan Custom的开源旨在推动AI创作技术的普惠化发展。目前，单主体生成模块已通过官网开放API接口及模型代码，开发者可自由调用或二次开发。后续模块开源后，将进一步降低视频创作的门槛，赋能广告营销、影视制作、教育培训等行业。团队同时承诺持续优化模型性能，并通过社区反馈机制完善工具生态，构建开放协作的技术发展模式。

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。