MuseSteamer：百度自研的AI视频生成模型

admin • 新闻资讯 • 2025年9月16日下午1:53 • 阅读 89

MuseSteamer 是百度在 2025 年 7 月 2 日发布的视频生成模型。它能同时生成画面、音效和台词，是首个实现中文音视频一体化生成的模型，改变了传统 aiGC 视频先画面后配音的模式。百度还同步推出了 AI 视频创作平台 “绘想”。

功能特点：

音视频一体化生成：全球首个实现中文音视频一体化生成的视频模型，能够实现画面与音效、人声台词的协同创作，打破了传统AIGC视频“先画面后配音”的割裂流程。

多模态输入：支持中文文本提示、参考图像等输入方式。

视频生成：可生成长达 10 秒的动态视频，画质出色，能灵活控制场景、动作和镜头感，实现音视一体化。比如生成的古装武侠视频，人物动作、表情自然，运镜专业。

一体化生成：能同步生成画面、音效和台词，声音与画面自然匹配，提升视频的完整性和艺术表现力。

中文语义理解：精准理解中文语义，通过优化数据体系，确保文本指令与视觉元素的语义对齐。

视频描述语言：采用精细化的视频结构化描述语言，涵盖画面细节、主体运动轨迹、风格属性和镜头语言等，保障模型对画面细节的遵循。

技术突破：

亿级中文多模态数据清洗：深度清洗大量中文多模态数据，确保训练数据的高质量。

精细化视频结构化描述语言：提升模型对视频内容的理解和生成能力。

多目标强化学习：优化路径，保证视频动作幅度的同时，保持主体内容的一致性稳定输出。

产品矩阵及适用人群：

Lite 版：720p，生成速度快（30 秒），价格实惠，适合追求性价比的用户。

Turbo 版：720p，擅长生成人物、动漫视频，动作一致性好，运动幅度大，表情自然，适合大部分创作者，已上线绘想平台并开启限时免费公测。

Pro 版：1080p，电影级画质和运镜，表现力强，适合专业创作者和影视生产机构。

有声版：各清晰度均支持一体化生成音效及台词，适合对同期声和画面有高要求的用户。

应用场景：

视频创作：帮助创作者突破创意瓶颈，快速生成高质量视频。

广告制作：为广告视频制作提供高效解决方案，提升吸引力。

教育与培训：生成教育视频和动画，直观解释复杂概念。

个人娱乐：用户上传图片即可生成个性化视频，分享个人故事。