字节跳动:Seedance 2.0 正式发布,音视频生成质量和可控性达专业生产场景要求

哈哈库 新闻资讯 12

2 月 12 日消息,据字节跳动 Seed 官方微信公众号消息,今天,新一代视频创作模型 Seedance 2.0 正式发布。

Seedance 2.0 采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。相比 1.5 版本,Seedance 2.0 的生成质量大幅提升,其在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。

其核心亮点如下:

复杂场景下更高可用率:凭借出色的运动稳定性和物理还原能力,模型在多主体交互和复杂运动场景中表现出色,生成可用率达到业界 SOTA 水平。

多模态能力显著强化:基于统一的多模态音视频联合架构训练,支持混合模态输入,允许用户同时输入多达 9 张图片、3 段视频、3 段音频以及自然语言指令,模型可参考输入素材中的构图、动作、运镜、特效、声音等元素,打破传统视频生成的素材边界。

视频生成可控性大幅提升:模型的指令遵循与一致性表现全面提升,并支持稳定可控的视频延长、视频编辑,让普通用户也能像导演一样,轻松掌控视频创作全流程。

深度支持工业级内容创作:模型支持 15 秒高质量多镜头音视频输出,具备双声道音频能力,可实现极致拟真的视听效果,配合参考和编辑能力,能大幅降低影视、广告、电商、游戏等场景的内容制作成本。

字节跳动称,依靠海量世界知识、稀疏架构的效能优势,以及多模态联合训练涌现的强大泛化能力,Seedance 2.0 解决了物理规律遵循及长效一致性的难题,同时也赋予创作者前所未有的自由度,让音视频生成的质量和可控性达到专业生产场景要求。

不过字节跳动也指出,Seedance 2.0 还远不完美,其生成结果仍存在诸多瑕疵。未来,我们将持续探索大模型与人类反馈的深度对齐,让更高效、更稳定、更具想象力的音视频生产工具,服务更多创作者。

目前,Seedance 2.0 已上线即梦 AI、豆包等平台。

项目主页:

https://seed.bytedance.com/seedance2_0

体验入口:

1)即梦网页端-视频生成-选择 Seedance 2.0;

2)豆包 App 对话框-Seedance2.0-选择 2.0 模型;

3)火山方舟体验中心-选择 Doubao-Seedance-2.0。

附官方详细介绍如下:

拟真视听效果和导演级操控,让音视频生成“所想即所见”

凭借基础能力和多模态效果的跃升,Seedance 2.0 将为用户带来全新的创作体验。

Seedance 2.0 能完成前代模型难以实现的多人竞技运动生成,音频效果更加自然沉浸,输入也不再局限于单一的文字或图片,创作过程更自然、高效,让用户能像真正的“导演”一样掌控创作。下面,我们将具体介绍其能力特点。

1.稳定呈现复杂运动和交互,真实还原物理规律

Seedance 2.0 的生成表现显著提升,尤其在人物动作建模方面展现出此前未有的自然性、连贯性与物理合理性。

它能高保真地合成时序精密的复杂交互场景,比如在双人花滑场景中,模型较好地演绎了同步起跳、空中旋转、精准落冰等一系列高难度动作,同时,生成过程保持了对现实世界运动规律的遵循,避免了以往 AI 视频常见的物理谬误。

在更细腻的特写镜头中,无论是微妙的光影折射变化、衣物随风颤动时所呈现的重力感,还是人物与环境之间自然流畅的交互动作,模型生成的画面均展现出高度逼真的细节与严密的物理逻辑,宛如真实实拍。

2.支持多模态“全能参考”,创作自由度大幅提升

Seedance 2.0 支持多模态全能参考,允许组合输入不同文本、图片、视频、音频。模型可精准理解多模态输入内容,并按指令要求参考其画面构图、镜头语言、动作节奏、音效特点等元素进行生成,甚至可以直接参考文字分镜内容,创作自由度大幅提升。

3.更强可控性,精准遵循生成和编辑指令

Seedance 2.0 视频生成的可控性也大幅提升。其指令遵循表现出色,即便面对包含大量角色互动和精细动作描述的复杂脚本,也能做到精准还原生成,并保持稳定的主体一致性。同时,模型还具备一定的编导思维,可自主规划镜头语言,并设计视觉呈现模版。

4.双声道音频能力,高仿真沉浸音效同步生成

Seedance 2.0 还升级了音频能力,集成双声道立体声技术,可实现高仿真、沉浸式的音效生成。模型支持背景音乐、环境音效或人物解说等音频多轨并行输出,精准对齐画面节奏。

同时,模型的音效设计高度自然,能真实还原磨砂玻璃轻刮声、毛绒织物揉搓声、亚克力板轻敲声、气泡纸轻捏声等细腻音效,强化场景沉浸感。配合严格的音画时序控制,确保音频与视觉动作严丝合缝,可以更好地支持专业级视听内容创作。

5.全场景广泛适配,降低专业内容制作门槛

针对视频内容生产的多元化需求,Seedance 2.0 展现出极高的场景适配性。无论是商业广告、影视特效,还是游戏动画、解说视频,模型均能提供高质量的生成效果。

通过 AI 生成替代复杂的特效制作和实拍流程,Seedance 2.0 可大幅度降低专业音视频内容的制作成本,缩短生产周期,帮助创作者和企业更好地落地创意。

Seedance 2.0 评测结果,综合表现达到行业领先

为客观全面地评估 Seedance 2.0 在多模态场景的综合能力,团队协同影视领域的专家,建立了覆盖音视频生成、参考及编辑场景的综合评测集及相关评测标准。本次评估重点考察模型在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等维度的表现。

1.文生视频、图生视频评测

在视频维度,Seedance 2.0 处于业内领先水平。其运动稳定性、指令遵循及画面美感维度均有显著提升,有效改善了结构准确性和崩坏问题,生成的复杂动作流畅细腻。模型可精准呈现高张力大动作与精细的微表情,并支持专业级组合运镜与叙事节奏控制。

针对长脚本及开放性指令,模型能较好响应并合理发挥。同时,其生成视频具有一定的影视化美感,物体材质、光影构图及服化道设计均表现出较好的完成度。不过,Seedance 2.0 仍需持续改进细节稳定性、拟真度及动态生动性。

在音频维度,Seedance 2.0 依然表现强劲,音频表现力大幅提升。其双声道音频层次丰富、细腻,并可根据场景匹配更适合提示词情境的音效或曲调旋律。相比上一版本,模型的视听一体化体验进一步强化,台词、音效、背景音乐和画面内容更加契合,同时,针对中文方言、戏曲及演唱场景,其指令响应准确度明显提升。不过,Seedance 2.0 仍需继续解决多人口型匹配、偶现音频失真等问题。

Seedance 2.0 文字生成视频能力评测

Seedance 2.0 图片生成视频能力评测

2.多模态参考生成评测

Seedance 2.0 有着行业领先的综合表现。模型覆盖的参考任务更全面,支持多模态参考生成、视频编辑、视频延续等多种创作场景。同时,其对参考内容的理解深度和响应精度具备优势,在编辑任务中,相比其他模型,Seedance 2.0 指令响应更加完整,生成画面更加真实。在一致性表现上,模型在主体形象与声音还原方面表现相对较好,尤其在动作逻辑、特效风格及剧情叙事的参考一致性上显著占优。不过,模型在多主体一致性、文字还原精度及复杂编辑效果上,仍有优化的空间。

Seedance 2.0 多模态任务表现评测

抱歉,评论功能暂时关闭!