https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周润发百万级运镜也能复刻
AI视频生成的另一个要素便是运镜的效果了。
在这次实测中,我们就来实测一下Seedance 1.5 Pro是否可以复刻前不久周润发在MAMA颁奖典礼中的名场面——百万级运镜。
我们的首帧和尾帧分别是:


复刻周润发百万运镜的Prompt是这样的:

视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯,是有那个feel了~
多个人、多语言,统统都能hold住
正如我们刚才提到的,Seedance 1.5 Pro现在可以支持多个人、多个方言“一锅出”,现在你需要做的就是告诉她“谁,说了什么”。
例如下面的Prompt:

视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从上述多个深度实测来看,Seedance 1.5 Pro确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。
总体体验下来,方便、快,或许就是最直接的感受了,只要不是过于复杂的场景,基本都是“一条过”。
不过目前Seedance 1.5 Pro还不支持参考图生成的方式,不然在操作上会更加灵活。
但除此之外,火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft样片。
这个功能要解决的还是AI视频生成中的一个老大难的问题:抽卡。
简单来说,就是在真正出成片之前,你可以先生成一个低分辨率的草稿版视频,用来快速试效果、调方向;同时还能把画面里的关键元素先锁住,确保和最终成片在内容上高度一致。
这样每一次修改,反馈都更明确,也更可控,基本能做到“你看到的,就是最后会得到的”。
按照官方给出的数据,Draft样片能把整体创作效率提升约65%,同时减少60%无效创作成本。
技术底牌也公开了
在AI视频生成领域,过去我们常说声画两张皮,也就是视频归视频,音频归音频,后期强行缝合。
但Seedance 1.5 pro之所以能做到一镜入戏,核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。
从技术角度来看,主要包含四个方面的工作创新。

Seedance 1.5 pro 训推框架图
首先是原生音视频联合生成架构。
不同于传统的串联式架构(先视频后音频),Seedance 1.5 pro 采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架。
它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信。
这意味着,当模型生成角色说话的口型时,它同时就在计算对应的音频波形。这种“双向奔赴”的架构,从底层消灭了音画不同步的违和感。
其次是高质量音视频数据框架。
火山方舟团队设计了一个极其复杂的多阶段数据Pipeline。他们不仅筛选了数以亿计的高清视频,还特别注重音视频的一致性配比。
通过自动化标注系统,为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别“一个男人在说话”,还能精确标注出“四川话、憨厚音色、带有环境回声”等极具细节的特征,为模型打下了深厚的数据底子。
还有一套精细化的后训练优化流程。
为了让生成的视频更有灵性,团队在预训练之外,引入了针对音视频场景定制的RLHF(人类反馈强化学习) 算法。通过建立多维度的奖励模型(Reward Model),从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。
一言蔽之,就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。
最后就是高效推理加速技术。
视频生成一向是巨烧算力的任务,但Seedance 1.5 pro在落地体验上玩了一把大的。
通过多阶段蒸馏技术和高效推理加速框架,团队成功将推理速度提升了 10倍以上。
这意味着专业创作者在即梦或豆包上点击生成,不再需要漫长的进度条折磨,真正实现了所见即所得。
从实验和评测结果上来看,也是印证了上述四项技术创新的正确性。

在针对视频与音频能力的综合评测中,Seedance 1.5 pro 在审美(Aesthetics)、运动质量(Motion)以及音画对齐(Alignment) 等核心指标上均处于行业领先地位。
特别是在挑战性极高的多语言对白和方言口型匹配任务中,其表现显著优于目前的开源及闭源主流模型。

AI视频生成,到了真可以上岗时刻
除了Seedance 1.5 pro之外,国内外大模型玩家近期也是密集交卷,视频生成赛道早已进入周更模式。
但观察这些密集发布的新作,不难发现一个共同趋势:它们不再追求单纯的像素级高清,而是在向“够好用”和“够逼真”这两个实用维度急速进化。
豆包视频生成模型Seedance 1.5 pro正是这一趋势的集大成者。
它不仅解决了演技问题(更细腻的表情和动作),更通过原生的音画同步,解决了台词和情绪的融合问题。
这种从单一模态向全模态创作的跨越,让AI视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。






