字节newsroom（字节系软件）情书电影，

2024-12-16 15:01

过去 3 个月中国厂商在 AI 视频赛道已经杀疯了。从快手可灵到 Minimax 海螺 AI、生数科技 Vidu、智谱清影，每个 AI 视频产品的发布都在全球范围内获得广泛认可。并且由于 Sora 的啄木鸟电影超长期货行为，在看到中国 AI 视频生成模型的效果之后，外国人直呼 "We dont need Sora anymore."，并在过去几个月一直想方设法拿中国手机号注册体验国内的 AI 产品。雷峰网

但啄木鸟电影更多的网友则是期待字节的视频生成模型，因为早在去年 11 月，字节的项目 Make Pixels Dance 就展示字节具备了解决长 AI 视频中角色一致性难以保持的问题。所以我也看到很多外网网友的另啄木鸟电影一个问题 "Where is ByteDacne?"。

而就在 9.24 火山引擎 AI 创新巡展深圳站上，火山引擎一口气发布了个视频生成模型 PixelDance 和 Seaweed 模型。兄弟们感受啄木鸟电影下这个丝滑的运镜和转场，10 秒钟时间从跟随一个女人走进人群，然后女人转身镜头跟着右旋然后改变焦距变到另一个场景。这种效果相较于现在的 AI 只能说是断层式的领先。

外网看了视频的人，直接确认了，很可怕啄木鸟电影，但我没有中国手机号。（PS：是不是可以考虑模仿一下那些搞 Gpt 的人，反向输出一波？）当然这次咱们也很幸运拿到了测试资格，测试前我先总结了所有 AI 视频产品都会有的问题：

其他 AI 视频生成效果啄木鸟电影展示

1、语义理解差。不管提示词写的多认真，产品会抽风乱生成，这问题体现在人物动作、画面风格、运镜、天气、各种补充细节上。而且一些国外产品由于语种的问题，就算我们用翻译软件也很难达到原生语种的水平。比啄木鸟电影如上面这个想让镜头上抬，人物抬头看向天空，AI 直接给来一手人头气球。提示词写的像情书一样深情，寄给 AI 之后换来的却是一坨大的。

2、一致性差，用 AI 进行影视创作的小伙伴都会面临这个问题，一个啄木鸟电影6 秒的视频如果涉及到镜头切换或者高速运动，那么画面内容必定变形甚至出现国足行为，要把球踢出去镜头一转球像磁铁一样吸到脚上要进自家球门。

所以这次豆包 · 视频生成模型的测试我会重点关照这些问题，能按照啄木鸟电影需求生成视频是 AI 视频能服务专业影视创作者的基础条件。同时拉上可灵、Minimax、老玩家 Runway 以及 LUMA，看看是先发者保持优势还是后来者登基为王。

空间理解测试

提示词：胶片质感，下雨啄木鸟电影天，四周堆满垃圾的小巷里，镜头拍摄一只橘猫转身走向巷子深处，雨水倒映它的身体。

英文提示词：Film texture, on a rainy day, the camera shot an orange啄木鸟电影 cat turned to go deep into the alley, the rain reflected its body.

上面提示词虽短。但测试点却有 4 个：1、画面是胶片风格；2、场景啄木鸟电影是堆满垃圾的小巷。3、橘猫转身走向巷子需要 AI 反推出猫一开始是面对镜头的然后转身走；4、雨水要能倒映猫和场景。

首先是豆包 · 视频生成模型的作品。我只能说完成度太高了，我只生成了一遍，就觉得 OK啄木鸟电影了。有种当年 Sora 刚出现的震撼感。猫在水里的倒影、脚步踩过水面泛起的涟漪 .... 甚至走到尽头垃圾堆有起伏，猫脚落地点都抬高了，说明 AI 在生成的时候甚至注意到了地形！！！

对比一下这是用可啄木鸟电影灵 1.5 高画质模式生成的，可灵的动态天气也很厉害，但问题就出在这个胶片质感用力过猛，猫都变成饱和度战士了。而且猫在加速跑时尾巴出现一下变长一下变短的情况。

再看一下 Minimax 的海螺 AI，我啄木鸟电影觉得海螺的画面观感比可灵好很多，胶片质感也到位。但是很可惜，没有理解到猫转身这个动作。

接下来看下国际服选手 LUMA 和 Runway 的表现。

LUMA 怎么说呢，这种画面放到网上，大家可能会说很惊艳啄木鸟电影。但如果用来影视创作那绝对是不合格的。场景没按要求生成、猫也没转身走到巷子深处，猫脸甚至还是糊的 ....... 只能说，拉得很彻底 ......

Runway 也拉了，这雨下得怕是胶水，猫脚完全动不了啄木鸟电影，甚至猫还学会了中国的川剧变脸！

在这次空间理解测试中，豆包 · 视频生成模型是毋庸置疑的第一。不管是隐藏测试点猫面向镜头然后转身，还是水面的物理反射、按照提示词对场景的搭建能力都属于断层式第一。可灵猫啄木鸟电影尾巴变形了，但其他要求也是完美执行能排第二。第三名是 Minimax，场景还原到位，但猫这个演员不怎么配合演出，生成了 3 次都不配合。至于 LUMA 和 Runway，不知道是不是训练了什么诡异素材啄木鸟电影，猫的脸都很抽象。

特效电影测试

提示词：深夜的巷子漂浮着浓烟，地面污水横流，许多老鼠走来走去，镜头逐渐推进到一个雪人戴着礼帽坐在垃圾桶上仰头喝啤酒，随后扔掉啤酒瓶。镜头特写啤酒瓶在地面上滚动，老鼠向四周啄木鸟电影逃窜。

英文提示词：There is thick smoke floating in the alley late at night, sewage flowing across the ground,啄木鸟电影 and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting 啄木鸟电影on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles啄木鸟电影 rolling on the ground and mice scurrying around.

测试点：复杂的场景，两次镜头变化高度考验场景一致性，现实和 3D 动画的画风融合（这种一般在影视中要做啄木鸟电影特效，很烧钱。）

这次我不打算先放豆包了，太欺负人，咱先看看其他几家表现。

首先是可灵，这里我用的是 1.5 的模型，花钱了就是不一样，画质肉眼可见的高清。先说完成项：场景完成度到位，浓雾、水、老鼠、镜头啄木鸟电影推进。加分项：画质不错。扣分项：人物没有坐在垃圾桶上，没有仰头喝酒、扔酒瓶的操作，镜头没特写扔酒瓶。

接下来是海螺 AI，海螺这个镜头我挺喜欢的，先从老鼠和浓雾开始有大片的感觉。结果他镜头是后移不是推进啄木鸟电影。这雪人估计造他的女娲不算用心。而且也没有仰头喝酒，虽然扔了酒瓶但没有执行酒瓶在地面滚动吓跑老鼠的镜头特写。

好了看完国内组，再看看国际组的表现，Runway 表现还是持续拉胯，感觉文生视频这块算是没救啄木鸟电影了。老鼠没老鼠，水也没有水，要求让雪人穿衣服也只戴了个帽子，更重要的是镜头完全没动 .......

LUMA 这波的表现画面中只有镜头和烟雾在动，老鼠和雪人感觉只是手办摆件。在影视创作中又是一条废片。

最啄木鸟电影后是豆包 · 视频生成模型，这画面第一眼观感就是通透而且所有要求都做到了，浓雾、老鼠、雪人的动作和服装甚至是镜头推进的要求也完成了。最重要的是，兄弟真来了个镜头特写切换到酒瓶丢到地面上。这个片段我真的啄木鸟电影反复看了很多遍，就是雪人随手一扔然后画面丝滑切换到酒瓶落地。酒瓶跟手里那个一模一样，地面场景跟开头场景一模一样，丢到地上还高清化了。而且地上那些雪我估计是雪人老哥留下的，颗粒分明！！

好了这一场评分我只啄木鸟电影能说 ..... 豆包 · 视频生成模型再次断层式第一，我现在是真没心思写文章。以前被其他 AI 封印的灵感都爆发了，只想赶紧写完文章然后再去搞一波。当然本场排名依然是中国队领先。继可灵炸场之后，字节啄木鸟电影干了件更大的事——掀桌！！！

上面雪人喝啤酒动画意味着豆包 · 视频生成模型在动画教育也能大展拳脚。于是我又生成了一个毛毡动画风格的短片。提示词：夜晚森林中的篝火派对，穿着超人服装的小猪在打碟，其他小动啄木鸟电影物跟着节奏一起摇摆。

我发现画面中总共 14 只动物，居然都是同一时间做动作，他们是真的有自己的节奏！！！也就是关于 AI 视频进行多角色动作控制的难题，已经被豆包 · 视频生成模型完美解决

我也在官方的啄木鸟电影 demo 中看到了这种多只绵羊一起跑的画面，也就是说如果有小伙伴要做古装战争片，以后生成什么千军万马过大江的画面，豆包 · 视频生成模型也完全能胜任！

而刚刚扔酒瓶后切换镜头后的一致性，我相信所有影视啄木鸟电影爱好者都会疯狂。因为像这种从身上掏钥匙开车的连续画面以往 AI 想都不用想，最多就是分成几个视频生成。而现在，豆包表示不好意思，一镜到底！

对决 Sora

说了这么多，还是要跟 Sora 对线一波。小编在啄木鸟电影之前就有聊过 Sora 为啥迟迟不上线的原因。这里简单总结下问题，然后进行测试，看看豆包 · 视频生成模型能否解决 Sora 暴露出来的问题。

这个气球男孩的短片大家肯定都很熟悉，是影视团队 shyki啄木鸟电影ds 借助 Sora 耗时 2 周制作的。但团队后来爆料视频最终成品跟原定的剧本完全不符合。问题可以总结为：角色一致性差、语义理解差。核心原因是因为 Sora 只支持文生视频。

比如在广场奔跑这个镜头，啄木鸟电影文字要求的是，黄色气球人穿着正装从广场左边跑向右边，生成的却是，头顶纸袋的人追红色气球。或者一个通灵的衣服拉着气球裸奔。跟要求的运动方向和画面内容完全不符。

再比如人脸和玩滑板画面，AI 会在气球上印人啄木鸟电影脸，甚至直接让人顶着气球玩。而且 AI 对很多东西都有刻板印象，比如气球一定要被线拉着导致他们后期要用 AE 处理。

并且生成素材很花时间，3~20 秒的画面通常要 10 到 20 分钟来生成，团队至少啄木鸟电影生成了 300 多个片段，花上 50 多小时，再用 Topaz 工具提升画面分辨率。最终得到的素材总时长约 1.2 小时，却只能做出 80 秒的短片。另一个问题就是 Sora 很喜欢生成慢动作视频，很啄木鸟电影多视频看起来都是 0.5 倍速播放。

而 Sora 表现出来的问题，像广场中气球人不理解空间位置乱跑。豆包 · 视频生成模型已经解决，像这只小猫咪，叫他转身走，人家就转身走。

角色特征的问题，人家甚至能在啄木鸟电影 10 秒时间内 360 度无死角展示主角外观，同时还完成了场景的切换和镜头的变焦。这能力在目前我看到的 Sora 生成的影片中还没见过！

总结

其实字节这次表现可以说是在我意料之中。因为从 Sora 还啄木鸟电影没发布之前，字节就一直加码 AI 视频技术领域的研究。文章开头我也讲了 5 月份的时候，字节的视频生成模型研究就已经征服了外网网友。

至于现在各大平台最近才上线的运动画笔功能，其实字节 2 月份的时候就啄木鸟电影已经研究出来了，项目名为 Boximator。通过框选目标 AI 会智能识别不同主题，甚至让狗和球产生逼真互动。

再往回追溯你会发现，去年 11 月份，人家的 "Make Pixels Dance" 项啄木鸟电影目就已经能生成 3 分钟时长的北极熊冒险视频。所以字节这一波登场看似惊艳实则合理。反观 Sora 的现状我也不好评价，给我最大的感觉就是一把火点燃了 AI 视频，然后由于产品没开发完整把自己憋死了 .啄木鸟电影.....

最后说一下，豆包 · 视频生成模型也是 DiT 架构，跟 Sora 是同类型的技术。其实说开了就是扩散模型和 Transformer 相结合，在 2023 年的计算机视觉会议上因 " 缺少创啄木鸟电影新性 " 而遭到拒绝。因为刚出来的时候很多人不看好用这个架构做视频生成模型，入门门槛太高了。

为什么说 DiT 架构入门门槛高？因为首先需要厂商有自己的语言大模型，然后借助大模型的能力来辅助指导扩散模型啄木鸟电影生成视频。讲人话就是，你在用豆包 · 视频生成模型，其实豆包语言大模型也参与了工作，它是一个翻译官的角色负责把你的内容优化成视频生成模型更容易理解的话。这样子生成的画面才更符合用户提示词的要求。

这也是啄木鸟电影为什么后来国内的几个 AI 视频厂商在语义理解方面压着国外打，甚至于 Runway gen3 直接放弃文生视频只做图生视频了，因为他们没怎么做大模型相关研发。

当然，像豆包 · 视频生成模型这么离谱的能啄木鸟电影力，其深层次原因还是在于团队研发新的扩散模型训练方法，保证一致性多镜头生成的稳定性，同时深度优化 Transformer 结构提升视频生成的泛化能力。简单说就是所有的技术都是定制化的。才有了现在 10啄木鸟电影秒讲一个完整故事，分镜多、可控主题多、一致性还稳定的超能力。

字节的这波爆发并不意味彻底压垮 Sora，因为 OpenAI 的大模型底子还在，Dall · E 的底子也还在，不过要是 OpenAI 的啄木鸟电影产品继续难产，那 Sora 要稳坐 AI 视频这个王位恐怕不行。

查看原文