图片只是单帧的视频 -6park.com

[返回中华精品首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

图片只是单帧的视频

送交者: 狂心中[♂☆★★★★如狂★★★★☆♂] 于 2024-02-21 9:37 已读 708 次 3赞

狂心中的个人频道

+关注

@阑夕：花了好多时间，把解释 Sora 运作原理的那几篇论文和第三方分析一点点的啃完，结果发现真就不如 OpenAI 自己在官方博客里写的一句话：

「图片只是单帧的视频。」

用最简单的词句把最复杂的技术讲清楚，很久没有见到科技行业有着如此从容的公共表达了，于我而言也是醍醐灌顶。

我之所以这几天疯狂补课，是因为想要找到自己之前提问的答案：OpenAI 是怎么实现断层式领先的？

领先不意外，意外的是断层之大，完全超出了均值分布的常识，不可能天下英雄都在 OpenAI 那儿吧，补完那些材料才发现，就跟 GPT 主要建立在 Transformer 的暴力美学之上一样，OpenAI 现在就认准了一个力大砖飞，既然 Transformer 好用，那就他妈的用到底，到了和文本毫无关系的扩散模型领域也继续套圈，最后采用了一个和 Runway 和 Pika 完全不同的 Diffusion Transformer 方案。

可能只有长期使用过 Runway 或者 Pika 的人才会对 Sora 的横空出世感到彻底震惊，这完全脱离了渐进式积累的规律，人家还在 3 秒 3 秒的往上加，你出来就是 60 秒连续性的能力，这要怎么玩嘛？

Sora 的这些演示出来之前，AI 生成视频经常被嘲讽「那不叫视频，充其量只能算动图」，也真的没办法反驳，因为事实就是如此，甚至运动笔刷稍微圈大一点，画面变形就必然产生了，绝大多数的展示作品都是靠烟雾、光影这种没有固定形体的动效取巧，实现镜头的运动感。

哪怕是需要大量训练的开源的 SVD—— 效果相对最好 —— 前几天本来也更新了 1.1 版本，结果正好跟 Sora 撞车，然后 SVD 官推直接把推文给删了，删了⋯⋯

就说这要别人怎么玩啦？

回到「图片只是单帧的视频」这个点，本来主流的方案都是基于一张图片去让 AI 发挥想象空间，继而延伸 / 填补出多个图片，叠加在一起才成了视频，大家的竞争方向都是谁的 AI 视觉能力更有效率，可以理解并创造用户要的内容。

但在 Sora 眼里，其实是没有 —— 或者说极大弱化了 —— 图片概念的，Transformer 本身就是文本模型，强在前后文的理解和保持连续性，没有多少人意识到文本模型还能用在视频上，但 OpenAI 发现完全可以利用 Transformer 的编码能力，配合扩散模型去为视频「配锚」。

顺便说一句，Sora 基于的论文，又有好几篇都是来自谷歌的贡献，甚至根据 @宝玉 xp 的考证，是谷歌的论文发表之后，Sora 这个项目才启动的⋯⋯

「Attention Is All You Need」的历史重演了啊这是 [允悲]

继续来说吧，「图片只是单帧的视频」这个思路的缺点是什么，是画面精度不太够，就像和 Midjourney 比起来，DALLE-3 的图片都显得很「土」。

问题在于，AI 视频现在根本还没有到追求美观性和艺术性的地步，所有公司都挤在 AI 根本不懂图片里各个元素运动逻辑的瓶颈里出不来，就好比说，在饥荒年代推销减肥药，是毫无意义的，不是肥胖不值得重视，而是市场需求不在这里。

Sora 的视频目前来看走的也是还原路线，尽可能的复现指令，但不会过多关照审美，而是对视频内容所处的时空关系做出准确判断，确保 AI 知道自己在构建什么。

所以已经有很多内测用户发现了，Sora 在时间轴上的延伸性非常出色，就像我转来的这个演示（图 2），你可以生成开头不同但结尾完全一致的视频片段，这就是「图片只是单帧的视频」的绝妙之处，图片的创建绝不会脱离于时间轴而存在，Sora 实际上是提前给视频写了脚本的，这个脚本甚至也和用户的 Prompt 无关，是由 AI 自己的构图思维决定的。

四两拨千斤，太高明了。

补课的过程里，我也看到一个做大模型的老哥提前预测到了 Sora 这条技术路线的合理性，他在 1 月就发了这一条推文：

I think the transformer framework and LLM route will be a breakthrough and new paradigm for AI videos to be more coherent, consistent, and a little bit longer. The current diffusion + Unet route (the likes of Runway, Pika etc) is only a temporary solution.
* 我认为 Transformer 框架和 LLM 路线将是 AI 视频更加连贯、一致、更长一点的突破和新范式。目前的扩散 + Unet 路线（如 Runway、Pika 等）只是一个临时解决方案。

怎么说呢，虽然在夸赞 OpenAI 的时候，觉得大力出奇迹的价值很高，但是看到 Runway 和 Pika 们在闭塞的路线里使劲浑身解数，总还是隐约感觉到，如果方向错了，越是辛苦反而越是损失⋯⋯

当然也希望 Diffusion Model 能够实现突破打脸回来吧，OpenAI 太顺了不是什么好事啊，多上点压力，求求了，这 AGI 还没有到来的破日子，是一天都过不下去了！

喜欢狂心中朋友的这个贴子的话，