[返回中华精品首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

图片只是单帧的视频

送交者: 狂心中[♂☆★★★★如狂★★★★☆♂] 于 2024-02-21 9:37 已读 708 次 3赞  

狂心中的个人频道

+关注


@阑夕:花了好多时间,把解释 Sora 运作原理的那几篇论文和第三方分析一点点的啃完,结果发现真就不如 OpenAI 自己在官方博客里写的一句话:


「图片只是单帧的视频。」


用最简单的词句把最复杂的技术讲清楚,很久没有见到科技行业有着如此从容的公共表达了,于我而言也是醍醐灌顶。


我之所以这几天疯狂补课,是因为想要找到自己之前提问的答案:OpenAI 是怎么实现断层式领先的?


领先不意外,意外的是断层之大,完全超出了均值分布的常识,不可能天下英雄都在 OpenAI 那儿吧,补完那些材料才发现,就跟 GPT 主要建立在 Transformer 的暴力美学之上一样,OpenAI 现在就认准了一个力大砖飞,既然 Transformer 好用,那就他妈的用到底,到了和文本毫无关系的扩散模型领域也继续套圈,最后采用了一个和 Runway 和 Pika 完全不同的 Diffusion Transformer 方案。


可能只有长期使用过 Runway 或者 Pika 的人才会对 Sora 的横空出世感到彻底震惊,这完全脱离了渐进式积累的规律,人家还在 3 秒 3 秒的往上加,你出来就是 60 秒连续性的能力,这要怎么玩嘛?


Sora 的这些演示出来之前,AI 生成视频经常被嘲讽「那不叫视频,充其量只能算动图」,也真的没办法反驳,因为事实就是如此,甚至运动笔刷稍微圈大一点,画面变形就必然产生了,绝大多数的展示作品都是靠烟雾、光影这种没有固定形体的动效取巧,实现镜头的运动感。


哪怕是需要大量训练的开源的 SVD—— 效果相对最好 —— 前几天本来也更新了 1.1 版本,结果正好跟 Sora 撞车,然后 SVD 官推直接把推文给删了,删了⋯⋯


就说这要别人怎么玩啦?


回到「图片只是单帧的视频」这个点,本来主流的方案都是基于一张图片去让 AI 发挥想象空间,继而延伸 / 填补出多个图片,叠加在一起才成了视频,大家的竞争方向都是谁的 AI 视觉能力更有效率,可以理解并创造用户要的内容。


但在 Sora 眼里,其实是没有 —— 或者说极大弱化了 —— 图片概念的,Transformer 本身就是文本模型,强在前后文的理解和保持连续性,没有多少人意识到文本模型还能用在视频上,但 OpenAI 发现完全可以利用 Transformer 的编码能力,配合扩散模型去为视频「配锚」。


顺便说一句,Sora 基于的论文,又有好几篇都是来自谷歌的贡献,甚至根据 @宝玉 xp 的考证,是谷歌的论文发表之后,Sora 这个项目才启动的⋯⋯


「Attention Is All You Need」的历史重演了啊这是 [允悲]


继续来说吧,「图片只是单帧的视频」这个思路的缺点是什么,是画面精度不太够,就像和 Midjourney 比起来,DALLE-3 的图片都显得很「土」。


问题在于,AI 视频现在根本还没有到追求美观性和艺术性的地步,所有公司都挤在 AI 根本不懂图片里各个元素运动逻辑的瓶颈里出不来,就好比说,在饥荒年代推销减肥药,是毫无意义的,不是肥胖不值得重视,而是市场需求不在这里。


Sora 的视频目前来看走的也是还原路线,尽可能的复现指令,但不会过多关照审美,而是对视频内容所处的时空关系做出准确判断,确保 AI 知道自己在构建什么。


所以已经有很多内测用户发现了,Sora 在时间轴上的延伸性非常出色,就像我转来的这个演示(图 2),你可以生成开头不同但结尾完全一致的视频片段,这就是「图片只是单帧的视频」的绝妙之处,图片的创建绝不会脱离于时间轴而存在,Sora 实际上是提前给视频写了脚本的,这个脚本甚至也和用户的 Prompt 无关,是由 AI 自己的构图思维决定的。


四两拨千斤,太高明了。


补课的过程里,我也看到一个做大模型的老哥提前预测到了 Sora 这条技术路线的合理性,他在 1 月就发了这一条推文:


I think the transformer framework and LLM route will be a breakthrough and new paradigm for AI videos to be more coherent, consistent, and a little bit longer. The current diffusion + Unet route (the likes of Runway, Pika etc) is only a temporary solution.
* 我认为 Transformer 框架和 LLM 路线将是 AI 视频更加连贯、一致、更长一点的突破和新范式。目前的扩散 + Unet 路线(如 Runway、Pika 等)只是一个临时解决方案。


怎么说呢,虽然在夸赞 OpenAI 的时候,觉得大力出奇迹的价值很高,但是看到 Runway 和 Pika 们在闭塞的路线里使劲浑身解数,总还是隐约感觉到,如果方向错了,越是辛苦反而越是损失⋯⋯


当然也希望 Diffusion Model 能够实现突破打脸回来吧,OpenAI 太顺了不是什么好事啊,多上点压力,求求了,这 AGI 还没有到来的破日子,是一天都过不下去了!

喜欢狂心中朋友的这个贴子的话, 请点这里投票,“赞”助支持!

内容来自网友分享,若违规或者侵犯您的权益,请联系我们

所有跟帖:   ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名: 密码: [--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主前期社区热帖:

>>>>查看更多楼主社区动态...



[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 创建您的定制新论坛频道 ] [ Contact us ]