[返回和气生财首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

中文版Sora,难倒互联网大厂

送交者: 桂花酒[♂★★★和气生财★★★♂] 于 2024-02-25 11:16 已读 1853 次 1赞  

桂花酒的个人频道

+关注
中文版Sora,难倒互联网大厂 

2024-02-24 18:18 发布于:北京市


图片来源@视觉中国


文|智能Pro


文|智能Pro


科技圈当下最火话题,非Sora莫属。Sora的影响力也早已冲出硅谷、辐射全球,在大洋彼岸的中国掀起滔天巨浪。


在二级市场,Sora概念股连日走高,势头比起当初的ChatGPT概念股有过之而无不及,比如2月20日,A股、港股Sora概念股板块就有超过60只个股飘红,其中5家企业股价暴涨40%以上。


在科技互联网圈,争夺中文版Sora首发权,成为巨头的新目标。不过和当初的中文版ChatGPT首发争夺战相比,中文版Sora的研发难度也更大,大厂们大多面露难色。此前被盛传将推出首个中文版Sora的字节跳动,就在20日辟谣,称相关产品的效果距离Sora还有很大差距。


在Sora横空出世前,国内“千模大战”早已陷入胶着状态,未曾想,风口突变,从图文生成转向视频生成,“千模大战”也将进入全新阶段。


在上一阶段稍稍落后的字节跳动在视频业务上有先天优势,自然不会错过这个弯道超车的机会,这不仅事关大厂的面子,更是为了捍卫其核心业务——抖音CEO张楠突然辞职专攻剪映,也被视作是字节重视AIGC的动作。


虽然没有中文版Sora,但字节一直在死磕AI


在文本生成式大模型领域,字节的起步时间无疑是比百度、阿里巴巴等大厂要晚,这也让字节的高层十分懊恼。CEO梁汝波就在内部讲话中直言,很难相信技术团队直到2023年才讨论GPT,要知道业内做得比较好的大模型企业都是在2018-2021年起步的。


好在,知耻而后勇,还有亡羊补牢的机会。


一开始,字节希望以量取胜,在去年下半年扎堆上线了十多款AI产品。

这当中,既有大厂标配的基础大模型“云雀”,也有在C端最流行的AI对话类应用,如“豆包”、“话炉”和“抖音小晴”,还有辅助创作的AI工具,如剧情创作平台“BagelBell”、电商内容创作应用“即创”等。由字节技术副总裁洪定坤率领的新部门Flow,则在背后为这一系列AI产品保驾护航。



(图片来自豆包官网)


据悉,字节还在内部开放了大量活水岗位,希望调集全公司最优秀的技术、产品人才集中精力搞AI。除了前面提到的洪定坤外,原飞书产品副总裁齐俊元、抖音社交负责人陆游、字节跳动产品与战略副总裁朱骏等高管也先后驰援。甚至在国外,字节跳动也组织了50多人的研发团队,负责推进“Cici”项目。


然而,字节在文本生成大模型这条赛道确实是落后了,即便后期不断加大投入,恐怕也很难抹平差距。明白这个道理后,再结合自身的业务状况,字节开始发力图像、视频生成领域,试图确立差异化优势。而在春节前后,内部的一系列人事变动、团队重组,则是其为视频生成大模型奋力一搏的最佳证明。


2月9日,张楠宣布辞去抖音集团CEO一职,原因是要把精力集中到剪映的发展上。众所周知,张楠是字节内部最有权势的高管之一,很多人将其视为仅次于集团CEO梁汝波的二把手。其掌管的抖音集团,则是字节最重要的业务,此次自降身份掌管剪映,在内部、外界都引发了不少争议。


如今再看,作为一款视频剪辑及辅助创作工具,剪映是字节业务版图里和视频生成大模型契合度最高的一环,是承载AI视频创作业务的最佳抓手。像张楠这种级别的核心高管主动接管剪映,恰好说明字节对该项目的重视。


有消息指出,张楠去年已经把大部分精力花在剪映身上,抖音的各项业务分别交给韩尚佑(抖音集团新任CEO)、魏雯雯(抖音电商总裁)、蒲燕子(抖音本地生活负责人)等高管接手。


去年11月,剪映就悄悄内测了一项名为“Dreamina”的AI辅助工具,用户只需要输入文字,即可生成创意图像。算上研发周期,该项目的立项至少在去年二季度前。如果上述消息属实,张楠带领的团队应该在更早的时候就接手了字节的AI产品研发工作。


张楠正式官宣辞任集团CEO之后,也有消息称其带领的团队将推出一个全新的AI视频生成软件。如今,这款备受期待的产品——“Boximator”,终于浮出水面,这也是字节冲击中文版Sora的王牌。


Sora搅动一池春水,大模型改造短视频行业


据悉,字节内部对“Boximator”的定位为创新性视频生成大模型,将通过控制对象运动的方式,精确控制视频人物、物体的运动。该模型采集的训练数据来自webVid-10M数据集,并在PixelDance和ModelScope两个视频生成模型中进行训练。


然而,正如字节日前的回应那般,视频生成大模型的研发难度比想象中更大。根据字节方面的说法,“Boximator” 保真率、画面质量、视频时长等方面距离Sora还有很大差距,暂时不具备落地的条件,预计还要2-3个月才能开放测试。


但2-3个月,可以发生很多事情——Sora可能已经迭代到更先进的版本,和尚未落地的竞品拉开更大差距;其他竞争对手也可能迎头赶上,抢在字节之前推出同类产品。


对于这些可能性,字节跳动心里肯定有数,而且比谁都着急。原因很简单:比起文本生成大模型,视频生成大模型和字节跳动的短视频、直播等核心业务关联更紧密,影响也更大。


如果说搜索是第一个被ChatGPT颠覆的行业,那么长/短视频肯定是最有可能被Sora颠覆的行业。正如当初谷歌、百度、360等巨头倾力投入文本生成大模型研发那样,字节在视频生成大模型这一战中也不容有失。因为随着视频生成大模型在日后逐渐普及,短视频内容生产、营销、变现等一系列逻辑都可能发生变化。


以内容生产为例,制作方对真人演员、编剧、剪辑人员的需求很有可能会减少,传统的制作流程也会被大幅简化、制作时长将被压缩。这带来的直接后果,不止是生产内容数量呈几何级增长、成本明显减少,也必将导致更残酷的竞争,加速优胜劣汰。


在Sora走红之后,有关剪映会不会被取代的问题已经迅速成为焦点话题。留给剪映的路只要一条,那就是主动拥抱AI,向Sora看齐。要是能成功抱上AI这条大腿,剪映的用户体量可以再上一个台阶,商业化潜力也将大大提升。


举个最简单的例子,现在的剪映只提供基础服务,收费模式很难推广。但如果能像Sora那样,提高内容创作者的效率、降低成本,收费也就更有底气。Stability AI、Runway等独角兽的估值大幅飙升,就证明了这条路线的可行性。


当然,因Sora而焦虑的大厂绝不止字节跳动一家。短视频行业的另一个巨头快手,还有爱奇艺、腾讯视频、优酷、哔哩哔哩为首的流媒体平台,也必须啃下视频生成大模型这块硬骨头。


可能是Sora的冲击太大,还需要时间消化,也可能是吸取之前的教训,先埋头干实事不着急到台前造势,上述大厂大多尚未表态是否及何时推出类Sora应用。截止发稿时,只有芒果超媒表态将探索文生视频等AI技术在传媒领域的落地。但明眼人都看得出,这些大厂没有一个会缺席这场全新的“千模大战”。


有危机感,就会有动力。大厂们集体冲刺,到底谁能率先撞线?


冲刺中文版Sora,哪家中国大厂先撞线?


要猜测谁能率先研发出中文版Sora,或者说类Sora视频生成大模型,得先看一下这类产品的研发难点。


从openAI公布的报告来看,Sora并没有应用什么全新研发成果,核心技术都是早已公开的。这当中,视频压缩网络、扩散模型、视觉补丁(类似于本文生成大模型的文本标记)、图像及视频编辑是最关键的几个环节。本质上讲,Sora仍是一个基于Transformer架构的扩散模型,和ChatGPT有很多相似之处。


当中的技术原理和繁琐的训练流程,这里不再一一展开。可以确定的是,大厂们都具备开发中文版Sora的基础,起跑线不会有太大差距。除了考验财力之外,和之前的中文版ChatGPT之争一样,数据样本、算力、测试条件,将很大程度上左右最终赛果。


这当中,数据样本关系着大模型的效果,训练数据越丰富、越完整,视频大模型就能越接近物理世界的真实情况。算力则是训练效率的决定性因素,是跑赢竞争对手的关键。测试环节更多是决定了产品落地效果,以及稳定性。


硅谷巨头的选择出奇一致,都在拼算力。openAI CEO阿尔特曼表示,计划筹集8万亿美元投资AI芯片,彻底解决AI大模型训练的算力问题。微软、Meta、谷歌等大厂在疯狂囤积英伟达H100的同时,还在抓紧时间自研芯片。这些原本为文本生成大模型准备的杀招,现在能完美应用到视频大模型身上。


国信证券在最新一份研报中指出,相较于ChatGPT等文本生成类大模型,Sora训练数据量明显高出一个级别,对算力的要求自然也更苛刻了。根据该研报援引的数据,以全球最大视频分享网站YouTube为数据源,一年的增量视频大约为157.68亿秒,即便是采用英伟达最先进的H100,单次训练也需要一个月,GPU消耗量为156.98万张。


众所周知,H100长期处于供不应求状态。加上不可抗力影响,国内的大厂们在算力这一块大概率会落后于硅谷巨头,唯有在其他环节努力缩短差距。相较之下,字节在训练数据源这一块就比其他大厂更有优势。


要知道,Sora对比其早前的PixelDance、Stable Video Diffusion等未成形视频大模型有显著提升,数据量是很关键的一点。抖音和TikTok是国内和海外市场用户、创作者规模最大的短视频应用,拥有最多的短视频内容,可用于训练大模型。更不用说,字节旗下还有今日头条、西瓜视频等内容库,完全不愁数据源。不过其他大厂也不会落后太多,而且肯定会想方设法抹平差距。


这几天的观察下来,和当初同样出道即红遍全球的ChatGPT不同,业界人士对Sora的态度除了赞叹、敬佩,还带着更深的恐惧。这不仅是因为Sora的视觉冲击力比ChatGPT更强,还因为前者对相应产业的改变路径是相当清晰的——这也决定了大厂会倾注更多的资源,务求尽快打赢这场硬仗。


总而言之,“千模大战”已经进入新的阶段。假以时日,我们肯定能看到很多中文版Sora。只不过对大厂来说,既然不可能成为“唯一”,就只有争下“第一”才有意义。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
喜欢桂花酒朋友的这个贴子的话, 请点这里投票,“赞”助支持!

内容来自网友分享,若违规或者侵犯您的权益,请联系我们

所有跟帖:   ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名: 密码: [--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主前期社区热帖:

>>>>查看更多楼主社区动态...



[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 创建您的定制新论坛频道 ] [ Contact us ]