国产AI训练，为什么要用外国视频？ -6park.com

[返回爱ＧＰＴ首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

国产AI训练，为什么要用外国视频？

送交者: yejushi[★★★★强图奋发★★★★] 于 2024-05-14 19:48 已读 1304 次

yejushi的个人频道

+关注

国产AI训练，为什么要用外国视频？

来源：酷玩实验室

生成式AI的这股浪潮翻涌到现在，已经一年多了。

如果要论在这股浪潮中，哪一类模型是AI领域“王冠上的宝石”，那一定是文生视频模型莫属。

从技术层面来说，Sora、Vidu这列视频大模型，最核心的价值，在于它们实现了跨媒介的信息合成与创造，从而形成了文本、图像、与视频等不同模态的“大一统”。

而这样的“大一统”，或许正是人类通向AGI的关键。

在这个“大一统”的框架下，数据不再被单一模态所限，而是作为多维度信息的综合体被理解和运用。

正如图灵奖得主，AI三巨头之一的Yann LeCun所提出的“世界模型”理论所述，现如今的 LLM （大模型）都只是在文本上训练的，因此只能非常粗浅地理解世界。

即使 LLM 凭借大量参数和海量训练数据，能展现出过人的文本理解能力，但它们本质上捕获的依然只是文本的统计规律，并不真正理解文本在现实世界中所代表的含义。

而如果模型能使用更多感官信号（比如视觉）学习世界的运作模式，那么就能更加深刻地理解现实。从而感知

那些无法仅凭文字传达的规律、现象。

AI三巨头之一 Yann LeCun

从这个角度来说，谁能率先通过多模态的世界模型，让AI掌握现实物理的规律，谁或许就能率先突破文本和语义的限制，在通往AGI的路上先登上一个大台阶。

这也是为什么，OpenAI当前如此倾注于Sora的原因。

虽然前段时间，Vidu的出现给国产视频技术长脸了，在Sora这样的行业霸主面前挺直了腰板，但大家伙儿在欢欣鼓舞的同时，细心一看Vidu的演示视频，发现个挺有意思的事儿：

里面老外的脸蛋特别多。

这一下子，可让大家伙儿琢磨开了，感觉像是无意中扯出了咱们在收集视频资料这块儿的一个小辫子——高质量数据不足。

数据之困

如果说，现阶段真有制约视频生成模型发展的硬门槛，那么这样的门槛，无非就是算力、算法与数据。

而其中的前两者，实际上只要有钱，有人才，实际上都能搞得定，唯独数据，一旦落下了，后面想追平，可就得费老大劲儿了。就像身高一样，拉开了就很难追赶。

讲真，虽然从绝对总量来看，中文互联网上视频内容也不少了，但其中真正可用于AI训练的高质量数据，却并不如外网丰富。

例如，在视频目标检测方面，YouTube视频数据集VIS包含2,904个视频序列,共超过

25万个标注目标实例。国内视频目标检测数据集，如华为的OTB-88，仅包含88个视频序列。

而在行为识别数据集方面，由国际上同样知名的HACS数据集，包含了140万个视频片段，涵盖200个人类日常行为类别。相较之下，国内阿里云的天池行为识别数据集，虽然也是涵盖200个行为类别，但仅仅包含了20万个视频片段。

造成这一差距的原因，从视频生态上来说，主要是因为国内的很多主流视频网站，例如爱优腾，发布的大都是一些影视剧、综艺、娱乐等内容。

而流量最大的抖音、快手这些短视频平台，也都是满屏的搞笑段子、生活小窍门，本来时长就很短了，其中还不乏很多剪辑、搬运、抄袭的作品。

这么一来，AI想找点“正经饭”吃，还真不容易。

对于视频AI训练来说，这样的视频，要么过于集中于特定类型，缺乏日常生活等多样化的场景，要么时长太短，缺乏深度和连贯的叙事，这不利于AI学习到长序列的连贯性、故事逻辑和因果关系。

与之相比，专业团队制作的电影、纪录片等内容，往往才是视频AI所需的高质量数据。

因为这些题材不仅种类丰富，时长够长，并且十分重细节呈现，更有利于AI模型捕捉到光线变化、物体材质方面的区别，从而提升其生成的精准度。

视频数据这块儿地儿，咱们不光是缺高质量的内容，还有个头疼的事儿——数据标注，这可是块难啃的骨头。就算视频拍得质量再高，但你直接甩给AI，它也不能分清其中的物品。

所以收集好视频数据后，得有人耐着性子，一帧一帧地告诉AI：“瞧见没，这条线动的是车流，那个两脚走路的是行人。”

要搞定数据标注这个既费劲又海量的活儿，没点厉害的家伙事儿可不成。例如，为提升标注效率，国外就涌现出了一批交互式视频标注工具，如CVAT， iMerit等。这些工具集成了自动跟踪、插值等算法，能够大幅减少人工标注的工作量。

反观咱们国内，由于自动化标注工具不那么普及，多半还是靠人海战术，大批的标注小分队加班加点地手动肝。

这么干吧，虽说标注的量上去了，可问题也跟着来了——这批临时拉起来的大军，没个统一的、客观的标准，培训啥的也不到位，全凭个人感觉在那儿判断对错好坏，这样一来，数据质量参差不齐就成了常态，有的地方标得好一些，有的地方可能就马马虎虎。

更让人头大的是，这种活儿，不仅枯燥乏味，累死累活，还挣不了几个钱，你说谁乐意干长久？

根据多家视频数据标注公司的反馈，大多数标注员的月薪在3000-5000元之间，国内视频标注行业的

年流失率普遍在30%-50%之间，个别公司甚至高达80%。

这行当人员流动跟走马灯似的，公司得不停地招新人、培训新人，刚教会一批，转头又走了一波。这直接把数据标注的质量稳定性给搅和了。

讲真，在数据总量、多样性、标注环节均不如外网的情况下，国内的视频AI要想崛起，该怎么跨过数据这道难关呢？

合成数据

如果高质量数据实在难找，那走合成数据这条路，用人工素材来“投喂”AI，是否可行呢？讲真，在Sora问世前，就已经有人这么做了，例如英伟达在2021年发布的

Omniverse Replicator就是这样一个例子。

说白了，Omniverse Replicator就是个合成数据的平台，专攻那种超逼真的3D场景。这玩意儿牛就牛在，它造出来的视频数据啊，每个细节都严丝合缝地遵循物理定律，就像是从真实世界里直接摘出来的一样。

这玩意儿对谁最管用？哦，那可多了去了，自动驾驶，机器人训练什么的，或者任何想要AI准确理解物理动态的项目。

在进行数据合成时，Omniverse Replicator首先会将各种3D模型、贴图和真实的材质拖进自己的平台中，之后就像搭积木那样，用这些素材构建出各种场景，例如城市街道，工作中的车间，或者是繁忙的马路等等。

接下来，为了让制造出来的数据不那么“死板”、“单调”，Replicator有个厉害的功能，就是能让人设定很多变化的因素。比如物体放哪儿、朝哪边、长啥样、颜色咋变、表面摸起来啥感觉，甚至是灯光怎么打，都能让它自己随机变来变去。

这样做有个大好处，就是能让最后得到的数据五花八门，能让AI见识各种情况。

这对AI数据合成来说，是至关重要的一步。

再之后，为了精确模拟现实中的物理交互，Omniverse Replicator中的NVIDIA PhysX等物理引擎，会根据牛顿力学等物理法则，在物体发生碰撞或接触的时候啊，计算它们的运动状态改变，比如速度、加速度、旋转和摩擦力等。

同时添加重力、弹性、摩擦力、流体阻力等约束条件，从而让模拟更接近现实。

虽然Omniverse Replicator可以生成高质量的视觉和动态3D场景，但它最擅长的是处理那些遵循物理定律的东西，比如怎么让虚拟的球按正确的方式弹跳。而对于那些抽象的，具有连贯逻辑和叙事性的内容，就超出了它的能力范畴了。

比如，如果人们想在视频里展现一个人开心的样子，就得让AI先学会“笑”这个表情，这可不是物理模拟能搞定的东西……

再比如，人们喝完水后，如果杯子不是一次性的，人们往往就会将水杯放回原位，而不是随手丢掉，这样的行为，其实更多地

遵循的是人类常识，而不是纯粹的物理规律。

在理论上，Omniverse Replicator无法单独生成训练Sora这类视频模型所需的所有数据，特别是那些涉及高级语义理解、连贯叙事和高度抽象概念，以及复杂的人类情感和社会互动的实例，这些都是Omniverse Replicator目前的设计和功能范围之外的。

另辟蹊径

实际上，除了Omniverse Replicator这种路子外，使用虚幻5引擎生成相关数据，也是一种备选策略。

在之前Sora放出的视频中，人们就已经发现，某些视频片段的效果，跟此前写实、逼真的画风有点不一样，看上去更像是某种“3D风格”，例如下面的这个大眼睛、长睫毛、口喷冷气的小白龙。

虽然OpenAI官方并未承认，但眼尖的网友一看就感觉到了，这玩意儿有虚幻5的影子！

但即使这种猜测是真的，虚幻5能提供的，大概率也只是对光线、场景、3D信息和物理交互的模拟数据，本质上和Omniverse Replicator一样，只能提供一些很“硬”的物质层面的模拟。

要真想捣鼓出一个啥都有的世界级视频大杂烩数据集，就得想想新招。

一个挺极端的法子就是让AI自产自销，自己造视频来训练自己。但这里头有个坑，要是这些AI亲手做的视频在训练材料里占太多了，就会出现“模型自噬”的风险。

换句话说，就是生成的东西越来越差。

在极端情况下，持续使用自我生成的数据，可能会导致模型性能急剧下降，甚至模型完全失效，因为AI可能会将前代模型的缺陷一代代放大。

去年，莱斯大学和斯坦福团队发现，将AI生成的内容喂给模型，只会导致性能下降。

研究人员对此给出一种解释，叫做“模型自噬障碍”（MAD）。

研究发现在使用AI数据，经过第5次迭代训练后，模型就会患上MAD。

在合成数据上训练AI模型会逐渐放大伪影，这其中的机理，和生物学上因“近亲繁殖”导致后代产生缺陷的情况十分类似。

正如近亲繁殖中的个体因遗传池缩小而限制了遗传多样性，过度依赖AI生成的数据，也会限制模型学习的多样性，

因为它反映的是前代模型的固有的理解，而非原始的真实世界多样性。

如果将模型比作人的话，那么任何模型，即使数据质量再高，也始终会存在稀缺的内容，就像一个人的基因即使再好，也总会存在某些稀缺的因子。

这些“缺陷”在前代模型中不明显或可接受，通过迭代训练过程，这些缺陷仍有可能被放大，尤其是在缺乏外部多样性的情况下。

研究还发现，提高合成质量会损害合成多样性。

对大模型来说，如果想表现出更好的泛化能力（所谓的举一反三），就需要不断适应新的数据和场景，应对新的挑战，从而总结出新规律、新关联。

这就是为什么数据多样性，对模型如此重要的原因。

既然这中文互联网上的高质量数据，本来就不是很多，合成数据这条路，从技术上似乎也很难走得通，那么国产视频大模型想要超过Sora，还能有哪些路子呢？

自我进化

如果有一种办法，能让模型在自己生成数据的同时，不陷入“自噬”的漩涡，还能不断自我进化，这岂不美哉？

讲真，国内已经有部分AI企业走出了这条路子，例如智子引擎团队开发的新型多模态大模型——Awaker 1.0就是这么个例子。

简单地来说，Awaker 1.0这个模型，之所以能突破以往的数据瓶颈，主要归功于自身独特的三大功能：

自动生成数据、自我反思、持续更新。

首先，在自动生成数据方面，Awaker 1.0主要通过网络和物理世界两种途径来搜集数据，也就是说，它不光在网上到处搜索，看新闻、读文章、学东西，还能在跟真实世界里的智能设备配合时，通过摄像头看东西、听声音，理解周围发生的事儿。

不过，与简单的数据爬取不同的是，在搜集了这些多模态的数据后，Awaker 1.0还能理解和消化这些信息，并以此生成新的内容，比如文字、图像甚至视频。之后再根据这些“反刍”后的内容，不断优化和更新自己。

接下来，强化后的Awaker 1.0可以生成质量更高、更有创意的新数据，如此循环往复，就形成了一个自我训练的闭环。

换句话说，这实际上是一种动态合成数据的方法，外部数据只是给它提供了“种子”，通过不断地自生自吞，它可以不断放大和扩展这些初始数据，持续为自己生成新的训练数据。

这就像是一个强悍的“增程发动机”，则巧妙地利用了少量的燃料（数据），通过一个循环放大的过程，产生出远超燃料本身能量的动力输出。

同时，为了在这个闭环中，纠正数据可能的偏差，Awaker 1.0不仅会对生成的数据进行质量评分和反思，过滤掉质量不高的样本，并且还会通过持续在线学习和迭代，根据新的外部数据和反馈，确保数据的实时性和准确性。

如此一来，模型既避免了受限于有限的外部数据源，也避免了陷入纯合成数据可能导致的“模型自噬”现象。

而这种自我反馈和学习的机制，实际上也暗合了AI领域要统一理解侧和生成侧的想法。

Sora问世后，越来越多声音表示，要通往AGI，必须达成“理解和生成的大一统”。

这是因为，人类智能的本质就是对世界的理解和创造，目前的AI往往是专门从事理解任务(如分类、检测)或生成任务(如语言模型、图像生成)。但真正的智能需要打通理解和生成，形成闭环。

说白了，要让AI模仿人类大脑的学习模式，边看边想，同时在自我输出的过程中，根据不断变化的现实进行反思和调整。

用中国人的话来说，就是知行合一。

AI要做到这一点，就需要能够自己生成数据来训练自己，并从中不断成长，随着时间推移而不断进化。

这样，即便面对从未见过的新情况，AI也能像人一样，灵活应对，甚至有所创造，这就是在实现AGI上的重要一步。

喜欢yejushi朋友的这个贴子的话，

请点这里投票，“赞”助支持！

[举报反馈]·[ID前期主贴发言]·[所有跟帖]·[-->>回复本帖]·[手机扫描浏览分享]·[返回首页]

内容来自网友分享，若违规或者侵犯您的权益，请联系我们

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主前期社区热帖：

>>>>查看更多楼主社区动态...

[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 创建您的定制新论坛频道 ] [ Contact us ]