看完苹果大模型的论文，我只能说：如来。 -6park.com

[返回老炮儿首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

看完苹果大模型的论文，我只能说：如来。

送交者: amouravec[♂☆★★声望品衔11★★☆♂] 于 2024-03-15 12:24 已读 459 次

amouravec的个人频道

+关注

大伙儿有没有发现，放弃造车后的苹果，最近在 AI 上的动向是越来越频繁了。

这不，今天一大早就有媒体报道，苹果收了一家搞视觉检测的加拿大 AI 初创公司。但还没一会儿，就又传出个大消息，说是苹果大模型要来了。

正当世超满怀期待想要看看怎么个事儿，却发现所谓的苹果大模型，只是一篇论文。。。

在 arXiv 上，苹果上新了一篇名为《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》（多模态大型语言模型预训练的方法，分析和洞察）的文章。

论文里，他们公布了个名叫 MM1 的基础大模型系列，其中 MM1 支持图文多模态，参数规模也分了小杯的 30 亿、中杯的 70 亿，还有大杯的 300 亿三种。

世超总体看起下来， MM1 的原理和市面上其他的一些大模型比，并没啥大差别。

但，世超还是翻到了些比较有意思的干货。因为他们通过一大堆实验，研究出了些能让多模态大语言模型变得更聪明的小技巧。

就比如，他们在训练模型的一开始，就给 AI 来了一波 “ 消融实验 ” ，大伙可别被这个生僻的名词给吓到了，消融实验，咱可以粗略地把它理解成 “ 可控制变量法 ” 。

就像差评君说他打游戏菜，是因为空调温度太低影响了他的发挥，那咱就空调温度往上调调；当然也可能是屏幕太亮，晃着眼差评君的眼睛了，所以咱也把屏幕亮度调低试试。。。

总之经过一系列调整之后，肯定能找出差评君游戏菜的锅，到底该谁背。。。

同样，在训练苹果大模型时，技术人员也挨个调配置，比如修改预训练数据源，或者调整图像分辨率，来看看调整之后，对模型性能到底有啥影响、有多大影响。

这样做的目的，就是要确认哪种组合设计可以让模型变得更聪明，世超也就不卖关子，直接公布最后的 “ 结果 ” 了。

首先，他们发现图像编码器的设计，尤其是图像分辨率和图像标记的数量，对模型性能的影响贼大。

说人话就是，图像越清晰、标记的细节越多，模型效果也就越好。

模型在不同图像编码器配置下，对不同图像分辨率和数据预训练的消融实验结果

还有咱们都知道，一般多模态多模型都能分成视觉模型、大语言模型和视觉语言连接器（帮助模型理解图片内容，并用文字解释的部分）三部分。

苹果则发现，其中视觉语言连接器相对是个小透明，无论它具体咋设计，对模型性能的影响都比较小。

另外再举个例子，模型从来没见过猫的图片，但在测试的时候却能认出猫是猫，这叫零样本性能。他们则发现，要想提高模型的零样本（ zero-shot ）性能，训练模型时，带标题的图像数据很重要。。。

说实话，上面的这些发现，多少还是有些人类能理解的逻辑在里面。

但这论文我越看，就越觉得 AI 妖。

因为实验发现“ 45% 的图像 - 标题数据 + 45% 的交错图像 - 文本数据 + 10% 的纯文本数据 ” ，这种比例的数据，对他们的多模态大模型训练最有效。

这配方居然还有零有整的，而苹果就是研究出这个配方的厨子。。。

还有一点就是， MM1 也用上了最近流行的混合专家 MoE 架构，这种架构能给模型大脑扩容（提高参数量）的同时，又不会影响到模型推理速度。

这个 MoE 架构可以理解成，把一个模型拆成好几个 “ 专家 ” ，每个专家负责处理不同的任务。

假设你去医院看病，传统模型就像一个全科医生，他可以处理各种疾病，但没法子做到科科都精通。

MoE 架构则更像一个医院，它有不同的科室，医院系统会根据你的病情调一个最适合的科室大夫，既不会浪费医疗资源，又能给你提供更专业的医疗建议。

这次，苹果就搞了一个有 64 个专家的 30 亿参数模型，和一个有 32 个专家的 70 亿参数模型。

反正经苹果这么一调教，按照他们的说法， MM1 已经在某些领域超过了群内同行，达到了 SOTA ，也就是目前最先进的水平。

SOTA 的定语有点长，大家细品

最后世超想说的是，之前在 2024 苹果股东大会上，库克就提过苹果今年要在 GenAI 领域大展拳脚。

而这篇论文，或许可以看作是苹果进入生成式 AI 领域的一块敲门砖，也变相跟外界解释了一波其实他们一直都在紧跟潮流，没有外界说得那么落伍。

还有论文里的发现，虽说有些零散，但好歹也让以后的大模型炼丹，有了些方向。

不过咱也说实话，且不和微软、谷歌这些大模型第一梯队的比了。。。

单是国内主流手机厂商，都已经吹响了 AI 大模型手机的冲锋号角，魅族要 All in AI ， OPPO 成立了 AI 中心，华为的鸿蒙 4.0 也接入了盘古大模型。

苹果再不整，可就真来不及了。

最后，如果这大模型能成，我对他的要求就一个，求求给 siri 换个好使的脑子吧。。。

撰文：西西编辑：江江 & 面线封面：焕妍

喜欢amouravec朋友的这个贴子的话，

请点这里投票，“赞”助支持！

[举报反馈]·[ID前期主贴发言]·[所有跟帖]·[-->>回复本帖]·[手机扫描浏览分享]·[返回首页]

内容来自网友分享，若违规或者侵犯您的权益，请联系我们

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主前期社区热帖：

人均20元的离谱新骗局，专门骗写论文的大学生 04/26/24
今年最火高薪行业，背后流水线上全是被抛弃的“妈妈” 04/26/24
“中国近一半大城市在下沉”，这事儿到底有多严重？ 04/26/24
最友好的魂系游戏，打不过就一枪打爆敌人的头！ 04/26/24
黄人饭打败白人饭，一线白领开始吃盖浇饭减脂了 04/24/24
社畜偷偷捧红新晋“钓系网红”，加班到11点也要追更新 04/24/24
为了办酒席，贵州人可以想出十万个理由 04/24/24
今年最大直播丑闻，3000万粉丝大网红翻车翻到牢里了 04/24/24
没做好下嫁准备的女生，千万别回小县城 04/24/24
“捏一下乳腺都通了”，打工人花几万抢这个“新文玩”比开盲盒还疯 04/21/24
粤菜江湖，米饭才是武林盟主？ 04/21/24
这款APP，被联合国评为世界上最好的社交应用 04/21/24
装了这个贼逗的自律软件后，想看妹子，得先走两步 04/21/24
大城市的打工仔，做梦都想成为县城婆罗门 04/21/24
胆小慎入！20万人在线的恐怖游戏长啥样？ 04/16/24
无痕模式是脱裤子放屁？谷歌差点赔了 50 亿。。。 04/16/24
在王小波的笔下，浪漫不仅是性与爱 04/16/24
成都迪士尼 04/09/24
拆除比建造难？那么高的摩天大楼要怎么拆除？ 04/05/24
差点把玩家手机干爆炸，这款被喷出史的游戏咋回事？ 04/05/24

>>>>查看更多楼主社区动态...

[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 创建您的定制新论坛频道 ] [ Contact us ]