《2024年人工智能指数报告》斯坦福（HAI） -6park.com

[返回歐都論壇首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

《2024年人工智能指数报告》斯坦福（HAI）

送交者: Haisen2023[♂★★學翥吉奥★★♂] 于 2024-05-08 9:34 已读 1582 次

Haisen2023的个人频道

+关注

《2024年人工智能指数报告》节选：图像、音频和视频生成的技术表现概览




2024-04-26 10:22

共同虚拟
《人工智能指数报告》（Artificial Intelligence Index Report）是斯坦福以人为本人工智能研究院（HAI）的一项独立倡议，由人工智能指数指导委员会（AI Index Steering Committee）领导。
《人工智能指数报告》跟进、整理、提炼和可视化与人工智能 （AI） 相关的数据，旨在让外界对人工智能的复杂领域有更透彻和细致入微的理解。
正值人工智能对社会的影响从未如此明显的重要时刻，今年的报告是迄今为止最全面的。不仅扩大了范围，更广泛地涵盖了基本趋势，例如人工智能的技术进步、公众对技术的看法以及围绕其发展的地缘政治动态。
本文节选了报告中谈及AI对文娱相关领域影响的部分。比如第二章中技术表现将图像生成、视频生成以及音频生成三个对文娱市场有着重要影响的关键方面进行了概述，并挑选了2023年以来备受关注的生成模型，以及人工智能的快速发展对人们现在和未来的生活方式和娱乐方式带来影响的部分。
*本文仅为编译节选且无任何商业意图，编译内容根据公开资料，版权归原作者所有。

图像、音频和视频


生成的技术表现
报告第二章全面概述了 2023 年的人工智能发展。它首先对人工智能的技术性能进行了高层次的概述，追溯了其随着时间推移而发生的广泛演变；考察了各种人工智能能力的现状；聚焦了过去一年中人工智能研究的重大突破、 探讨通过提示、优化和微调来改进 LLM 的方法；最后探讨了人工智能系统对环境的影响。
以下节选了本章中图像、视频和音频三个部分的分析，从中可以看到图像、视频以及音频生成内容对文娱市场潜在影响的趋势。
1.图像计算机视觉与图像生成
图像生成

图像生成是指生成与真实图像无异的图像。如今的图像生成器非常先进，大多数人都很难区分人工智能生成的图像和真实的人脸图像（图 2.4.1）。
图 2.4.2 重点展示了从 2022 年到 2024 年，针对提示“哈利·波特的超逼真图像”，不同 Midjourney 模型变体生成的几代图像。这一进展表明 Midjourney 在两年时间里生成超逼真图像的能力有了显著提高。在 2022 年，该模型生成的哈利·波特形象是卡通的、不准确的，但到了 2024 年，它可以生成惊人逼真的形象。

文本到图像模型的整体评估（HEIM）
人工智能文本到图像系统的快速发展促使了更复杂的评估方法的发展。2023 年，斯坦福大学的研究人员推出了文本到图像模型的整体评估 （HEIM），这是一个基准测试，旨在全面评估图像生成器对实际部署至关重要的 12 个关键方面，例如图像-文本对齐、图像质量和美学。人工评估器用于对模型进行评分，这是一个关键功能，因为许多自动化指标难以准确评估图像的各个方面。
HEIM的研究结果表明，没有一个模型在所有标准中都表现出色。对于图像到文本对齐的人工评估（评估生成的图像与输入文本的匹配程度），OpenAI 的 DALL-E 2 得分最高（图 2.4.3）。

在图像质量（衡量图像是否与真实照片相似）、美学（评估视觉吸引力）和原创性（衡量新颖图像生成和避免侵犯版权的指标）方面，基于 Stable Diffusion 的 Dreamlike Photoreal 模型排名最高（图 2.4.4）。

重点研究：MVDream
对于人工智能研究人员来说，从文本提示创建3D几何体或模型一直是一个重大挑战，现有模型正在努力解决诸如多面Janus问题（不准确地重新生成文本提示描述的上下文）和内容漂移（不同3D视图之间的不一致）等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员开发的一种新的3D生成系统，它克服了其中一些障碍（图2.4.5）。

在定量评估中，MVDream 生成的模型获得了与训练集中相当的初始分数 （IS） 和 CLIP 分数，表明生成的图像质量很高（图 2.4.6）。

MVDream 具有重大意义，特别是对于创意产业而言，3D 内容创作传统上既耗时又劳动密集。
指令遵循
在计算机视觉领域，指令遵循是指视觉语言模型解释与图像相关的文本指令的能力。例如，可以给人工智能系统一张各种配料的图片，让它建议如何使用这些配料烹制健康的饭菜。要开发先进的人工智能助手，就必须要有能够遵循指令的视觉语言模型。
VisIT-Bench
2023 年，一个由行业和学术研究人员组成的团队推出了 VisIT-Bench，这是一个由 592 条具有挑战性的视觉语言指令组成的基准测试，涉及约 70 个指令类别，如情节分析、艺术知识和位置理解（图 2.4.8）。

截至 2024 年 1 月，VisIT-Bench 上的领先机型是 GPT-4V（GPT-4 Turbo 的视觉功能变体），其 Elo 得分为 1,349 分，略微超过 VisIT-Bench 的人类参考得分（图 2.4.9）。

编辑
图像编辑涉及使用 AI 根据文本提示修改图像。这种人工智能辅助方法在工程、工业设计和电影制作等领域具有广泛的实际应用。
EditVal
尽管文本引导式图像编辑很有希望，但很少有可靠的方法可以评估 AI 图像编辑器对编辑提示的准确程度。EditVal 是用于评估文本引导图像编辑的新基准，它包括超过 13 种编辑类型，例如添加对象或更改其位置，涵盖 19 个对象类（图 2.4.10）。

该基准测试用于评估八种领先的文本引导图像编辑方法，包括 SINE 和 Null-text。自 2021 年以来，各种基准测试编辑任务的性能改进如图 2.4.11 所示。

重点研究：ControlNet
调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器创建的输出的过程。现有的文本到图像模型通常缺乏对图像空间构成的精确控制，因此很难单独使用提示来生成具有复杂布局、不同形状和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以获得更大的构图控制在理论上是可行的，但许多专门的数据集，例如用于人体姿势的数据集，不足以支持成功的训练。2023 年，斯坦福大学的研究人员推出了一种新模型 ControlNet，该模型改进了大型文本到图像扩散模型的条件控制编辑（图 2.4.12）。

ControlNet 因其处理各种调节输入的能力而脱颖而出。与 2022 年之前发布的其他模型相比，人类评分者在卓越的质量和更好的状态保真度方面更喜欢 ControlNet（图 2.4.13）。

ControlNet的推出是朝着创建先进的文本到图像生成器迈出的重要一步，这些生成器能够编辑图像，以更准确地复制现实世界中经常遇到的复杂图像。
重点研究：Instruct-NeRF2NeRF
新模型可以仅使用文本指令编辑三维几何图形。Instruct-NeRF2NeRF 是伯克利研究人员开发的一种模型，它采用图像条件扩散模型对三维几何图形进行基于文本的迭代编辑（图 2.4.14）。

这种方法能有效生成符合文本指示的新编辑图像，与目前的主要方法相比，一致性更高（图 2.4.15）。

分割
分割是将单个图像像素归入特定类别（例如：人类、自行车或街道）。
重点研究：Segment Anything
2023 年，Meta 的研究人员启动了 Segment Anything 项目，该项目包括 Segment Anything Model（SAM）和用于图像分割的大量 SA1B 数据集。SAM 是首批具有广泛通用性的分割模型之一，在新任务和新分布上都有良好的表现。在 23 个分割数据集中，Segment Anything 在 16 个数据集上的表现优于 RITM 等领先的分割方法（图 2.4.17）。评估 Segment Anything 的指标是平均联合相交率 (IoU)。

然后，Meta 的 Segment Anything 模型与人类注释者一起用于创建 SA-1B 数据集，其中包括 1,100 万张图像中的 10 亿多个分割掩码（图 2.4.16）。这种规模的新分割数据集将加快未来图像分割器的训练。Segment Anything 演示了人工智能模型如何与人类一起更高效地创建大型数据集，进而用于训练更好的人工智能系统。

三维图像重建
三维图像重建是根据二维图像创建三维数字几何图形的过程。这种重建可用于医学成像、机器人技术和虚拟现实。
重点研究：Skoltech3D
数据稀缺往往会阻碍针对特定任务的人工智能系统的开发。2023 年，一个国际研究团队推出了用于多视角三维表面重建的全新数据集 Skoltech3D（图 2.4.18）。该数据集包括在 14 种不同照明条件下从 100 个不同视角拍摄的 107 个场景的 140 万张图像，与现有的三维重建数据集相比有了很大改进（图 2.4.19）。

重点研究：RealFusion
RealFusion 由牛津大学的研究人员开发，是一种通过单张图像生成完整物体三维模型的新方法，它克服了单张图像信息往往不足以进行 360 度全面重建的难题。RealFusion 利用现有的二维图像生成器生成物体的多个视图，然后将这些视图组合成一个完整的 360 度模型（图 2.4.20）。

与 2021 年最先进的方法（Shelf-Supervised）相比，这项技术能生成更精确的三维重建（图 2.4.21）。

2.视频计算机视觉和视频生成
视频生成
视频生成涉及使用 AI 从文本或图像生成视频。
UCF101
UCF101 是一个动作识别数据集，由包含 101 个动作类别的真实动作视频组成（图 2.5.1）。

最近，UCF101 被用于对视频生成器进行基准测试。今年的顶级模型 W.A.L.T-XL 的 FVD16 分数为 36 分，比前一年的最先进分数降低了一半多（图 2.5.2）。

重点研究：Align Your Latents
大多数现有方法只能制作短小、分辨率低的视频。为了解决这一局限，一个国际研究团队将传统上用于生成高质量图像的潜在扩散模型用于生成高分辨率视频（图 2.5.3）。

他们的潜在扩散模型（Latent Diffusion Model, LDM）在分辨率质量上明显优于 2022 年发布的前沿方法，如Long Video GAN（LVG）（图 2.5.4）。
LDM 是一种高效的文本到视频模型，它采用了从文本到图像的架构，充分体现了先进的人工智能技术如何在计算机视觉的不同领域被重新利用。LDM 强大的视频生成能力在现实世界中有许多应用，例如创建逼真的模拟驾驶。

重点研究:Emu Video
传统上，视频生成的进展落后于图像生成，因为它的复杂性更高，可用于训练的数据集更小。Emu Video是由Meta研究人员创建的一种新的基于变压器的视频生成模型，代表了向前迈出的重要一步（图 2.5.5）。Emu Video从文本生成图像，然后根据文本和图像创建视频。

图 2.5.6 说明了 Emu Video 模型优于以前发布的最先进的视频生成方法的程度。该指标是人工评估者更喜欢 Emu Video 的图像质量或文本指令的忠实度而不是比较方法的情况比例。Emu Video简化了视频生成过程，标志着高质量视频生成的新时代。

3.音频
音频生成
2023 年是音频生成领域重要的一年，该领域涉及创建合成音频内容，从人类语音到音乐文件。这一进步突出表现在几个著名的音频生成工具的发布上，例如 UniAudio、MusicGen 和 MusicLM。
重点研究：UniAudio
UniAudio 是一种用于创建音频内容的高级语言建模技术。UniAudio 统一标记所有音频类型，并且像现代 LLM 一样，采用下一个标记预测来生成高质量的音频。UniAudio 能够生成高质量的语音、声音和音乐。UniAudio 在文本转语音、语音增强和语音转换等任务方面超越了领先的方法（图 2.7.1）。UniAudio 拥有 10 亿个参数，经过 165,000 小时的音频训练，体现了大数据和自我监督对音乐生成的功效。

重点研究：MusicGen和MusicLM
Meta 的 MusicGen 是一种新颖的音频生成模型，它还利用了语言模型中常见的转换器架构来生成音频。MusicGen 使用户能够为所需的音频结果指定文本，然后使用特定旋律对其进行微调。在比较研究中，MusicGen 在各种音乐生成指标上都优于 Riffusion、Moûsai 和 MusicLM 等其他流行的文本到音乐模型。它的 FAD 得分较低，表明生成的音乐更可信；KL 得分较低，表明与参考音乐的一致性更好；CLAP 得分较高，表明与参考音乐的文本描述的一致性更高（图 2.7.2）。人工评估人员也更青睐 MusicGen 的整体质量（OVL）。

尽管 MusicGen 的表现优于今年早些时候发布的某些文本到音乐模型，但 MusicLM 值得一提，因为在它发布的同时，MusicCaps 也发布了，这是一个包含 5.5K 个音乐文本对的最先进数据集。MusicCaps被MusicGen的研究人员用来对其模型系列的性能进行基准测试。像 MusicGen 这样的新模型和 MusicCaps 这样的新音乐到文本基准的出现，凸显了生成式人工智能已从语言和图像扩展到音频生成等更多样化的技能模式。
关于AI影响的公众观点
本章从全球、国家、人口和种族等角度探讨了公众对人工智能的看法。它借鉴了多个数据来源：益普索（Ipsos）的纵向调查数据剖析了全球对人工智能的态度、多伦多大学（University of Toronto）的调查数据探讨了公众对 ChatGPT 的看法、皮尤（Pew）的数据研究了美国人对人工智能的态度。本章最后使用 Quid 的数据分析了 Twitter 上重要人工智能模型的提及情况。
以下节选了“AI产品和服务”和“人工智能与民生”两个部分，从中可以看到全球大众如何看待AI产品和服务对他们生活的影响。
AI产品和服务
2023年，益普索（Ipsos）进行了一项关于全球对人工智能产品和服务态度的调查。该调查包括对31个国家的22,816名年龄在16至74岁之间的成年人的访谈。在9.1调查数据中，66%的人预计人工智能将在不久的将来极大地改变他们的生活，而54%的人认为人工智能的好处超过了它的缺点。大约一半的受访者信任人工智能公司的数据保护能力。
该图还对比了益普索 2022 年和 2023 年的调查回复，凸显了 ChatGPT 发布后公众对 AI 情绪的转变——这是公众对 AI 认可的里程碑。在过去的一年里，认为人工智能将在未来三到五年内极大地影响他们生活的人明显增加了6个百分点。此外，52%的人现在对人工智能产品和服务表示紧张，比2022年上升了13个百分点。全球公众越来越意识到人工智能日益增长的影响，并对此感到紧张。
根据益普索的调查，各国对人工智能的利弊的看法差异很大。78%的印尼人、74%的泰国人和73%的墨西哥人认为人工智能产品和服务利大于弊（图9.1.2）。相比之下，只有37%的美国人同意这一观点。在接受调查的31个国家中，美国和法国表现出的怀疑态度最强。

在以前持批评态度的国家，对人工智能的态度正变得越来越积极。2022年，包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的几个西方发达国家对人工智能产品和服务的评价最低。从那时起，这些国家中的每一个国家都看到承认人工智能好处的受访者比例有所上升，其中荷兰经历了最显着的转变。到 2023 年，43% 的荷兰受访者对人工智能产品和服务持积极态度，高于前一年的 33%。
人工智能与民生
益普索（Ipsos）的调查探讨了受访者认为人工智能将对他们生活的各个方面产生的影响，例如健康和娱乐。在时间管理和娱乐等话题上，大多数人对人工智能持积极态度（图 9.1.7）。例如，54%的全球受访者认为人工智能将提高他们的任务效率，51%的受访者认为人工智能将增强电视、电影、音乐和书籍等娱乐选择。然而，怀疑主义在其他领域更为突出。只有39%的人认为人工智能将有益于他们的健康，37%的人认为它会改善他们的工作。只有34%的人预计人工智能将促进经济发展，只有32%的人认为它将改善就业市场。
与有关人工智能产品和服务的问题类似，回答显示出国内一致性，日本人、瑞典人和美国人普遍对人工智能改善生计的潜力持悲观态度，而巴西人、印度尼西亚人和墨西哥人则更为乐观。

在对人工智能改善生计潜力的看法方面也存在显着的人口差异，年轻一代普遍表现出更大的乐观情绪。例如，59%的Z世代受访者认为人工智能将改善娱乐选择，而婴儿潮一代只有40%。此外，与低收入和受教育程度较低的人相比，收入和教育水平较高的人对人工智能对娱乐、健康和经济的积极影响更加乐观。一般来说，Z世代、高收入阶层和受教育程度较高的人对人工智能改善生活的潜力最乐观，而婴儿潮一代、低收入阶层和受教育程度较低的人则最不乐观。


声明：凡注明为其它来源的由光网号的作者撰写，观点仅代表作者本人，不代表平台立场。

 人工智能 AIGC 行业报告


贴主:Haisen2023于2024_05_08 9:38:05编辑