深度揭秘华为AI战略！软硬件两手抓，AI王国雏形已现【附下载】| 智东西内参 -6park.com

[返回手机数码首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

深度揭秘华为AI战略！软硬件两手抓，AI王国雏形已现【附下载】| 智东西内参

送交者: 不清不楚[♂☆★★声望品衔11★★☆♂] 于 2019-10-12 13:05 已读 2648 次

不清不楚的个人频道

+关注

2019 年 7 月，华为总裁任正非在主题为《钢铁是怎么炼成的》的讲话中提到，“5G 就是一个小儿科，过于被重视了。5G 提供高带宽、低时延，支撑的是人工智能，人工智能才是大产业。”华为作为传统的 ICT 商，进军 AI 领域绝非头脑发热或盲目跟风，而是出于对自身业务整合的深入考量。AI 作为当今科技界技术风口，不仅拥有广阔的潜在市场空间，同时可以将华为 ICT、消费电子、IoT、云服务等业务联接起来。

本期的智能内参，我本期的智能内参，我们推荐安信证券的研究报告《华为的AI野望》，详解华为硬件和软件的AI体系，揭秘华为AI战略布局。如果想收藏本文的报告（华为的AI野望），可以在智东西（公众号：zhidxcom）回复关键词“nc408”获取。

一、硬件体系：华为 AI 业务根基1、昇腾：专注于 AI 场景的华为芯

昇腾 310+910，云端两极体系已然成型。2018 年 10 月 10 日，华为正式在 2018 全联接大会上发布昇腾 310 和昇腾 910 两款 AI 芯片。昇腾将打造 Max、Mini、Lite、Tiny 和 Nano 五大系列，以面对各种不同的应用场景。其中，昇腾 310 属于 Mini 系列，昇腾 910 属于 Max 系列。

▲各类昇腾芯片横跨全场景的最优表现

昇腾 310 定位于边缘侧及端侧 AI 芯片，着重 AI 推理能力。昇腾 310 的 FP16 浮点运算算力达到 8TOPS，INT8 整型运算算力达到 16TOPS，最大功耗为 8W，采用 12nm 制程工艺。昇腾 910 定位于云端 AI 芯片，着重 AI 训练能力。昇腾 910 的 FP16 浮点运算算力达到256TOPS，INT8 整型运算算力达到 512TOPS，最大功耗为 350W，采用 7nm 制程工艺。目前，昇腾 910 的性能指标已在一定程度上超过了谷歌和英伟达推出的主流 AI 芯片。

▲昇腾 910 与 310 参数特征

▲主流 AI 芯片横向对比

达芬奇架构，锁定 AI 算子级别优化。针对 AI 计算场景，华为研发了达芬奇指令集架构，具备高算力、高能效、灵活可裁剪的特性。达芬奇架构的主要特性是针对矩阵运算的 3D Cube技术。AI 计算过程中由于神经网络链式求导的需求，大量张量（高维矩阵）计算成为传统处理器速度的瓶颈。3D Cube 技术针对矩阵运算做加速，使 AI核心在一个时钟周期内实现 4096个 MAC 操作，从而相对 CPU 和 GPU 产生数量级的提升。

▲达芬奇架构的 3D Cube 技术

CANN 芯片算子库，工欲善其事必先利其器。CANN 指神经网络计算架构，是位于芯片底层之上的芯片算子库和算子开发工具包。CANN 兼具最优开发效率和算子性能，其核心是高度自动化算子开发工具 Tensor Engine。通过统一的 DSL 接口，配合预臵的高层模板封装、自动性能调优等工具集合，用户可以方便地在昇腾芯片上开发自定义算子。同时，CANN 已经支持所有主要 AI 框架。同样在昇腾芯片上开发这个算子，通用的 DSL 需要 63 Loc，而Tensor Engine DSL 仅需 22 Loc 就能实现同样的功能，开发效率提高将近 3 倍，是开发者提高效率的有力工具。

昇腾芯片加载板卡，Atlas 一体化产品遍及全栈应用场景。华为效仿谷歌等公司的思路，并不将昇腾芯片作为一款独立的产品，而是集成板卡销售一体化产品。目前，华为已推出一些系列 Atlas 人工智能计算平台产品，应用领域遍及云侧至端侧全栈。传统的 Atlas 平台现阶段主要搭载昇腾 310 芯片，性能有限。2019 年华为全联接大会上，华为正式推出 Atlas 900。Atlas 900 搭载数千颗昇腾 910，是全球最快的 AI 训练集群。Atlas 人工智能计算平台产品包括：

（1） Atlas 900 训练集群：定位于大规模问题 AI 训练集群服务器。Atlas 900 搭载数千颗昇腾 910，并充分利用了华为在集群通信库和作业调度平台上的技术积累。Atlas 900 在 16 位浮点运算上的总算力达到 256-1014FLOPS，相当于 50 万台 PC 的计算能力。在 ImageNet数据集上针对 ResNet-50 模型的训练时间相比于竞争对手提高了 10 秒，是目前 AI 集群计算的全球第一。

▲华为 Atlas与同类产品计算耗时（秒）

（2） Atlas 800 深度学习系统：定位于云侧训练及推理平台。Atlas 800 提供经过优化的 AI环境，预装软件环境实现开箱即用。同时，Atlas 800 集成华为集群管理、任务调度、性能监控等功能，大幅降低企业 AI 应用门槛。Atlas 800 面向 AI 开发者和数据科学家，提供软硬件一体式交付。

（3） Atlas 500 智能小站：定位于边缘侧 AI 平台。Atlas 500 适用于交通、看护、无人零售、智能制造等多个应用场景，可实现 16 路高清视频处理能力，相比业界产品性能提升 4 倍。同时，Atlas 500 集成了 WIFI 和 LTE 两种无线数据接口，提供灵活的网络接入和数据传输方案。

（4） Atlas 300 AI 加速卡：本身是 PCIe 板卡，即可在边缘侧服务器使用，也可通过集成加载在云侧使用。Atlas 300 支持多种数据精度，搭载昇腾 310 芯片实现高性能计算，相比业界同类型产品提升 3 倍。

（5） Atlas 200 AI 加速模块：定位于端侧应用场景。Atlas 200 本身体积极小，仅半张信用卡大小，可面向摄像头、无人机、机器人等高清视频实时分析需求类应用场景。Atlas 200功耗极低，近 10W 左右。

（6） Atlas 200 DK AI 开发者套件：定位于端侧应用场景，面向开发者提供。Atlas 200 DKAI 开发者套件基于昇腾 310 芯片打造，核心功能通过该板上的外围接口开放，能够实现“一次开发、多端部署”。Atlas 200 DK AI 开发者套件面向平安城市、无人机、机器人、视频服务器、闸机等多个领域。

▲华为 Atlas系列产品

深度参与国家项目，与鹏城实验室建立紧密合作。鹏城实验室定位于实现国家使命的基础创新平台，重点布局新一代人工智能基础研究。鹏城实验室目前在重点搭建鹏城云脑项目，其所需的基础平台是 E 级 AI 超算系统，已建成的云脑 1 峰值性能达 100PFLOPS，云脑 2 计划达到 E 级 AI 算力。在鹏城云脑超算平台上，鹏城实验室打造了启智章鱼计算引擎、启智代码托管平台、数字视网膜等产品。华为昇腾芯片深度参与鹏城云脑项目，目前云脑 2 计划整体采用搭载昇腾 910 的 Atlas 900 训集群，以实现超强算力。

▲鹏城实验室

▲鹏城云脑

昇腾 610 呼之欲出，进军智能汽车 AI 芯片。在华为发布昇腾 910 芯片的同时，华为副董事长、轮值董事长徐直军同样表示未来还计划推出昇腾 610，主要面向自动驾驶场景。在智能汽车产品上，华为早在 2018 年 12 月就公布了自动驾驶的汽车大脑 MDC 600，并在 2019年高调宣布与四维图新进行合作，并已经取得了部分国内车厂订购。在昇腾芯片的加持下，MDC 将得到进一步性能提升。同时，华为的昇腾芯片发展计划正在有序展开，昇腾 920、昇腾 320 也将在 2021 年后逐步推出。

2、鲲鹏：智能计算的全国产数字底座

2019 年华为全联接大会上，鲲鹏芯片再次成为焦点，多场主题演讲及专题演讲均围绕鲲鹏展开。鲲鹏包括服务器和 PC 机芯片，鲲鹏 920 是业界首颗 64核的数据中心处理器，性能比业界主流处理器高 25%、内存带宽高 60%；同时把 CPU、桥片、网络和磁盘控制器“4 合 1”，是业界集成度最高的数据中心处理器。鲲鹏芯片按照“量产一代、研发一代、规划一代”的节奏发展，从 2007 年走到现在已历时 12 年，鲲鹏 920现在是第三代芯片。我们认为，鲲鹏芯片不仅仅是国产化领域的数字底座，也将充当智能计算领域的数字底座，是华为战略的重要一环。

▲鲲鹏 920

▲鲲鹏及昇腾产品演进

完美搭佩昇腾芯片，双引擎驱动智能计算。在大规模数据中心中，服务器成本占比持续提升。根据华为云数据中心统计，服务器成本占比已超过 60%。预计到 2025 年，AI 算力将会占据数据中心算力的 80%以上。同时，万物互联的时代正在开启，将带来数据的爆炸式增长，海量存储和密集计算将成为常态化需求。IDC 预测，未来计算产业发展方向必然是多种计算架构共存，云服务的普及将会加速这一进程。鲲鹏作为华为自研的通用型计算芯片，能够最好地与 AI 昇腾芯片匹配，共同打造华为智能计算的异构体系。

▲鲲鹏+昇腾双引擎

打造集成产品，渗透民商两用。鲲鹏不仅仅是一款单一的芯片，更通过集成硬件进行了大量的产品拓展。鲲鹏芯片在云端的主要承载是 TaiShan 系列服务器，是当前兼容 ARM 架构的最强算力的通用服务器。面向数据中心分布式演进需求以及边缘计算需求。2019 华为全联接大会，华为再次展出了鲲鹏主板，包括 PC 端与服务器端两款，并开放给合作伙伴。华为鲲鹏主板采用多合一 SoC、xPU 高速互联、100GE 高速 I/O 等关键技术。它不仅搭载了鲲鹏处理器，还内臵了 BMC 芯片、BIOS 软件。目前，华为已与清华同方等合作伙伴展开合作，开发出自有品牌的服务器和台式机产品。

▲鲲鹏主板

▲数据中心成本分析

打造鲲鹏计算产业，网罗优质上下游企业。基于 openEuler 的 OS 以及配套的数据库、中间件等平台软件是鲲鹏计算产业的基础。为壮大鲲鹏计算产业，华为建立了 openeuler.org 社区，开源 OS 源代码，并提供各种基础工具，缩短厂家构建基于 openEuler 的发行版 OS 的开发周期。同时，鲲鹏计算产业将对合作伙伴进行转向支持，联合合作伙伴 9 个月完成 3000+应用的代码迁移和性能优化，计划 2020 年 Q1 完成重点行业标杆项目建设，可满足 20%业务场景迁移至鲲鹏计算平台，形成重点行业重点业务的技术架构部署参考设计。鲲鹏在服务器、数据库、公有云等领域与大量 A 股上市公司建立广泛合作，共同推进产业发展。

▲鲲鹏生态合作伙伴

发布白皮书，制定发展蓝图。华为于 2019 年 9 月发布《鲲鹏计算产业发展白皮书》，公布了鲲鹏长期的发展蓝图。开放、共享的生态体系是鲲鹏计算产业成功的基础，要构建全行业、全场景鲲鹏计算产业体系，完成鲲鹏计算产业从关键行业试点到全行业、全场景产业链建设目标，总体上来讲，计划分为试点、推广、深化三个阶段来实现。

试点阶段：通过在政务、电信、金融和互联网等行业选取典型场景进行产业使能、孵化和试点，通过试点建立产业界上下游厂家和用户的信心。

推广阶段：面向政务、电信、互联网、广电、金融证券、电力、能源、交通等行业全面打通产业体系，为行业数字化业务创新提供基础。

深化阶段：面向全行业、全场景，打通产业链，构筑基于鲲鹏处理器的产业体系。

▲鲲鹏发展蓝图

3、麒麟：耕耘于手机 AI 战场的先锋

多代迭代，臻至完美。麒麟芯片由华为海思自主研制，已经历了超过 12 代产品迭代。麒麟芯片的前身是 2012 年推出的华为手机芯片 K3V2。通过两年的技术完善，第一款正式的麒麟芯片产品麒麟 910 于 2014 年初推出。麒麟 910 是全球首款 4 核手机处理器，搭载了Mali-450MP4 的 GPU。其后，麒麟芯片针对高端应用和低端应用手机产品分别推出了一系列产品，大幅提高了各方面性能。至麒麟 970，AI 技术成为麒麟芯片标配，并持续迭代至今。麒麟芯片的最新产品是麒麟 990，其首款 7nm EUV 工艺打造的芯片，进一步强化了 AI功能。

▲麒麟芯片产品迭代图谱

NPU 自主化，打造独立自主麒麟芯。麒麟芯片的 AI 功能最早从寒武纪获得技术支持。通过IP 核授权的方式，麒麟 970 和麒麟 980 分别搭载了采用寒武纪 1A 和寒武纪 1H 两款架构设计的 NPU。自麒麟 810 芯片起，麒麟芯片开始搭载基于自研达芬奇架构的 NPU。最新的麒麟 990 搭载了 NPU 大核+NPU 微核架构设计，其正是昇腾架构的分支版本 Ascend Lite 和Ascend Tiny。华为在麒麟 810、麒麟 990 两款芯片的转变充分说明了华为已打通手机 AI 芯片的底层技术，同时华为的昇腾架构也将逐步由服务器等云侧高性能计算场景逐步向端侧终端设备拓展。

▲麒麟芯片 NPU 架构变化

麒麟 990 5G 综合 AI 能力第一，彰显 AI 实力。根据《中国电信 2019 年终端洞察报告》及中国电信自主研发的 AI 评测工具 AIT 3.0，相比业界其他 AI 芯片性能，在主力网络模型、多模式调校，浮点性能和硬件算力等维度上的测评中，麒麟 990 5G 综合表现业界最佳，与此同时，麒麟 810 也展现出强劲的 AI 能力。

▲麒麟 990 5G 表现出众

MATE30 问世，三大 AI 功能领衔手机 AI 应用场景。2019 年 9 月 19 日，华为在德国慕尼黑新品发布会上发布手机 Mate30 系列。其中，Mate30 Pro 正面采用“刘海”屏幕设计，可以通过 3D 镜头进行面部识别，同时大幅添加传感器设备。Mate30 的三大创新功能成为重要亮点：

（1）智能 AI 使能隔空操作。传统的智能手机都需要手触屏来操作系统，包括点开 APP，拍照，截屏等功能均需要触屏的支持，相比之下，MATE30 可以让使用者在没有触碰屏幕的情形下，就直接操作系统。例如，利用双手握拳，达到截屏的效果。

▲Mate30 AI 隔空操控

（2） AI 使能智能跟踪双眼视角。传统智能手机在使用期间，屏幕上的图片或者视频会跟随用户姿势转变方向。Mate30 可以智能跟踪眼睛视角，以最适合我们观赏的角度来呈现，从而解放用户双手。

（3） AI 功能为隐私安全保驾护航。安全隐私是手机终端使用者关注的重点之一。Mate30 的AI 功能赋予手机在有新消息时自动识别阅读者身份，从而令用户产生对手机的“安全感”和“信任感”。

二、软件体系：华为 AI 的力量源泉1. 打造自主 AI 框架 MindSpore，打通全场景开发途径

在发布昇腾系列 AI 芯片的同时，华为同样发布了配套昇腾芯片的 AI 开发框架 MindSpore，从而使华为成为继谷歌、Facebook 后另一家拥有自有 AI 开发框架的科技巨头。我们认为MindSpore 具备以下优势：

(1)自动高效并行，降低大规模问题学习技术门槛。在人工智能加速落地的大背景下，数据集规模越来越大，模型由于深度网络层数增加参数急剧膨胀。传统的 tensorflow、pyTorch等框架均采用手工设臵方式分配 CPU、GPU 等计算资源，对开发者针对并行的理解提出更高的要求，降低了开发效率。MindSpore 采用自动分配计算资源的方式，大幅降低用户在处理大规模问题时所遇到的技术门槛。

▲MindSpore 框架性能优势

(2) 架构优化设计，提高对开发者友好度。AI 计算高度依赖链式求导，因而 AI 开发框架的自动微分能力成为标配。自 tensorflow 框架提出后，其基于图的反向代码扫描自动微分就造成了用户在开发过程中的极大不便，因而遭受到了开发者广泛的批评。作为后进者，MindSpore 采用 Source 2 Source 方式实现自动微分，对用户高度友好。

(3) 软硬一体结合，优化昇腾平台运行性能。谷歌 AI 云性能强大的原因之一来自于谷歌针对自研 TPU 芯片在 AI 开发框架 tensorflow 上做了大幅优化。华为作为一家拥有自研芯片的科技巨头，同样对针对昇腾芯片在 MindSpore 上做了软硬一体优化，大幅提升 MindSpore的性能表现。

(4) 执行逻辑改进，充分保护用户数据隐私。在人工智能爆炸式发展的过程中，数据隐私问题变得越来越重要。谷歌、苹果等 IT 大厂均对这一问题给与高度重视，例如谷歌在 tensorflow的基础上推出 tensorflow privacy。MindSpore 具备原生性的对隐私保护的支持，通过处理不带有隐私信息的梯度、模型信息，而非数据本身，来保护用户数据隐私安全。

(5) 保证自主安全，规避潜在风险。我们在报告《开源：免费的午餐?》中率先关注到开源项目在贸易争端中所存在的风险，更进一步指出 tensorflow、pyTorch 等由国外科技公司维护的 AI 开发框架项目更是危险的高发区。因而，华为通过自研方式打造 MindSpore，是对其AI 业务在国际贸易争端中最为有力的保障。