宁德生活圈

网站首页 互联网 > 正文

其AI得分在苏黎世联邦理工学院推出的AI Benchmark榜单中位列前三

2021-09-22 11:58:19 互联网 来源:
导读 8月22日,华为正式推出麒麟810芯片,采用华为研发的达芬奇架构,其AI得分在苏黎世联邦理工学院推出的AI Benchmark榜单中位列前三。华为

8月22日,华为正式推出麒麟810芯片,采用华为研发的达芬奇架构,其AI得分在苏黎世联邦理工学院推出的AI Benchmark榜单中位列前三。

华为也在文章中表示,8月23日,基于达芬奇架构的AI芯片Ascend910将正式发布商用,新一代AI开源计算框架MindSpore也将同时亮相。

针对达芬奇的框架,华为中国今天发文进行深入科普。以下是华为达芬奇框架的科普内容。

华为对达芬奇架构的深度解读:3D立方体计算引擎加速计算。

缘起:为什么要做达芬奇建筑?

华为预测,到2025年,全球智能终端数量将达到400亿,智能助手渗透率达到90%,企业数据利用率达到86%。可以预见,在不久的将来,AI作为一种通用技术,将极大地提高生产力,改变每一个组织、每一个行业。为了实现AI在多个平台和场景下的协同,华为设计了达芬奇计算架构,在不同的体积和功耗条件下提供强大的AI计算能力。

第一眼:达芬奇建筑的核心优势。

达芬奇架构是华为开发的面向AI计算特性的新型计算架构,具有高计算能力、高能效、灵活性和可裁剪性等特点,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube加速矩阵运算,大幅提升单位功耗AI计算能力。每个AI Core可以在一个时钟周期内实现4096个MAC操作,与传统的CPU和GPU相比提升了一个数量级。

华为对达芬奇架构的深度解读:3D立方体计算引擎加速计算。

同时,为了提高AI计算的完备性和不同场景下的计算效率,达芬奇架构还集成了矢量、标量、硬件加速器等各种计算单元。同时支持多种精度计算,支持训练和推理场景的数据精度要求,实现AI的全场景覆盖。

深耕:达芬奇建筑的AI硬实力。

科普1:常见的AI操作类型有哪些?

在了解达芬奇架构的技术之前,我们先明确几个AI操作数据对象:

标量:它由一个数字组成。

向量:由一组一维有序数组成,每个数由一个索引标识。

矩阵:由一组二维有序数组成,每个数由两个索引标识。

张量:由一组n维有序数组成,每个数由n个索引标识。

其中,AI计算的核心是矩阵乘法,将左矩阵的一行与右矩阵的一列相乘,将各元素相乘的和输出到结果矩阵中。在这个计算过程中,标量、矢量和矩阵的计算功率密度依次增加,这对硬件的AI计算能力提出了更高的要求。

典型的神经网络模型计算量非常大,其中99%需要矩阵乘法。也就是说,如果提高矩阵乘法的效率,可以最大程度地提高AI的计算能力。这也是达芬奇架构设计的核心:以最小的计算成本增加矩阵乘法的计算能力,实现更高的AI能效。

科普:揭示各单位角色分工,达芬奇Core如何实现高效AI计算?

在2018全连接大会上,华为推出了AI芯片Ascend 310,这是达芬奇架构的首次亮相。Ascend 310相当于AI芯片中的NPU。

其中,达芬奇核心只是NPU的一部分,还细分为很多单元,包括核心3D立方体、矢量向量计算单元、标量计算单元等。它们负责不同的计算任务,实现并行计算模型,共同保证AI计算的高效处理。

华为对达芬奇架构的深度解读:3D立方体计算引擎加速计算。

3D铜

立方体虽然很强大,但只能完成矩阵乘法,有很多计算类型都依赖于Vector Vector Computing Unit。Vector的指令比较丰富,可以覆盖各种基础计算类型和很多定制的计算类型。

标量标量运算单元主要负责AI Core的标量运算,在功能上可以看作是一个小CPU,可以完成Cube和Vector的循环控制、分支判断、地址和参数计算以及整个程序的基本算术运算。

科普3:3:3D魔方有哪些独特的优势?

不同于以往的标量和矢量计算模式,华为达芬奇架构基于高性能3D Cube计算引擎,加速矩阵计算,大幅提升单位面积AI的计算能力,充分激发端侧AI的计算潜力。以两个N*N矩阵A*B的乘法为例:如果是N 1D Macs,则需要N2循环;如果是N2 2D MAC阵列,则需要n个周期。如果是N维3D立方体,只需要一个立方体。

Cycle。

达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。

达芬奇架构的这一特性也体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先。

麒麟810支持自研中间算子格式IR开放,算子数量多达240+,处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型,极大地增强了华为HiAI移动计算平台的兼容性、易用性,提高开发者的效率,节约时间成本,加速更多AI应用的落地。

预见:达芬奇架构解锁AI无限可能

基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力。

以Ascend芯片为例,Ascend-Nano可以用于耳机电话等IoT设备的使用场景;Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理;在笔记本电脑等算力需求更高的便携设备上,由Ascend 310(Ascend-Mini)提供算力支持;而边缘侧服务器上则需要由Multi-Ascend 310完成AI计算;至于超复杂的云端数据运算处理,则交由算力最高可达256 TFLOPS@FP16的Ascend 910(Ascend-Max)来完成。正是由于达芬奇架构灵活可裁剪、高能效的特性,才能实现对上述多种复杂场景的AI运算处理。

同时,选择开发统一架构也是一个非常关键的决策。统一架构优势很明显,那就是对广大开发者非常利好。基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。不仅开发平台语言统一,训练和推理框架也是统一的,开发者可以将大量训练模型放在本地和云端服务器,再将轻量级的推理工作放在移动端设备上,获得一致的开发体验。

在算力和技术得到突破性提升后,AI将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算AI服务等场景。未来,AI将应用更加广泛的领域,并逐渐覆盖至生活的方方面面。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

免责声明: 本文由用户上传,如有侵权请联系删除!


标签: