丧,独家 | 寒武纪二代芯片发布在即,提早解密怎么应战英伟达!,原油价格

admin 优德88手机客户端 2019-05-10 244 0



「寒武纪在练习范畴的低精度整数运算完结了要害性打破,这会是AI芯片范畴的严重音讯。长久以来,低精度核算的速度和能耗比优势备受业界重视,但迄今为止没有有同类产品呈现。」

撰文 | 四月

「草创公司要轻率打入云端商场,几乎便是自寻死路」。

长久以来,云端的数据中心商场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨子树立,竞赛过分凶横。

但近年来,云核算势不行挡,云端芯片商场呈现爆发式添加,不乏勇者前来破局。

作为一家发源于中科院核算所、背靠多家「国字辈」本钱、估值现已来到 30 亿美金的硬核创业公司,寒武纪应战云端商场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外泄漏取得我国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也现已成为寒武纪的客户。

与此一起,寒武纪成数亿美元 B 轮融资。据机器之心了解,现在寒武纪的估值约为 30 亿美元,与本年 2 月完结 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线平起平坐。

一年后,寒武纪二代芯片现已箭在弦上,这颗积储了中科院核算所研制实力四年之久的二代或将为职业带来不小震动。

机器之心独家得悉,寒武纪二代云端芯片或将于本月发布,一起咱们采访到寒武纪技能研制相关知情人士、寒武纪云端芯片客户等多方信源,提早揭秘关于该颗芯片的细节亮点和中心技能。

这回有了中文名


据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,连续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。本年初,寒武纪现已为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在本年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也标明寒武纪将从终端向华为等品牌商授权 IP 的形式,转向主打云端商场的芯片计划供给商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」晋级为「MLUv02」。考虑到视频数据正呈现爆炸性添加,成为数据中心的使命干流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理商场专门装备。

据机器之心了解,寒武纪「思元 270」在本年年初研制成功,制程工艺方面显着扔掉了此前终端商场的急进打法,挑选依然沿袭台积电 16nm 工艺,定坐落「专心云端练习核算」。

比照两大巨子的干流云端产品线,英伟达上一年 9 月发布并已发货的 Tesla T4 选用 14nm 工艺,AMD 上一年 11 月发布的 Radeon Instinct MI60 和 MI50 选用 7nm 工艺,寒武纪这次好像期望单纯依托技能道路制胜,不再如上一年关于 7nm 工艺寄予厚望。

「让英伟达难过」


在芯片功能方面,「思元 270」的功能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心现在了解到的状况来看,「思元 270」可支撑 INT16/INT8/INT4 等多种定点精度核算,INT16 的峰值功能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

比照 Tesla T4,FP16 的峰值功能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 相等。

但值得注意的是,这些「理论峰值」不过是纸面标准,真实实测水平比较理论峰值一般有必定缩水。据某大体量核算数据中心负责人,一起也是阿里云前期中心技能研制人员李立表明,「T4 在实测进程中,75w 功耗保持不了多久就降一半频率。」

据该负责人介绍,他在几个月前现已拿到「思元 270」的详细标准和特性,「比照而言,第一代 MLU100 是试水,第二代 270 就聚集多了,威力十分大,NV 后面会很难过。」

与此一起,该负责人还指出,「寒武纪的计划在某些范畴或许不会特别好使,尚待调查。」

中心技能解密

在「思元 270」的功能参数展现上,能够看到寒武纪有意着重其整数核算功能方面的优势。据挨近寒武纪技能研制的知情人士王一表明,正是寒武纪在练习范畴的低精度整数运算完结了要害性打破。「那将会是 AI 芯片范畴的严重音讯,因为低精度核算的速度和能耗比优势一向遭到业界亲近重视,但迄今为止没有有同类产品呈现。」

这儿需求引进一对运算表明法的概念,整数运算(定点运算)与浮点运算。

它们是核算机核算中最为常用的两种运算表明法,望文生义,其差异就表现在整数和浮点上,加减乘除运算都是相同的。

整数表明法,即一切位都表明各位数字,小数点固定;浮点表明法,则分红两部分,阶码和尾数,尾数便是数字部分,阶码表明乘幂的巨细,也便是小数点方位。所以浮点数在做运算的时分,除了对尾数做加减乘除,还要处理小数点方位。

根据两种不同的运算表明法规矩,导致面临相同长度的整数和浮点运算,后者核算形式更为杂乱,需求耗费更多的资源去处理,而且二者功耗距离一般是数量级的。简略来说,便是浮点运算占用的芯片面积和功耗比较于整数运算器都要大很多倍。

但浮点运算又有其不行替代性。首要,定点表明法运算虽然直观,可是固定的小数点方位决议了固定位数的整数部分和小数部分,不利于一起表达特别大的数或许特别小的数,或许「溢出」。

而浮点的精度虽然没有定点大,可是浮点运算的小数点方位能够移动,运算时不必考虑溢出,所以科学核算法一般都运用浮点。所谓「溢出」,指超出某种数据格式的表明规划。

此外,详细到运用 GPU 做练习,业界一般更倾向于浮点运算单元,首要是因为在有监督学习的 BP 算法中,只需浮点运算才干记载和捕捉到练习时很小的增量。因为练习的部分模块对精度要求比较高,所以一般有必要是高精度的浮点运算,比方 FP32 才干搞定,FP16 都难。

综上,虽然浮点运算比较定点运算在功耗、核算速度、性价比等方面都不占优势,但截止现在,浮点核算在云端的练习场景中仍具有不行替代的特性,而且以高精度运算为主。

那么,如安在不添加芯片面积和功耗的前提下,怎么大幅提高芯片做练习的运算才能就成为云端练习芯片的首要研讨课题之一。

参阅核算进程相对简略的揣度核算思路,现在该范畴的 AI 芯片多选用集成很多整数运算器或低精度浮点运算器。

面临核算进程更为杂乱的练习核算,业界一向在测验是否或许用性价比更高的定点运算器完结。「但这个问题在学术界也还没有普适的解决计划。」王一说道。

李立表达了相似的观念,现在我们的研讨热门之一,就在于怎么悉数的定点单元(比方 INT8)替代浮点单元,或许以首要的定点单元合作少数的高精度浮点核算单元(比方 FP32)做更多的练习使命,意图是到达定点核算的快速度,一起完结挨近高精度浮点核算的精度。

谈到现在该方向的研讨成果和代表论文,李立表明,职业相关的研讨文章现已有一些,不过都不具有普适性。

王一进一步向机器之心泄漏了关于完结低精度运算的「要害心法」,要做好低精度练习,就要找到一个好的数据表明办法,既能表达最终大的数,又能让 0 邻近的小量能够更好地表达,因而这个数据表明或许需求有自适应性,能跟着练习的进程调整。

他还弥补,「低精度练习的确未必要是浮点数,只需能把数域表达好,0 邻近的小量表达好,什么样的数据表明都能够。」

综上,寒武纪在大幅度提高练习阶段的核算功耗比方面,很有或许选用的是以整数为主的低精度运算,这在现在已发布的 AI 芯片项目中归于创始。

实际上,寒武纪在核算机核算范畴的创始精力和技能沉淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研讨就根本奠定了神经网络芯片的经典规划思路,也便是现在常谈到的 AI 芯片架构。

其时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……



而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿袭了 DianNao 系列论文的根本思路,选用很多堆叠的简略核算单元以完结杂乱的云端核算。(机器之心曾进行过相关报导,《一款芯片练习推理全搞掂,Hinton 为其背书,Graphcore 完结 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心商场的蛋糕,一套齐备老练的软件生态也是其中心竞赛力的重要表现。英伟达之所以能够在云端练习范畴成为肯定干流,其 CUDA 软件生态的根底功不行没。

据机器之心了解,寒武纪从 2016 年起逐渐推出了寒武纪 NeuWare 软件东西链,该渠道终端和云端产品均支撑,能够完结对 TensorFlow、Caffe 和 MXnet 的 API 兼容,一起供给寒武纪专门的高性库,能够方便地进行智能使用的开发,搬迁和调优。

到本年,该软件东西链进行了哪些层面的迭代值得重视,比方是否可兼容更为盛行的结构 Pytorch 等。

「云芯」之争剑拔弩张

虽然前述了寒武纪的种种硬核技能护体、大本钱和客户加持,但想要真实在数据中心商场扎下根,以完结陈天石上一年在发布会上谈到的方针:到 2020 年末,力求占有我国高功能智能芯片商场的 30% 比例,依然面临着反常严酷的商场竞赛。

全体上,英特尔在数据中心服务器芯片商场依然牢牢占有着的 95% 以上比例。

而跟着深度学习核算和人工智能技能逐渐鼓起的云端练习商场,相同被巨子肯定独占。现在 90% 以上的云端加快选用英伟达 GPU,AMD、FPGA 占有十分小的比例,剩下商场还在被国内外芯片创业公司不断分割。

据机器之心了解,近期还有一家国内闻名 AI 算法公司即将入局云端推理芯片商场。据德勤最新出炉的报导显现,到 2022 年,全球人工智能练习商场的规划将到达约 170 亿美元,云端推理芯片商场的规划将到达 70 亿美元。

能够预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速商场必然迎来更多微弱玩家。

(应采访者需求,文中李立、王一均为化名。)

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

最近发表

    优德88中文_w88优德亚洲官网_w88官方

    http://www.babel14.com/

    |

    Powered By

    使用手机软件扫描微信二维码

    关注我们可获取更多热点资讯

    w88出品