
" I V8 x& ]9 Z) ^: G
7 ?2 I4 m# n/ o
" d$ K* e v: w) G10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。3 t6 g( m% U9 [9 X/ j$ V
! x1 L4 j$ a$ w& G7 b& d* S/ I! l
4 A7 b5 e3 h+ W9 L7 M5 lARMv8及后续架构将不受限制的继续支持中国合作伙伴!/ M) b$ @0 M" F8 b, t% V9 U
+ [' P2 s& x, d0 l* U( k, Y
6 H: s8 f8 D5 [: Z% z* m2 i6 ~今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
( P A$ V7 n; [+ @$ a
- t' F! V }$ ?8 u# D' d0 `* f% O" k3 m( H
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!/ T/ y% V5 q: z2 i
2 m1 u: S% R8 @/ S0 M2 G
# B3 b2 J$ u# Z, P: p
# G( U' d' H' @& ]( Q1 A0 T; Y7 N! ?4 J9 [# }7 r
3 a! M, [; P7 L
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
9 J% p' M: `0 h( f1 j3 A. D% q( j8 H4 q
V# V# @6 C1 q4 e( }7 S/ @
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。. o( g' h$ w4 Z5 Y2 L' g8 r
! E* Q6 I. O" V( |7 D: I
. a G; ^3 ?, @% q" j3 n# u0 T& f4 I加码AI计算,Arm发布Ethos系列NPU IP
6 B3 y) H- M, v1 {4 _5 n" i
8 ]& X6 t9 X* x$ v9 y: H( D @9 c. a
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。% a% ~+ S% l/ l+ c8 S: l# Z
5 p1 O' B7 L. \$ S& r2 k& h/ C1 s4 ^6 X! H X( V* m+ r
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。' e0 ^8 l3 A* F, E2 e4 ~ R
: O4 B& {, u' I7 }
, |- V( V2 }+ d+ s但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。+ G* t- T5 `5 q1 L& F2 H; B$ o
% c+ x! H% r7 O( X" P; u3 \8 x: h! [3 ^6 H9 L* [' x! l0 n- P! C! J
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。* ]8 N' b" r3 {
0 k$ U- x2 q% b, z6 f8 \8 j2 m7 F
) p) V1 ]8 \# h; h2 r
. F4 F! d: k+ T7 u# O* @/ b. ]1 {
0 J6 E+ ]& _5 M6 n, ~+ X6 F
3 ^0 H" a# D0 R" ^, \9 j4 O
3 B( `" k- ]" m1 v! Q" b: W2 c) n3 d 7 S$ _9 f' w1 S( |( ]
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。+ @1 c% t }) [/ e
% G" K0 T( S1 Q+ M" \5 }
4 a2 P, Z$ a: c) t

, ^* k5 X& t+ ]- ^4 D ( W" y1 J5 R' X/ i/ T
w* i. Q4 d" [! _5 p: P. O! ^
6 y4 M" v$ B- j3 D$ l. l8 E( j1 YEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?5 v- P4 j" ^4 c" \8 a
* l# A, w, u, I z
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。2 c# s* B8 e6 f+ F( ^
# x/ s" ~3 y4 Y! ]
' _4 X/ H; H9 ~. r; `: _
0 n& }8 i) W8 ?$ g u
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
% b$ P0 w5 F/ F% y; Q4 Q3 p: ]0 t1 a( B. A( a! r
$ m- O8 d. C! U+ l1 k! T
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
( q9 z; _+ N; k; i4 {, T7 I6 l
; M+ _- H, {; C" p2 R6 |
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
7 e: Q9 j" L& ^$ n( t* w6 R
1 R0 I; h. i6 K' l; J, Q
: J9 d0 R8 B6 l: q需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。4 f" B( m8 L% {1 N
2 p9 S Y; L: Z
$ M/ J- ~# r* l3 O# t" _' @Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
$ H, E9 L1 R/ e8 G6 {* j) U- p- B. S" m: l* `3 v' |7 d
" o/ t9 o% |- g+ J4 d另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。0 E' l6 L* y' z" Y' [$ q' n% e' z
) S- c# r& X5 G
( f3 R7 q& e% a" T" oArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
+ P0 B2 J. C, C$ K0 I0 O) X: Q. g) n4 }7 [8 y4 J
3 a/ d' h9 U7 G
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。3 X% H1 m/ |2 w/ O7 K( A
8 h S0 C8 `( h, B% P
1 I' [3 h) a! X) p6 p O$ A* S1 B开源的AI开发框架Arm NN& N e# G% n0 T1 F" v: w' d
8 F5 P/ O/ I; a* N1 ]7 x( d2 ?
8 k, H9 G( E y0 i" `
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。& F& G7 x/ X8 l& ]( I
; @) _! V, o1 g
6 U& K6 j2 P) O" l而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。' X1 u" u9 h& Y7 G* E. a( u
9 C9 D$ y; z! u# _
' x* k9 t, R% _* ~5 f5 [ " k+ H z( M4 L# g5 F- m+ v
" v' r8 w, R# Y N5 C9 T
5 M$ X* O* w* N7 [9 N* J. B据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
/ l1 b- G! B/ [- B: J/ o9 K% ?+ }1 N8 O
t. U/ F4 w7 O4 f8 YArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
6 e& c! G8 y7 i9 P
' P) M6 x4 c& E- v* D$ K1 z) n' n! E W8 y' N3 c0 ^4 E+ i4 k
# i1 r7 U/ M) c( ^8 d
t9 P+ j+ D- Z' l2 Y* O
" C, A/ C2 q% s) s. \此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
: e, q" x7 j5 B8 x+ X8 Y4 `" [+ G6 t5 e. r# w0 w1 J
" T. {' g# S0 u! |
Mali G57 GPU:为主流市场带来智能与沉浸式体验. H; q) O \# {8 @. c( g
- Y) L4 D" X* f) R3 c. R0 X
4 v* u; ~, G( K0 E x5 c/ v
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)9 W1 E7 v; X. p3 m& L) D" r4 I# M- g7 @
8 r5 \' k6 J" W0 _. T' ]
. E: q3 i0 s* A& E/ [ ' y) `: m' o* u, s, {% h3 R
( j' b$ `4 X/ X0 b, q
5 W5 `. R& P: Y* O/ g7 h) q0 h& O据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。9 d) e9 q$ Q( ^8 I( M7 y$ Q
7 s. i3 {) j' u5 y6 b) K& }8 D; M: r4 t
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。, X; J2 n( n& B ^2 v4 c* _
* ]% |& \0 r2 F4 K$ i: z/ ^
. n* ^4 p0 _- G, i' z2 g8 A, vMali-D37:Arm单位面积效率最高的DPU
: f) B, p5 x) U, {! Y- w# u7 }( H* o8 N
% |2 K s% t! l2 S( R在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
# q% _& d1 W2 _4 I* l+ F
; Z& P, ] I0 o2 W$ G' _2 |5 [: @: v- Y+ J/ O8 f
9 x( A, F) e, X6 v# x) ^
5 P* O4 K7 z2 ]" J1 q1 v( T
) ~5 m0 T6 \. I: I: Z( G
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。3 L; @4 K3 p& b4 h
3 i$ i# `6 P/ C# u3 _
. f5 `8 w* x2 g7 O" d在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。! Z* W: X5 u3 S; V
) Q r3 x% E( X8 q* _2 f6 v% W3 |2 p7 w& z3 M5 R- X
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
6 J9 u3 c* L( V' U' ~% F% R' G5 ^1 l8 _3 g7 t' O) U
# F) L: Z. F, x/ F3 U& f2 E
Arm的通用型NPU能否获得成功?$ ^$ P I* u9 Y+ J' H! m+ [
" m; A/ {3 C) P. c* D5 d- E
" f; g& f) Z0 N8 \
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
& y) ~% s; B8 E8 n' D
) n+ X7 C4 d% @& `. R3 N) d, Z. F! Z6 C3 V+ M
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。3 G9 g0 y% t3 x* R. U
0 H: @$ \8 Z+ ~# m! a. m' ^! F0 t- h/ |. _! [0 }& {
& S, R9 R9 u- R7 q4 X
& s+ q3 C6 N: F: F0 I+ B9 _2 |% G
( S4 k& I# q: h* c& _ ~
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
$ w9 [9 A# c" c# \, x- h
3 [& h9 E# b n6 E* ]0 \& [! Q2 F1 z( ?- ~5 c1 {: Z
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。* ~+ J6 Y) g W- Y. K8 O' }" z
c& b& I# E: K2 b( z+ ~2 W
: _* V* O3 S$ d7 t) @另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。* ~0 f0 N: r6 `7 y0 P
/ t8 u2 ^/ ?# q+ h
9 s* ~, B7 @- L, `: _9 V最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。$ |; ]/ b+ j$ I
; A) [6 N' W& [- R- {6 A3 o# y' u1 g1 H) ]8 t- p9 J0 s5 ?1 s
- U+ F' A9 E* o* Z# k) w
9 {; E' L0 s0 d3 Z& H3 o5 O- c6 e0 W
0 u$ \2 ?4 c' O
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
1 @6 Y. ~! T( Q* g" @: q
4 D- n4 F/ B. m# V( O% E
) ^! X; Z) y# I, Z9 R编辑:芯智讯-浪客剑
$ z5 s' e: a& n! @) |% l" {$ u往期精彩文章* e, T+ A& k, D) R
VR市场迎来第二春:5G+VR云化将成最大推力!8 z9 B% J0 t* ?/ p: u) V
; @( q# s& Z! H9 _3 `! R& E
2019生物识别论坛成功落幕:这十大看点不容错过!3 s) N _# c( }8 ~4 R1 f& J
阿里平头哥正式开源RISC-V架构MCU芯片平台
3 N+ V- b& W2 P, g& d& d- W首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟? p1 |% S. `0 P. z
6 H" ^$ M9 S6 b3 R, g% Z( U展锐再推4G功能机芯片虎贲T117,意义何在?6 w( D' d1 H; e5 Z
1 D0 i) C% L. q
历史首次!华为海思4G芯片Balong 711对外销售!) x7 s' R6 S: {
5 X% f! F# L2 l+ T) g
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!: ?: d5 \' E" I; t& J# ~
! Z3 d/ R( E+ C% v巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!* e4 B" X' Y! }
; n, b7 B7 w/ q2 @( o1 Y, ^
可穿戴巨头Fitbit宣布撤出中国!
: s1 Y. ~* D& `' E) E; R2 D7 F
# Y( K% @+ H/ ~% U) j- a收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询. e! c/ ^; `) I: E9 e6 S
0 r) o8 |6 {# N8 y禁令之下,安防巨头海康与大华的应对之策!
( P5 A1 B. I5 [7 S$ P& N/ |* C4 d6 Y# T5 ? R: X2 z, T i0 e- e3 f
为应对RISC-V挑战?Arm CPU引入自定义指令功能!& L/ x$ T& E4 t% q0 p$ E$ G: z
行业交流、合作请加微信:icsmart01& q4 {2 X$ y4 ~' Y0 e
芯智讯官方交流群:221807116 ( E3 ~: e g1 `8 J$ J0 w" K
7 ~7 A+ y/ m6 J# L Z' ?6 O7 R
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
3 B1 w7 b, h7 ?8 T免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |