|
|

4 y& g$ I* x% d, b8 ~6 L3 W, z! v2 }1 E4 D/ \3 y
9 p( m7 V6 H. o
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
2 P4 T) [, P$ o; O
# M1 O5 B* T: V' t4 O7 a0 S0 y& l/ v% A8 c9 b9 v; s. m/ u5 v
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!6 U1 l' m4 c0 `2 X0 I
8 ]: P# z, E8 y+ P! ~0 s7 v3 r% i D2 D* Y Q& z9 _
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
% v; `2 {' r+ L5 @5 W3 @% J
& r8 f. ]3 o- r! c, q
) g! M: T3 ?# D( t0 k7 O% B2 q. e10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
d- x9 E5 Y* u9 O5 ^; v1 K
( c$ Q5 q2 S% V8 f, }* N6 B- P9 c, p! T
) d, H7 {. O/ g9 v2 b& y c* t
5 l" T9 W% V3 `3 S3 \# m q. n/ Z& n; _% r' U
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。/ E) j% a$ \: n( C n# k
( q. s+ X- T" h- h- n: u& ]! o5 N' ^8 }* Z! k
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。 g% Q% T0 [1 u8 p6 l5 U" i6 ~
- t0 k% T, u% I% C0 e: p1 ?& Z r% X% E; u `- O
加码AI计算,Arm发布Ethos系列NPU IP& K6 e9 X% U/ L: l% R4 u
W. x! `- s6 }, R( d6 `4 k
" h( J$ l* Y E$ y- ^3 s5 g根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。3 ^# y% [, n w1 w7 X5 P; \( F
0 @& V" V# b6 o$ d% g* P
, _# c1 b0 a$ y% \: }# J% X9 L# X9 ~
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。7 H' k) U9 i3 } K4 c+ \; X
- G# V' W8 G0 C6 y8 c
$ d) U Y: s+ u6 N但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。* `' u% x$ K* E
: ] M9 ?! s4 Y+ K- {2 ?! g
5 p/ {" e- O: M. m3 F6 |$ @0 q+ P在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
0 A D4 M, S6 k0 V3 k3 O* S" h/ s, |6 M0 P* z
5 s1 l B3 y6 d3 |/ K4 F# p. s0 ^5 f+ D
* W% Z( x+ \' N' T$ `( c
$ O% D# n' O/ o" W5 |( z
: A" G+ \, }, l* K( x! \ + V% {7 ]# q! s$ v" S: V) c! a* q
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
3 o" P4 C U3 ~: U; w
; z3 J6 V, G* ?
0 X: K" Y6 R+ p , x/ Z% _" V# d& ?. ]# W; g; z8 I

. l+ [* o+ r( ]4 K: g6 j
: @, X! ~2 s, J+ D! g# i
8 H7 V/ A6 `# x) \) Q* FEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?! N% a: y5 _6 J3 z5 E

. J3 X, E( C; P$ n根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。6 t6 P3 h+ H) Z, f, P% A3 @& s, d
! o9 v2 o9 T( l5 \5 t( u
n: w/ a' \: B, N
, E* b: u- P R* H0 u/ [在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
4 z" B& N0 g& s' {, x1 x* f$ z( U
. ~& W( q! I# c) O7 [/ p
. x; `# ]6 C0 V9 [在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。0 Z: Z" U$ }6 ^+ R
9 m# V, ~* u6 c7 Q# A2 U/ b' l
0 E1 c& p6 {0 S; [1 X( S# m3 W
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。) ^8 N* Q. r' H! P7 M5 Y. d0 F5 h( ~
$ @& n: p }, p3 V7 I7 M) z& G
' L8 k4 ~/ B# m9 D% [% s0 @" X
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
c- x# M$ {7 n: \+ s0 M
' c+ [- q6 g+ W) ]4 X7 X& W# B6 n5 N) [/ N
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。) T4 p0 E& d# @
% r9 C8 c7 j- s$ R/ s( _/ Y- ]& Y% C _3 ]3 h
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
( b: \% H$ ~8 ^
: ~( k9 z& c3 {- Q; w/ ?+ M. P7 ?7 o0 ^+ ?! ^2 m) Z
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。
8 |4 X+ x- m5 e+ r M* ~3 N0 H. A5 T9 K8 |- S. E5 V6 o
- Y) s: w0 i& f4 b
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
' K5 M' Y! W- \$ ^) z' i' y) r! V. D! ]* G+ B# k) z0 k* Y W8 F$ E9 T
* c- f# @, `( l开源的AI开发框架Arm NN8 R5 I+ w# Q0 K' _5 N
) `" B$ H8 B' p+ V& I8 z' B5 v9 m
# w. M3 k1 w8 D; O: S4 Y
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
/ S; i6 f# A8 Z; ^5 J2 ^% G, S1 Z( `$ r
4 S' }, b+ j7 R7 I2 U而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。' |5 u' J# L* {% c
# O* y8 X' E0 t
6 ?" [! ]0 u" O8 O
! O! b4 G" x5 E6 F( v# r! h
: A! n0 p% b% B R2 c9 b6 F! X/ V
# @1 N Y/ r" V& \! d8 g) B" N据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。- l& v ? Z3 a% U
6 v3 g3 J2 o) |9 v- Q' w; k
0 T3 ^; ~) N, m/ }! uArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
, |/ I9 C- r% @2 J3 }2 a0 d, V6 N* N9 m/ V2 c5 i( Q" q
# D4 ^6 }+ n% Z0 m 2 L1 Y/ h( ]: |
# K8 {8 Z/ _0 Q% Z6 C5 c4 m
# c4 L+ ~ E7 t: w( A1 G此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。- }& `2 t ?. P1 p2 G
M) s+ v+ C8 r9 j3 i s+ N' @9 l! s; }/ o
Mali G57 GPU:为主流市场带来智能与沉浸式体验3 E9 s" Y2 n P+ s0 \3 S3 R
7 m0 ^, C7 Q! B+ N
. [, c* Y4 Q7 y1 @, g5 w5 c& J/ \今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
+ i0 X- f7 M9 L7 i) |$ f0 a- x& P$ T1 D& C5 z
) u* F7 r" p4 Z8 O% {8 ~

6 l' d; z; j+ u2 j% |$ `; s) [( ^) X5 A5 @5 N0 ?
9 b) e0 |2 u: l8 ?2 P$ \# ^8 l6 X
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
- V) g; E V1 m) G8 C h4 S$ x
+ N8 |5 ]6 a* N- ~% Z- F- x$ H/ S: Q+ F Y8 d1 v
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。! t. Y5 n P+ b7 x/ }4 _" |3 C
5 y2 l+ l( M& @7 G! ~
: j- ~' \1 a& W' ?
Mali-D37:Arm单位面积效率最高的DPU
9 }& n2 Q* \4 W- f
9 x/ o# c* g/ j, Q# m8 O
9 h1 K' @$ _7 l在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。$ T2 ?) d1 ~. Q7 J8 C: ^( ~4 S
: o/ Q) j- h- _$ L. c( D
9 n7 }/ e) f4 [' O' U2 w
& F0 g- e) Z* H. v! r2 Y7 e4 G
0 M7 u+ X. Q9 \$ M6 ?2 e5 e6 I0 ^/ `( ^8 t% I
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。# @9 h3 _1 y! E$ G& r' ?
8 E. s; b. G2 |! ^" Z* j% |: v L3 j
, W( ?9 n$ q9 K8 F在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。8 @# d7 @/ H+ q# `* Z, q
4 h8 P8 k" w+ Y+ l! K. ~: G+ q o4 z) ~9 Y6 s4 Z5 {
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
" s3 s7 a2 D2 ~9 d8 B" j" v( d% b6 U5 x' r% V; d$ S) ~
$ I8 P0 Q- f+ f6 LArm的通用型NPU能否获得成功?
0 u2 z7 [2 G7 [/ `. ~2 `
8 X' R; V! {' K- o$ ?% S* u
8 O4 U: }2 u! {. ~8 J从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?- b* U( V8 Y6 U- z: v
( b: ?' R- ^; w7 r5 l- D. }
8 @9 I$ Z! P: G1 ?: o6 H对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。1 k- l5 S7 z& O' s
" y+ x2 I7 H- }2 P# Z8 U. j, a5 u
' N- x, Z W W8 {
8 G# U4 ?- _8 m: t* C! ]9 k" G
8 j. w5 F' P( O2 {3 g3 s* h
2 f- c" i; O2 m0 }0 B在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。1 R) a* E1 S2 G6 v
( i9 }) P; n9 |
1 E! _9 c) R; L8 |$ N5 v另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
( z' A) [6 x4 [4 A* v
, c* ?# [: P2 i
5 p3 j# A9 l! R& Q# I% k另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
0 o: T, u' Y1 r) O2 i" g; F. k* G3 j8 |. e" X2 B. @! p" t H
0 s4 b9 c w, k9 ^0 i+ ^ Y) q1 c最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。5 S- k$ J% o2 K% u* L- C
# Q `7 q- y0 |7 l% p, y
* d2 X* |. n: Q! Q' [
: Z, M. j; u+ J- O. H$ f9 z& z# P. w7 u. X k0 I9 f
' G/ g8 h" P/ N; O/ z p% x( \值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
+ {& o: ]: \+ o; {3 [/ B
W- E, Z3 U8 Z& g; O9 o) M( B( {- D r6 z
编辑:芯智讯-浪客剑
9 d6 Q0 {0 g9 |往期精彩文章
4 D' j/ V( G1 h. ~$ t H/ o; SVR市场迎来第二春:5G+VR云化将成最大推力!
5 ?- y" ^6 {4 x& w C* h
6 s$ Z! @( j. N2 c8 G4 g2019生物识别论坛成功落幕:这十大看点不容错过!& j: G- S/ }6 g+ f m1 B0 e0 U' r) H
阿里平头哥正式开源RISC-V架构MCU芯片平台) o0 v- X. C% b8 t# S
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
9 ~- K" e8 L' |) h. j1 g+ i" E: g. J3 I, A, B" O/ }+ [& R @6 r. G) F8 i
展锐再推4G功能机芯片虎贲T117,意义何在?( L: A' w" @# i* r# D9 T
. Z, ^7 V( ~# R; h5 e h
历史首次!华为海思4G芯片Balong 711对外销售!8 {* u! N4 o8 b- N
& i# l$ F# H* U- d7 Z. v不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
# g [- R1 t' ~; F1 |: z# s8 ?) N7 n* Y$ I: i4 s) Y: c$ c0 @& o! Y5 C
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
# N+ x2 F6 y6 x4 C
, \6 L$ I4 S6 L4 M* s可穿戴巨头Fitbit宣布撤出中国!1 J5 e0 f, N2 |7 f& _! g& z" G
{+ F) h# M% { n5 Y, J收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询! y* [1 t; @6 q" w6 {
% p& P% h' }! q, V9 P% G2 P
禁令之下,安防巨头海康与大华的应对之策!
* e2 y# v" O1 D0 r) A P, o0 a3 I6 H1 Z, U- p
为应对RISC-V挑战?Arm CPU引入自定义指令功能!& F" a3 ]/ j" k# L
行业交流、合作请加微信:icsmart01
" a5 s8 [2 v& S6 E7 O" G! B芯智讯官方交流群:221807116
+ P4 D8 q# T. u1 m# N* T- g
# n7 L0 \5 H, v) O% {1 M' @! ~2 Q来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
K' R) l+ U: l5 g* q, I免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|