|
|
3 D- I# s5 J$ L+ R
* O @6 u' o8 ]$ h9 ]; K9 J( V! r9 i" R; N* u! j7 {+ T2 s
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。' M( h6 U9 [6 n7 @$ @/ c
- n K1 C, A* h) S' A0 H: P9 x4 J& M3 {$ [
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
, i2 X" |- T2 P; C7 e( h7 @% P
e' T( z/ p& U- @1 e6 r% _/ p, P& h k; D& A0 u( s
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!/ {; r" l+ C& Y* e& V- k; |# e5 T( j
1 Z! U2 i& Z/ P: }
! v- G/ f7 a9 b* Z
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
% e) l8 {: ~2 b8 ~3 v
0 H9 f0 `2 ~5 x" W) ^& i9 }8 D# I6 Y: T

) }( ~8 B" ]& _; m; K6 [% a
% S; A; ]+ n J1 I, m4 B% |- N* ], j6 \/ ]- ^* M5 e
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
: S9 N" H/ f; k& @# ?
/ Z) y! C7 j. \7 [% H- D
8 P6 k( G( M5 j# f% |0 E/ e吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
& v: g! i! U1 J
/ S- Y. P' d+ E0 i' t
, C4 P6 }' @) G! x# N# W加码AI计算,Arm发布Ethos系列NPU IP
: ^! d6 @+ _4 n" `6 a
6 t$ `6 @5 e6 s2 y
- t& Y, e" o: e; b根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。5 V% k$ ~6 z6 f0 ]( a" c! b# Q
. I/ F1 K* K, O+ q
: O E J# s) U' m: ?而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。& Y7 l5 @) q) `- ?* a& k
) s* b1 L, N# y2 n( Y4 Q
, m4 ^. D7 A+ N! r但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
f0 l4 Z3 L$ k( j' y" m( b6 r2 Y2 J
3 a1 q V( R# s% }4 r) B( A# h
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
( k% F9 n7 q( P Y E$ b- u+ H' X: {+ v, [: m
$ i. v; j8 Y9 T2 Q, Y2 \4 Q
2 s3 e! @+ v1 R1 L" z# y) u8 R' [' } e5 v0 K% f( E
; `) K2 [& D9 \" v# M( g+ s
' {- d1 \. G9 N' K" V% g
; C( Q% {2 f$ I, |今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
: p; S& C8 P" e- J
7 A7 f ^2 u- T, s" X, C W5 n) I; h, ?
& W( z# c2 G) z- B e6 o
5 {" i9 p. x: ?# ~ R J
% @- e1 O, e. ?0 l
9 Y% K. H/ d) o9 E
: C* g {8 K: y, FEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
. k7 ? P# E. b' ~$ [" v
X+ u) n) p8 j! s( M2 ]% D根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
1 P" p8 P* ~& V3 [( R* }3 z" _' Z5 {" c4 \1 J9 X
* X) n4 R& I; s3 W. i) f) G9 q4 Z6 j8 T
J; m8 t* h( k2 r. s: E1 Q在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
+ s6 Q1 ~8 l+ h9 Q( `6 }2 w$ ~$ ^9 v+ r2 z1 u+ A9 G/ K+ k
$ P% d& q- P7 c0 ^, a在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。# X3 C1 P5 K2 z; W( g% [( L
. `$ K3 m& R4 X# n
3 N& L7 c! s" B- F' B2 c( g从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
! A9 J& a1 b. {; P4 h
8 W' X# h% m' k" w: ^2 D/ A& t4 F% V! {* p5 E
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
& L3 n& P: x. s% {" X; l) }( N/ y c) h& k6 f* m* t
v- K% ?, T6 Y6 M: H( A' x
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。# ^ b- H, H* l/ }. h( e9 _* Z1 m
0 ?4 U% G/ L5 j! d. |; K. H
& z' n9 T% Q$ ~ p3 o# w% H另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
- H e F( ~- s9 v1 j5 a: G! K% q4 R4 X) V1 x0 a7 m: x
+ }+ k2 j. H, \ kArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。4 p5 D7 i- j. Q* P, _2 {$ P
8 q" k$ C. {; P, ^3 _8 s- b
, e9 C. F6 ?# N2 Z
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。! m3 k- N9 [# Q1 Y! M4 X
6 P! K5 B' l8 \: ^* |
" G w* P3 i4 T/ B& k8 M开源的AI开发框架Arm NN
* M9 }' g1 U, z1 ~6 N! Z% `0 U- m) @4 v1 i0 q# f
+ o$ H2 I1 e2 m E; Y; B; W
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。- n9 g7 C$ d2 s# q
3 ?% F7 I. \0 E
3 ]$ F# h( G' X/ e
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
A8 K& a8 Y. p* a& i6 Y3 n a; |8 L. d% G6 c
. B& j+ y; j# ~" T8 j

" ?( C: y3 ]; P' c6 |4 ^) Y% C5 Q( L9 J
; ~( G: `9 S/ c0 b9 Q$ o据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。+ q0 R, F. h% r* N* S, v$ ~
" C u! h7 `3 ~1 \) o! b/ N3 Q
) {, O. u, S c- RArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
$ K- _ L% A5 ^) a& M& p
0 C8 T1 P% K& a; i- g" i$ m+ d! V0 _
7 b4 i( V; V, D3 @+ @
1 }) o/ c- l* k4 n9 A4 k z, ?% \8 ?1 I# O7 N
6 n3 A; I) Q6 j1 P- d& S6 Q0 a+ W
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。) y' B1 p& L P
7 K6 ~( H3 I6 W
8 N# e( E1 N; a- O* j; ~0 D( mMali G57 GPU:为主流市场带来智能与沉浸式体验4 c3 G. m. X i; M8 {8 T
4 I1 |' p! C( T+ ^6 p) ~6 u8 g' F; w. l* P+ h- m4 e+ `
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
1 v* o. y) Y2 [0 `/ u0 B& c! L8 K9 x& l% L7 K
4 _" H' n/ s k

. h7 W3 ^8 g4 y( ], {
& f; U8 s4 W9 U4 {+ G
) _3 z1 ?6 ^: h8 p1 c6 ~3 v/ h据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。: x5 e4 X& h& g: n0 T' h
1 K* s% s# s {8 ^
, ?( E- w. \6 }: dArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
`8 r% S \$ @7 V0 m) ?0 ~( F4 \( Q2 F
7 i+ V5 a8 |; X6 u+ y
Mali-D37:Arm单位面积效率最高的DPU
$ X3 |. U3 d: P1 P+ R1 r2 G' u. u$ y+ U
& Y1 k4 ]+ b; \
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。 L2 _/ s3 b8 c; A, O
* q6 M& F, P+ u2 Y* z3 B" H3 Z. \+ _( ?0 ]1 U, l" b' c! R* o7 e6 o

: K. j) w: E6 O4 E: S$ [
. u$ z1 ~6 {+ p) c
2 Q9 ]0 R$ Q7 A; Y( w% S h据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
g4 x6 x& T8 L* x7 D: w, Q8 V& @. ~7 R+ O3 G
* j5 G3 U) c/ ~! p在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。 S8 }, X H1 n D
Z4 V5 T# W$ t+ M: D
* L% S g7 ]0 d1 V' RArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。) }% k8 j: x3 ]8 _! q
: z% @. v* I, Z& S( d
. x0 F+ d. |; X5 A2 WArm的通用型NPU能否获得成功?; b2 z. f! }0 g; u. F
' {; s. B& Q. n9 K' T v. i
0 ?: b; A2 t+ G& n7 f' j从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?+ V; F3 X) P+ h
: K. D. m C& n9 ?* ?# E
. J8 O+ F: k9 ?. H
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
8 @ N2 r6 _0 D4 I1 S
9 P! ]6 K- J. M. p, z3 g; p0 h2 N0 P g3 Q3 a1 m
( V" `' D2 j6 h' y
0 Q: m9 k5 X' i6 C v8 u( P" F2 A; }7 ^+ X2 {. S) P4 U
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
% a5 t# b4 |0 j/ I1 t" A* {+ c6 D6 F0 J4 a- S
6 a; x, H7 @& L& X% |) n6 j另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
2 i8 Q$ p( x* V: M g% Z4 b( r% p1 R6 F' @
9 a2 {. b# Q q# r另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
5 D0 K0 \2 ?; b6 A
7 [8 `5 b+ T0 B B. m* u9 g; v3 y0 `9 f, f8 F# O2 y: u6 P
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。/ [: a2 i. O/ B6 e; v: `5 ^$ I5 g
) \7 |+ R ]3 e' y9 ?* I9 c
8 W$ B! j& e. }. t0 o, l# Z7 |; _9 a' [. a" j% g
0 V# s4 Q4 P7 N6 C% V1 [4 E
' U0 ? V" A4 W% t/ A8 y0 t: n值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
; L! G1 L7 i4 V. F7 g: O2 [ d! ` L8 F
! o/ ?6 p* h* u* x& i* l
编辑:芯智讯-浪客剑8 G9 [9 L; k c2 p- u: X( u- P
往期精彩文章
" M; x( C, Q$ T! cVR市场迎来第二春:5G+VR云化将成最大推力!% v+ U2 |& X+ B8 \; g
# t4 K5 k% Y' [0 o8 R p% C ]+ Z
2019生物识别论坛成功落幕:这十大看点不容错过!
! u+ ?: q$ h! Y: F+ {2 e阿里平头哥正式开源RISC-V架构MCU芯片平台
5 |. a v) K4 A, q7 e6 J/ z: v) t首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
. l1 r7 k2 F/ n! p& F3 x, }! f9 M, X$ k: q( K; v- ?
展锐再推4G功能机芯片虎贲T117,意义何在?- ]# k# ~8 S1 j( Y6 e7 m4 @
) C' U) Q5 [/ Y" t, ?, ?7 V历史首次!华为海思4G芯片Balong 711对外销售!
2 P& h& w+ c( U! N9 d2 w( e! \. i0 E9 v: N+ }. ]( N _3 d& Y
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
" r( y5 T$ p- |5 t* T
2 v r/ S& E; Q! W- m; T0 N9 x* c: d9 F: a巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!( B2 h& r1 F" K0 X M& Z s6 [7 z Y
# r5 _5 L- B: z可穿戴巨头Fitbit宣布撤出中国!
8 z1 y, N/ @4 r7 C$ @1 l3 c. o* B X( E
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询
/ X6 e) |1 p; Y4 E8 `
1 g2 a1 M H0 e' L1 F/ g) x' R( \禁令之下,安防巨头海康与大华的应对之策!
# P0 c& L9 `9 W u) j
* y! M3 K E3 |. o" b+ F# J为应对RISC-V挑战?Arm CPU引入自定义指令功能!
0 T. t5 b) l$ q. Q6 n行业交流、合作请加微信:icsmart011 u( T1 U" d0 K) t
芯智讯官方交流群:221807116 6 V' ^" \$ m J! d+ c* z0 a
9 l' o, t2 {. n3 d* q4 [. M来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
! p# l: ?6 I/ y, c1 G免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|