1 V, h7 s9 b+ `% m
. u1 L7 E9 ?# _' x
- B, n- d0 h- k, S+ [/ X
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
/ s: v; g' _# d
: o" c0 C7 [& ]" P6 z# h5 x) w9 J- |9 D
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!0 E- A7 O) c8 W9 e) @
* ? k3 X* b, J7 g% a5 ~! w8 K
, E8 Q/ N+ R3 ]3 X* K9 H/ F- b; j今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!- k Y4 \% k8 k
& d s+ ^9 Z1 {: j5 R" w. I) L
' j/ [( u" r* d6 J0 Y
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!: ~! o5 p1 V* [9 r. w2 G& t! O
, O5 \8 }) ]! F2 U
I3 o: H, _6 B' a! B7 a# }3 y ) m- O3 Q# I" @/ |3 C( h0 b* U8 Y7 }
3 @! g0 g9 W( Q. ]6 j. }2 n
6 Z5 L7 o; [6 f! ]3 |! ^此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
/ Y+ ^0 h* L2 x0 n4 M4 Z6 Y9 R% L6 s$ x
2 S, ~$ {+ |, r0 K- l0 k
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
8 s( b" x6 S' Y) b* L3 ?! q7 |( h& Q) t5 ^! `
( G# m X$ L R* a
加码AI计算,Arm发布Ethos系列NPU IP& {! p C/ @' p9 S- c" S' X
# v: Z" P; u3 l5 t( b6 j0 j' N' _3 D
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。" ?0 O$ R+ L6 a! E* U3 h
, W$ L9 T% h4 K! @
) N& ?3 B, i1 i0 A
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
& t4 c) S1 E0 j$ S3 w3 d$ I2 w
) E9 f4 x9 t* p- Y" n, ^4 G k3 T, x. K
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
- j- t9 }& P& M* e. I
6 I: \- H1 ^; V: R# v5 J6 R, |/ N8 }
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
8 ?) y( E, z" @$ P6 Y) _7 i) S
3 i& M. h9 z% Q# k+ J
* ]3 x4 J* O* }+ B! Q" ~$ t, J$ {( z2 r% ~3 v8 u- o# t
/ `1 N; X& h* s3 H. ~
& U1 S; e$ [$ k' e/ f v6 d' n$ E
* R( _3 ]& P6 O; X8 B! T0 s- j4 ~ , y* C2 S4 ^1 ]6 l" H# ^% o( C
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
, {. y) X! y8 x" @2 Q4 D2 a5 K( E0 |, G8 q
% W/ o1 q$ I8 ]1 B& g
+ K" R$ [3 z. F" m4 b* { V 3 y, E& z* G0 q/ J4 Q
' W* {; @0 [ Q7 @* r
4 I$ Q0 @% H8 j) P
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?* q) B/ i: K$ t4 y: [; T/ r' [
( `4 r/ q- Q; x8 g |
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
" ^: Z9 z$ x& Q, _2 `* h6 C
" M, w( c& \* G* E) Y
# a( P3 I6 `, l$ u
1 @8 V9 j' Q8 ]' _* i在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。4 Z3 q+ i# A: G V
8 B/ d/ k0 e# Q# ]0 | _% v: C0 G4 J% Y3 k7 B1 { Q) b
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。- R0 L, c5 I4 ~6 j" c
5 ]: S' v, }$ t3 j
) F* A; u7 i0 k m- H7 Z从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
& c/ B' l Y6 b% l V, I" x# J5 Q, {7 p- \
/ v( W$ u7 G( {需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。% s3 ^8 P; o ^! [$ a
7 D& G4 o7 C* s# H4 ?! Z% k" x- |: Q( `
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
- G; x3 V9 F6 A$ A9 _& O
0 X6 }; ?8 i/ x2 r4 O7 k5 S! u
! o) e/ k; C4 e3 _另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。; V: G& g( T I1 g; ~! r+ s
B( H: c) X8 L% J
9 s$ D) W0 t* s" J
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。$ }- ^( ^$ {6 _7 m/ c/ l8 z5 |6 v6 {
' t$ c, _) R4 U* p2 r% }! D, e' |: e7 l) q
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。1 N* o8 c' K- }/ B
' D) `( [+ c7 W! _1 [
" b/ `0 l+ N- G* _9 ]2 y' r% S开源的AI开发框架Arm NN* J1 y, |7 {, f5 n+ z# x' W% m
& I7 D8 u0 Q v% t& Y# W6 y* @5 r! w0 D, A9 R* V; @3 d& T$ F; |/ J
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。- s( B H; ^+ b ^) }4 H/ Y
2 E, I" H% `4 H
) D( {$ Q A; T$ M+ |而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
8 h; O% @9 A- |
# ~9 u, L& C! [& @9 |
' H3 }6 A( g- l. B! B {
. t8 F; R0 W/ w E4 u1 I8 N4 F# \8 y% V" l4 _( r1 @3 x( i
7 } F' j* U' x% P据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
0 n; R- t4 O9 i/ V7 i3 ?2 a
9 l1 z B, Y5 d+ H, A5 C: E/ A+ r9 ]
Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
3 ^8 q* X8 K4 f% {' N
, M C* M4 v' u. `. j. p' p' a( V' [3 v* c( V6 |1 c2 L) y

& p I A9 i! K7 F& y. p! ?7 w* ~ p, d4 `, s% w' |
% [( ]% e6 M6 N) A. z7 j此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
/ C( y3 T3 @ ^ x/ _
! m; ~& z9 V* e) U/ P1 @4 c& H2 q5 U# F) N* k1 }
Mali G57 GPU:为主流市场带来智能与沉浸式体验
; q$ ^. [7 n3 K/ M! B' Z7 m" o6 z' Y4 t& L# V5 a. z$ A
2 j' x, o9 T% }今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)* ~) }1 L2 f+ h, E& Z
2 ^! Q3 i( R( S; |6 A! U; ^: \( E# g7 ^. c% }

: X, H+ P8 y3 L2 @& F- x3 ]
' a8 e# \" h# Q/ _. | |" W
! {% `; A5 k: f据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
0 ]3 N+ S/ k; H0 k4 c* _+ U1 c; G* A
2 k; q' K, W" s& n! HArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。8 L( \: H& O9 p$ z( V$ U1 i8 Z
. V) s3 `( @9 d
% V! n. t1 O1 E& J" q) f3 l) e3 B
Mali-D37:Arm单位面积效率最高的DPU
. h1 w$ B0 C7 A ~
1 Q( S; G, ?% y3 C; p( n J% Z
0 {" e' |: x" e$ P. T( N在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。0 j- A9 `+ X6 P3 _3 Z
9 c( l4 p+ w3 l" C6 z0 Q9 G: w
* Q9 v6 m$ O6 T8 y& G
% [# B% e; y+ h* h1 v1 F M* v" `! @ F8 {! I
! I4 N; c3 h* u* l5 q8 i* l据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
+ V6 u: Z: u/ x3 `& ^6 Q( [* x3 C
. v( f- n; z* ^0 W在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
3 f0 B' \6 ^2 P9 a/ V1 }( b# x8 ~. { ~3 m; O$ \; {: a* G3 n
% {& p8 r0 _* K3 n% ?) T0 A
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
$ p* D- K. [. }! B9 w {3 c" n1 D9 p# d$ X- `
7 m+ D2 I1 b5 [Arm的通用型NPU能否获得成功?
2 W5 n2 q0 m b! X0 \1 k6 M2 V Y$ U# n
2 N7 M5 c% V0 r4 n: e从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
" H+ E" v- d' ?( u3 l, i8 w8 q9 x- _4 e& o
9 A# h+ y7 l9 U2 t! p1 d! y
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
+ v+ e1 q1 O9 j2 i1 `2 W( }: _7 c& x) S$ B% \0 [
5 C& ?& t5 @. }, i/ F/ X0 k4 W+ Z0 p6 m
, `" @9 S& R" F4 y# R' t7 a/ z
/ `( w5 g- G9 R! ]" K
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。. L* M+ S0 q3 O* K' t
7 t. V( U- D j+ t+ z; Y9 L1 p
" J) A) M( ]$ [! c/ R/ f另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。9 n% ~& v: _3 ^9 Q4 W: I6 d W
8 h! i0 Z/ @2 j; w
/ _) D( G! Y3 Y2 {! e- F- V另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。+ r! y& p' Q A# s4 w6 ], X
) U6 ?( N3 L: u9 f3 ]
8 l+ h. P$ R3 D9 ?( w2 S/ x最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
4 e# b S* q( F+ t8 z! j& K
9 O# ~2 z& X/ M l2 b) u/ f: u7 z2 e2 @+ Z/ K1 p
! ^/ z8 J; d8 T) A( e! O- h3 j0 ~0 L4 e/ n) D4 _- K+ ?
9 R. _/ s7 v: S g+ s值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。% U4 v" b! e, p# U! b9 s7 F8 M
# p5 m0 E7 L* Z( H+ N4 U& T/ I( w& C
2 ]; F) U0 Y# ]6 e0 v* j5 e编辑:芯智讯-浪客剑3 G1 ^& l) n' o8 x* ]7 K
往期精彩文章8 |! S5 J) C9 l! s
VR市场迎来第二春:5G+VR云化将成最大推力!6 p5 S- r2 I @# W+ ]/ {
! b2 b1 z, U6 D2019生物识别论坛成功落幕:这十大看点不容错过!/ d( ?0 K! z5 }) R
阿里平头哥正式开源RISC-V架构MCU芯片平台
+ w0 T4 J/ k" {; W) }# n. a首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?+ v. ?# [$ ]# ?% G/ t
& Z) W% x6 |) |& Y$ a展锐再推4G功能机芯片虎贲T117,意义何在?8 d/ U# g2 A/ H+ T b6 X1 }
4 k$ d/ B0 W& F% g6 R
历史首次!华为海思4G芯片Balong 711对外销售!
& l6 @* u9 G' M3 E6 X/ [( f! U6 h$ X2 i0 m
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!* w; H5 d0 a/ V( y& O4 J9 m4 R# X
& ?4 c% p+ |$ E: T$ o5 I
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!0 u4 H9 j2 k3 G) }1 W* o/ [( P
$ e. I9 {5 g6 U( g可穿戴巨头Fitbit宣布撤出中国!
! B! X) N3 O6 v7 z) v
1 {) o/ a& B7 x3 R6 _0 W2 x7 [收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询/ J# y6 h* H% N; z& @
0 ~) A' c$ Z% R7 }禁令之下,安防巨头海康与大华的应对之策!
3 }$ T' D9 {4 N+ a Q8 e
8 Y6 E$ e) w7 U' a为应对RISC-V挑战?Arm CPU引入自定义指令功能!
- B( N& N3 u% G行业交流、合作请加微信:icsmart01: T K( {% d+ m' `3 d. v
芯智讯官方交流群:221807116
- v- ~/ B' v3 S
; ?* e4 q2 m7 v5 |. \& d来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
O9 e0 t; C( ~免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |