|
+ d. q$ e+ Q& s5 Y5 I( L
& G* Z" f9 l$ G+ P3 `; M' R/ `1 N5 v
# n* t4 E" O. u" I3 V10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。. E- x+ X s7 \
# c) Z. g% N6 r. a( ]6 k3 U
" R) Z l+ `/ ` L( y( P+ N# x# RARMv8及后续架构将不受限制的继续支持中国合作伙伴!# p: u/ a8 C7 I3 f9 x$ G
: v! }# x1 n4 V* a/ k/ ~' z
# u/ Y0 W } Z' n$ j1 L今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
! P0 v' d4 N) m
* b# z; j# m/ o6 R6 u1 ]2 Z+ T
3 g4 b* r' l; b' N0 z1 U10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!. g9 a/ n9 F) Q' F
( N; h7 t* [+ t l" ~0 ^
+ E) ]( ]2 Q/ s- D
1 v3 S) s! w" v- Q* z) ?& M; _- D* i, A# t4 P7 e! q; t
( K; ]3 k' Z0 v0 B+ G/ H8 y+ i
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。- |1 S, z7 J1 k; }1 C
! ?& R J' x8 L$ y" L- T/ i9 D' l5 R
& v3 v5 f6 ~/ Z吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。! t! E( S/ I0 x- B1 s* F& i t
8 l$ ?4 H) ^: ~) b# X3 ^
X. L1 T0 j: s! Y N5 e
加码AI计算,Arm发布Ethos系列NPU IP V$ r, w2 w$ s9 P" a# c
, l7 t5 j# n' h- _% X9 G
/ \* W/ l/ ?6 @+ }/ @1 t4 q, g/ ?根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。/ o" q. G. R' U H* g
" U; O$ ]# i$ V
9 s8 F+ T9 p/ o! p8 U# }8 _- a" _
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
3 i: o7 z- g4 f# x3 c; z$ `
/ q7 @$ [* ^ a. p0 I t
' T& N6 F" ], x# [/ _8 M- W1 h8 H+ ~但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
4 ]. y1 S ]0 ~% k4 T# {" p- X
# C! h( o1 R9 k: A2 i
! l/ P( Y, [8 T# ^9 m4 }在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
2 ^. \- O" L H4 [- `, U/ V! W2 x- P+ Y6 n
3 P, u2 r, q6 x. C; K1 \& `7 X
. L& b8 I! ^- B: ? K2 [
* j- d2 I+ g/ h; S% l# r
2 y- x/ C a1 u t& h
6 ^ Y G7 ` C) |
5 v, S5 H9 }4 }( P8 D今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。4 ~) J; Z0 e0 u, ?- b' ^; @& `' ?' G
* t5 A! ]% P. Q4 {/ A+ r
2 [; [1 H" ]& i0 _* q9 H" e . D+ Y* [: O8 M; i7 b8 F
+ s1 w5 B( a( |3 U
; e# g ?, v3 @2 Z* _" S& V. `9 c ?
, _. j j8 |4 s- u; i. B* w9 F- }2 [3 xEthos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?( x j2 G& L4 @( ?

- X" E5 g7 Z+ j& s4 g4 z; n. r$ Y根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
- }0 n/ }! a1 \4 M. J o9 e7 ^0 Z" w5 b4 V! E/ [3 U6 v
0 G- J7 ]; K3 Z$ P
. v, c( e) z) o3 [在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
" j3 }1 P& c: j9 r( f: u4 g! f, {7 E3 Z) B Q5 z+ E
6 I( Y% C `1 v$ |6 f
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。0 F6 O: H2 M) ` ~6 H: I" J# H
: O J! ~& m3 f' T3 n9 _6 K
7 D9 S w' M- |从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
2 U. \ C8 y# C3 |, e- [) j6 N2 W) p# S& J1 d6 O& s8 E v7 P
6 E$ ~9 }, d! x3 C4 K" m- j' M9 C需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
) f1 y' @/ i! i+ T! P v- {4 u5 C$ p. O. q
5 v7 V& m0 w |Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
m' L! Y! @" n) a+ e# _; _5 {0 M+ {- U2 o6 n5 W' W" g i
: Z' x/ @6 w' c D" y' S' t; M另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。+ R" y1 S1 ^! y8 V: I# B, M# N
2 F/ j0 T' a% K' R
7 T$ e2 q# n2 _! [) d/ NArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。7 U/ N U+ j" R. H. q
9 ]2 q, S2 ]2 S) S a% E$ a( [
( l4 ?$ a! j5 q! k' q
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。( B! y. ]5 c8 U8 t. X2 w# ], C) |
! X# j2 ^6 s& Z, D4 h5 I% B
2 K$ p' i+ E6 t( ^1 \. ~% l: u( L
开源的AI开发框架Arm NN
9 }' D$ }; _" Z3 f. x3 @/ A
2 |5 k$ v. }' L0 m$ ^4 H% h* l' ~" F. u4 e4 V3 M, ]" V0 Z$ {9 W/ ^- E
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
/ b4 ~! X% K( ~5 ^7 f5 ?
7 o% r' k" j* A& s& y+ b) Q8 A+ {4 j e9 x7 N
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
n9 c, s5 Q- y6 r
( r7 k4 D/ j; k" T0 a7 m+ z; {, H, d* X0 A
, k4 p/ g* T9 d7 x6 |& _% c ~
& B: e4 y$ @) u: A- A- F. }& U" i% i! J3 J7 M
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。 O# c G+ C1 N1 [6 ^
$ N+ \! x1 K* X
3 T$ k& M) u( CArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。$ W, \% C6 D2 _7 C: `- Y
" L; i0 j+ ]# h5 |4 a9 y- `. {/ C$ K% { l/ A6 O7 C; r

( g3 F6 h: K1 x
. r5 n- U! Y: e9 G, {) x
4 O6 W/ r4 l! u X: N此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
! R! c' D, S: \- @# ?( s; W) L8 T# K5 c+ l# m+ n
# x: f! l4 q* }' Y1 F6 Q( CMali G57 GPU:为主流市场带来智能与沉浸式体验
& d3 M& D3 |$ E$ g3 f
4 W# Q3 i) ^" m' @ w7 E0 ]# e6 j2 A* C9 M: B
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)( J' x" F) Y. p/ s- R. [6 a1 t
$ |4 X9 e8 n; M* }! S5 ]. }( p6 h
5 N! Z* f: _- H, ~
/ h% H4 H: u e) A8 U. ]& U3 u* W7 ~5 g1 H6 T
4 i1 t! v+ Y4 p9 p% N# w# k( g据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。. ^; k, |5 h8 e
, X$ m0 F2 C b: ~2 E- ?7 q! N3 E! }& f' h( G
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
2 A" `& [( {7 I6 B* {3 m& @6 Q) a* D) j5 E0 b: H
, p0 ^+ q' b) N9 _$ U
Mali-D37:Arm单位面积效率最高的DPU+ D9 r1 W o% s1 r0 A
( d& g9 g( x9 A( ~$ l! ~" |3 a& G
, v5 _( ?" G' Q# _
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
) }& Y( X/ R8 J0 K& e& j- @7 K. D, g y
6 @) ^9 C7 u6 v. ?. G% i / x2 A, G2 J( u; g3 s" I! t
5 g5 \7 d p6 s3 s$ p: E
( `: g' G1 x4 h# L7 _/ F据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。7 N: _; b) ~( x7 ~0 X i
1 Q2 M1 u$ W- ?0 @& d0 {7 r, _2 `) k" t& Y0 V- Z7 w$ u9 C% o& b
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。$ c" U2 a' f, a
) G, r$ p# H( U0 r5 t: ^4 \1 h7 s$ j R
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。* \$ |) x& d2 ~( ]! y% J# P
) h/ {( ?, ^6 l, {, C. g. i
" a8 f* M4 a/ a% u! v+ t7 @3 XArm的通用型NPU能否获得成功?
7 j9 k. i$ E1 [5 v1 [3 D7 s! d; m3 a) }6 @" z0 }
. _! s- a) |: t) i3 x6 n
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
' X" U- [' u/ w( E* S3 O8 C
4 K* S6 z/ X5 S. ~
/ O2 [. i( f9 j( Y8 g对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。6 M3 `5 n6 F Y! {1 R9 \4 x
0 r* i) I7 r8 L& ^# e8 C8 n! P* e; w i! t
3 z& r2 I. R+ n) w- F
- A; e6 S+ \. ^; s/ w, b- t3 x
) k3 Y- B0 h4 o
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
' I: |" q: d1 t# F1 h" [2 H* d" o6 m7 w
6 K. o2 |$ W B" v# |5 M
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。' `. u7 \" p ~9 b2 P
: k, f. r4 N6 ?4 f; Q9 O: O f
r$ H/ F4 [4 X. k另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
' C- N$ p- H& }- L2 s7 N `7 ^7 d& q S4 e" j' ~: H2 p
6 d' x q! v( ]+ z' F
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
- O$ \& j8 B+ l
, [' j% k0 M% V, d5 y& ~7 j0 g6 _9 f9 J
" s/ ^# R. A: U' L0 _! I; R
" W; |( n' P( v9 P4 m
; z! p+ d2 ^1 H1 ~/ t/ y, l5 T值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。" T! `2 F. ~3 u2 D! w- W8 q
# T; w& V1 m. M! B. f5 m5 R& ~- L0 T; L. L1 J
编辑:芯智讯-浪客剑
. o' O: B9 W) w6 ]- _8 j1 C( K往期精彩文章0 W2 o# j+ K4 ?( u6 S3 K( z
VR市场迎来第二春:5G+VR云化将成最大推力!
; s D0 V, z; }
% o& h% g2 y' f9 k# x2019生物识别论坛成功落幕:这十大看点不容错过!
! W$ N7 t' e1 w6 h [" _3 U) w. c阿里平头哥正式开源RISC-V架构MCU芯片平台" c3 j; r& f4 J+ A& p" P7 o+ K6 P
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?0 M& i. N: V: R7 H) x
$ j4 J2 g' x" e+ o$ u8 Y( C展锐再推4G功能机芯片虎贲T117,意义何在?
! x5 {2 m9 C' u( E) D5 c; _8 a* o3 O
历史首次!华为海思4G芯片Balong 711对外销售!
$ ]. Y" o. u; O7 e" u5 j
% v- p4 f5 ]' a5 c: O不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
1 w$ Z9 y$ r" u5 l, w I% x0 h' V
# m8 V# H! R: I( r* }! P0 r巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!( @: j) u0 S( z1 s
. \' s4 y5 y% b4 N可穿戴巨头Fitbit宣布撤出中国!8 H/ [! Q5 I' Q7 ^9 m
; Q" f. H0 l; ~) O8 |' i
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询, Y- \% P, T2 v+ F2 D1 ?9 L
3 X1 }9 n2 k& W6 {禁令之下,安防巨头海康与大华的应对之策!# J! c- O2 E N9 e
) G% n# p4 v' v% `2 g8 p; r
为应对RISC-V挑战?Arm CPU引入自定义指令功能!, C, }, W5 F: X& V* o
行业交流、合作请加微信:icsmart01
5 k' I. a6 o. B芯智讯官方交流群:221807116 3 q. G6 f5 ^/ R& A
6 ?' `0 e N- p) a q( ?! o
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
5 A( n. O0 m( {8 W8 k5 ]. f/ @, W免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|