1 p. o, O" i, F5 q1 J! o; X8 J5 `
2 g0 q: m4 m0 S2 ~
5 D: H$ t: T, ~0 t5 a10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。9 |6 }2 [! U/ V* d, Q8 k; \ e* x9 x4 i
$ ~1 P9 @! r& e
' i6 c6 v3 I! X0 D6 C& xARMv8及后续架构将不受限制的继续支持中国合作伙伴!" w3 i, G# M' |& p/ s9 F
4 O/ i8 @4 c8 f" `7 i# @5 J
7 w- H$ ]8 t6 ~# D0 G4 Z( J4 J6 n今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
6 J! a% u- I- s8 n
- `# c- T8 {6 ]+ K" ^" U: r$ M
% s4 D! P4 a0 x. i10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
3 m' ^3 \2 S( b) Q8 a; g0 {6 r5 h# U* e y' w- U
5 e& o/ @6 X) a- a 9 T% ~3 m- A9 H7 Q1 i7 N% X2 E
6 j7 I+ \2 W. M1 b: K1 R, z) d# {
& w0 a) f# ~: _' d2 C# ^* t此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。1 n m5 D4 u8 i7 [$ p; t
6 m. }1 p; F, F5 P7 I+ S) W
, ^1 o! p- J6 g* w吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
7 K! Z5 E* u3 [9 s: }+ t) n( G* g8 I, S) D# G
/ Y' k$ T3 Z P0 j2 q
加码AI计算,Arm发布Ethos系列NPU IP9 m( e- a% {- s, R2 U
4 b& B6 F' z$ ^" {& j8 H' `! F
8 T5 p2 p5 e& L( k* W7 y根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
/ Y& |1 Y$ u6 Z- z \) t& \" w9 k( }* H
0 s6 r1 K9 }) r! d
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。, _; ?( K& _+ N, M7 N ~
$ y/ ]; U4 }2 c- A4 [& O) ~
- x7 U6 `& a1 P, `6 l+ i& D但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。4 d( F( B! R, q2 L' J/ q
/ d4 q8 ?* g, |& K' g: S: j$ N6 T" t# ?- T
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
8 Y& a: D7 p( Y) `/ d; w' h/ E% F) J
0 Z6 c7 M2 \8 ]+ |# e) O
( C- ]# u3 I! `' v! l* E
% s3 `2 Q4 G- a7 I$ a
& p3 s( f% ~3 l2 k7 O
4 E: z* |9 |$ Q p7 p8 |6 z
# q# c. r: i6 e- H$ `: _: P7 A3 n今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。2 S) g" f: ?) T
9 [. a7 U9 i3 n# g E
" Q) A& n& g1 _# F$ `
) `! m- X3 ~8 m, ^. y
4 s6 {. K1 \! O! z& Q: [
2 c! ^% G4 S! G+ e0 ?! x7 i" }9 G$ ]
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
- h6 \; j5 I% { # x; Y5 ? F' S# {4 E& k
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
1 Z# }: J) ~$ D2 e0 {3 o) G
9 |( `. b1 e3 J+ `! ~" Z. c( h, q+ A
+ U0 Q9 |3 r6 [在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。: h# K1 B7 C0 K2 t! I
! E5 }3 u& P& P9 T9 z: K0 @) r
6 h( h- f9 ]5 c6 p
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。) W' E, Q j7 M# q9 c
7 W: }: X9 u) m$ I
! A7 ]6 D# k1 \$ ^/ W/ s
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。! L, Z6 v& U3 i1 Q
1 e/ D& y" u! c j1 ]) I* T
2 V; W$ q5 c2 O% t- |3 T3 u. q: Y
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。9 M+ y( W. {; {7 ~
6 r4 u, N4 u$ U
, F5 z% ~, [2 B" z4 W' [0 D4 ~Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
8 I# z3 C' ]* s9 J+ p9 a- N* z1 Q v7 v) ~ S
9 z' X: l# ^/ L6 t: ~" Z7 m
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
% t+ k' M9 w2 C9 h4 R0 A
x8 z: U( ~9 S( Z* S' H R- e( t* O/ A8 v. Q
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。, i% i; d) ~ J: m: b+ J
# p) W! l% P2 J- [0 s4 v
: m+ N, x( d2 I2 W J2 J据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
% H9 E; h4 p# v, K8 c! b! H# K" H
9 ?5 P" r7 |) S
3 l, w$ c7 r* z开源的AI开发框架Arm NN
- s2 w# ~) v2 J9 G8 B; L, O/ J& D0 l
1 G' c/ L* {2 w# B5 m
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。* [) K. G9 Y, r
A$ ]& I- Q8 |+ T: { I, u3 P8 m- L0 A2 B2 Y
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。3 X1 b+ o- c, u% E
3 F6 m. R+ F3 v! J: h
; q+ t) f% t) g# B$ c : F& u" e, }8 O8 c. z- Y0 T, Z* j
" \% t4 S6 t# ?/ E' J: a: Y' p
! M* s6 e q) T. P" P' M, T, y
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。0 q+ b. `( u2 g; Y" o
* t w. t6 e+ l9 e% J; r7 s- M
8 [- f( {' e5 L+ IArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
| \9 d/ [0 X/ e; P) M" {+ P; E4 D
# z: {5 ^ m5 t" c* T1 [+ h' y) z . k) d" @; B8 ?0 a
- C" b, P M& Z
6 r- k0 {$ a9 \. b L: i此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
& @0 ~$ Y$ f7 a) s0 M2 y! v
' z& {, @1 b- p) z, y: `7 K" Y1 i' s* w
Mali G57 GPU:为主流市场带来智能与沉浸式体验
. `: ~ V7 T& g" c" Y6 _+ `9 ]! Y/ M/ I- l
6 f# E; ~8 e, W+ {今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)+ }# e( t; f4 t3 H: S9 d
6 }" E- q$ n. |- q0 @
D2 \ C% T& U }4 i6 i% A4 I 7 c. z/ W/ z* Z# a( b1 v: e
& c2 S6 @; y5 Y1 y" C: K
- i9 c7 R+ R+ w* E; t据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
9 _3 n$ h" [0 D' [! C" c" r/ p M/ m( u+ [: b) ?
8 b/ j7 X% Z/ {6 FArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。- S$ C5 O! n) G5 {! j
) K8 t; h( i |0 h& p& p* g
, Q$ y4 i/ k* E7 ^- lMali-D37:Arm单位面积效率最高的DPU
3 ]6 ^4 M3 `' K/ c, r: l
3 r% {+ [$ K F- P! [6 {% q. ^" b; H( u7 _9 s
在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
; o# W6 ~/ [( {0 V
1 i" {- s9 k, }! ?1 q% W/ [. M
& n/ M0 {8 X5 ^; o8 b! C 1 a. x: p& \5 P. M# F+ @$ i
" ?1 j9 @" c% u, ?+ c
! K/ _* e! V; T) S) E! {. K
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。; W/ C( W7 F: l! D, u2 m) C
0 @3 m( ^6 _' }. E" _! N
6 A# h% k; J( K L' s
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。7 E* V) m L! F! q
7 u0 v3 f/ }" V( G4 G7 n5 _$ C7 P8 J* F7 y) ~; ?; h
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
$ ^' B6 e% U/ O3 W1 M1 o& V7 [8 A2 z( I
- l! A4 l! z& V6 I4 tArm的通用型NPU能否获得成功?
# t' \0 F( w" |+ l2 c; e2 D9 w- L: g) x5 X
0 ?0 C8 ~' ?, R/ K [5 n l1 x9 w从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?0 A' u4 k+ `3 b0 |% a) ]
& W0 b; E) V2 n! z, d- t7 j
: j# y( }0 @4 I& G$ F4 p3 c2 W
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
* j" O8 t9 w* e7 n+ @: P+ a0 @; y1 T) q# z" T3 k
" r1 J1 C* L3 y6 Z. M3 ]
( k7 ?, @: @$ u$ Q; Z3 C0 W
6 x2 }/ Z+ P( ?- @. e, T2 l+ ~! M" H6 X1 q& O
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。$ g" |& ?2 C( @# C) [* Q" F# |+ s
+ d, }9 M0 B) `, k0 r6 g+ a$ v K2 z2 d2 T' k A
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
5 s1 o; n( x, Y# F- x& H, }- T
0 i4 Q# v" e3 c, x* J' z另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。3 f5 Q3 v+ S8 E) q2 T8 F
" C1 n1 @/ g0 o$ A9 S3 z, {
3 j- Y! U2 L- K( u最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。4 @9 ?4 |2 L! i2 B" U2 H, _: Z
9 M2 i+ c4 f0 A+ @
/ ]8 B1 P" O V8 v! S
3 @9 n- B8 n9 l6 O2 b) g. d
3 m- l$ k0 R% o
, {# {4 ^. m0 S9 `值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
" M* t1 b" w0 J `6 D
! | [8 b% r' F1 n! b
4 Q9 W$ u# |% _( i9 Y编辑:芯智讯-浪客剑6 _& {0 b+ Z3 ?
往期精彩文章
) q) W. O+ A: Y- G" q& rVR市场迎来第二春:5G+VR云化将成最大推力!: l4 r- ]- o7 z$ E$ C: D! j
8 K& D) [. V. O4 a
2019生物识别论坛成功落幕:这十大看点不容错过!% Q. f# b# B/ d9 u' S) \# v
阿里平头哥正式开源RISC-V架构MCU芯片平台2 y) K% O+ L% k8 V1 \! y- Q2 I
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?# e! F) _9 w* V9 W. u* N' S0 e
0 A: i. x9 G. ]+ P! R7 e
展锐再推4G功能机芯片虎贲T117,意义何在?
% M- O" T/ F+ N- a4 ~$ ]4 H) H3 S! T. {, z8 q) G0 x. n. Y
历史首次!华为海思4G芯片Balong 711对外销售!
" c" ?$ ?0 K5 e( u# w$ c: g, O6 h* Q' a5 a2 k! |# Y, X! W
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!) x, |/ i( r9 {% V I
# Y8 q' P4 L$ h$ h+ Z巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
1 P9 Q5 c+ m) u' {, j3 n0 I0 [4 P* w
' s( {& t$ ~4 {" U% z( w: z/ b! v可穿戴巨头Fitbit宣布撤出中国!
; p8 ?; I4 p8 P% a' {. E$ y2 i' P, w) ?0 s; v" h) y
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询. U o+ z2 s. c5 q. T" ^
% G+ M# V( O+ y8 x2 o6 j9 P( D9 Z禁令之下,安防巨头海康与大华的应对之策!, Y6 w5 @* o p" p
- C( `3 l) o2 O为应对RISC-V挑战?Arm CPU引入自定义指令功能!
$ G x3 ], {+ r0 B行业交流、合作请加微信:icsmart01! ^, ]% p* p- I8 ^8 I4 ^
芯智讯官方交流群:221807116 - E% q4 `6 V# }
: N6 Z0 U* P7 [$ H5 X来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=17 @1 }6 Q- E: X# f4 {. D
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |