
) Q6 ? ]5 e a$ b7 N
% a* k' u# N. n6 h
8 d. p n9 ~4 ]* j6 \: T2 B10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
, ?" ?+ O2 h2 p
# Z% L+ O; v6 L f( M6 C& z0 `+ I9 _: M% x% z4 F4 A: [8 d
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!* M. l3 V$ @5 |
5 J- K4 t1 h/ X0 f
: }6 W5 ^8 I. D: C今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
* @9 B, y! O; Y- ?; A) o3 }$ K$ ^, \/ ^
* a' I) c# s+ P p10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
( f, L2 @! \' F
' I! b4 R0 X* l- B& j1 i2 ^! c* |5 u6 S( g' w3 q3 p
+ |) v# u- H5 v% @
; {0 ^- ^* e# `: o
" j' s; u8 z2 U j0 O4 C* N+ K此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
, V; n5 O6 Z) ]4 j: l
( Q3 L& q3 l& X8 C8 R
4 x8 Z1 T( L, U- j吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。, ~ b$ k/ [8 P( M
* b7 o8 B+ ?0 N* s
i' q/ w' R3 f! c. A加码AI计算,Arm发布Ethos系列NPU IP: K! Z! A0 i* T( y1 y# }# U& [
& v+ ]7 i" r1 W! E' o1 h. K/ E
5 y3 X9 `- ?! C
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
+ }1 Z, i+ J+ n* G+ G2 s7 c: A+ ^6 ]. \
3 R: e. x( i1 U) j) K. w6 ?
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。6 \' t7 `9 M* J; o: c ?. F
, a$ ~' \2 B! q) {
% K9 A9 j- ^6 f$ t; ]但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。2 U$ Q r4 H- }9 H. }' p
4 _6 E( S! u, G6 u
* w# @) C2 e1 Y, u! b6 ~0 p' F4 _
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。 ~( a" R% W3 |: X' G% p, w
( e/ s3 ?. N1 B. v% L$ a9 M5 @( B
8 U& _8 z* e; v0 M# s1 w- S9 X9 x/ R9 m
0 r6 G1 I' \$ v4 @8 `$ g% t
8 `$ [$ p2 p8 q: D' u
6 d% M+ Z8 l l" h' z7 Y% b 0 p! t4 S- D0 K: D5 \: C1 m
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。2 C4 R, C" Y$ r/ a0 u6 [% ?, g
" }. y! @6 S ]1 M5 m& ?7 w- s- b4 h2 P3 O8 n8 Y2 M/ X/ j
2 d2 Z6 s1 D+ R1 Z

9 a' Z. n9 |% s O6 ^
3 [9 R# j b3 r, \# p5 j! B6 F3 \" V, k, y3 N# Z
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
2 p7 O6 u7 C1 m+ H' B9 d( G
. p$ |0 N7 u7 O3 m& M根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
: T1 a3 v: L6 o4 m0 z) g$ S2 T R
; y4 [& o7 ]6 ?+ r) i, j
" o. P% `. `2 v+ Y; {
( c7 _: F; u2 b) Y/ q1 I在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
; F- R6 k0 Q$ J& c5 ^9 e
' s1 o7 u: o/ z$ d S% n
' ?4 G8 r7 ~1 J. M. X' }在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
4 z3 D( P0 S1 V) N3 h& U+ Z" a# W4 r
0 Q: l0 V! [0 @5 x$ g. l% C) f9 F S
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。- ^$ p* J Y2 S8 ?% R1 A1 i
# v1 [# S) ^+ T3 t! n8 `
1 A/ E8 t% i; D; ^/ [1 g& q需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。% K5 q) Q6 s# A! G
. f- |) [; H$ C6 `7 n! L8 b+ O7 T4 a& ?/ K$ V
Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。/ E: g+ d1 {: k3 V
- j, ]- a1 [2 l: [' Q
3 N9 g8 Y4 E4 }* {1 r' B
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
9 O X% @2 L f$ \3 j
4 c! i5 j% W; {/ N( @
, o- E& S9 X) F- QArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。& T; e) P9 o2 _4 j/ w
, K9 ~- K2 e- U: h4 K5 d
1 _: c0 ?. b' D8 {. ]4 t据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。8 l D: o: V/ M+ U' u
9 _/ N- [$ c0 v+ l+ S4 I' M# @' o4 @# m! {! u: c3 R( N2 h( E$ T
开源的AI开发框架Arm NN. Z0 D. o5 @/ _
' \9 W+ ?. l! k: l% s" X) T0 O
/ }$ [( {) K2 J) }7 \+ s) q
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
|! |3 B- U$ ^. |0 `- w0 [$ F& f0 H' w0 v2 p, I, s
4 ]" }" ~# u% u: a e; ]' [3 V! K
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。) ~9 t5 u# c. r/ @+ `5 \3 i0 H
( i5 m2 J) I+ m) l+ q0 i" G! ]' [8 @

+ A& c* y" ^, z3 S% K3 i, A! |+ {: T) v
: N* T- p3 }5 S1 [
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。8 q% n9 J( Q9 k
, M" X _; f8 B9 q: l' E* D9 J
5 m( g- ^5 l- H, x- L9 TArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。) ]" d* c4 ? W" I* r/ h; {5 Q
8 `2 B9 r7 y# y8 ]& Q. O
5 u8 Q! e, U, I) b( [- b K ( x; I& x# ]5 b0 m( @ ~5 }" w
8 W$ G) g3 r7 O7 J- ], m4 J
! b- u R. r6 @9 {/ G4 t7 T/ U7 G1 ~
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。6 p9 A. Z s' t8 {3 Q5 }
2 ^) n# L2 @. C! T6 w- J0 E
. ^" o; `* g7 o* d; TMali G57 GPU:为主流市场带来智能与沉浸式体验+ }# k# D* Q% z$ k8 t; n# {
: [* P: Y6 m; Z& R9 W5 G2 z! W
1 `# W r% c0 Y1 S# N8 k- z今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)) o+ ]. C) y: ^! i" H; I; ~
9 o9 ~+ i# c" X: `4 D/ k
' E& K) v& s( y" g" X1 ^4 ^3 L : c: b. F, @% G
2 ` t6 Y7 a* I5 F C
; E' L2 m; z" c* J+ T$ K据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。/ m# S1 }0 n# D+ C. |
; z! L) D- d g' Q8 b* J& C5 k7 S b# `0 ~: f6 h. b, Y! e
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
2 M6 S! o. L0 l! x c v
. p( Y9 { F# m3 @
4 U% }: ^/ W; d) uMali-D37:Arm单位面积效率最高的DPU0 R4 g: V! w& Y3 X' l
9 ]( E6 Y* o7 g- u& c! O3 v
! d- u! A' c6 r3 O" t- g% U, y/ t在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。% { J3 ?. `/ P
0 o4 Z2 a; e/ B, _) p. M- ^
' ]) C; i6 _, }
% U9 q9 U; ]! A9 n' M
" ^5 y( n* [( c7 }. p
; C# A9 l/ O0 F, O/ m据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
$ _; e- r2 A: T4 `2 \# y
/ k& l" E* J- D# h
4 `' D# Z+ k1 ]+ r0 R3 e6 ]5 d. a, |在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
, Y3 T& E; ?' Q2 v2 @/ R9 [ s2 g' I' J4 C/ u: E8 ]) S( v# S
( i% N' ?( K. @6 g$ Y$ t' [+ Q" HArm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。" ^$ V; o0 W2 C4 W
" s9 H3 b D0 B0 H: q4 q" u" b
) i k G. }# b4 F, z! }9 F6 i
Arm的通用型NPU能否获得成功?* {: T) b" r4 T
^0 m- Q% v( M v' q: ^% Z: D' F
$ _" ^6 t( v+ |3 q2 `1 W从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
; T0 q* w7 A% V: z* d" G5 \# }) [5 i f" l4 p. F: B; R/ p
" _% @" V) o" O对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。1 ] y8 L$ N7 [: v' k
% {& M7 m; a: r) {
8 F/ ?9 U' z6 ^
4 T; L: r' V3 `/ [3 N( O! h
: Q3 J `* i% x1 G( E4 c1 Q& z, l' r: c
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
1 u' Z4 Z7 e! L9 R* J( V1 E
& I5 V+ w" r2 V% k" W% s" e) S( W; |; y1 Y, D% b
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。
; p1 f: c! z, g! ^1 D% c4 E
' A( F# N+ w9 k8 I+ S' b
6 J* U7 [* N: g5 P& k. L9 T5 S另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
9 f8 N( h1 g. i( E8 W5 ^, f
9 q7 x A! Q! |+ o9 E4 c, T, ~& K- f
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
0 |* U) _9 |- m8 H, |
) c1 o* i. u* v: ~4 S V- i/ ^6 j- a* a$ T
* Z9 Z) X) y( J& e7 k& W: ]
0 \" u# b+ `! g. v
3 s! t4 O9 x- I# M, v8 |+ E值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
, \2 i* g/ v' d! @" B+ a# J# k4 Z( x2 ~ n" R
% }. n `& O+ p7 G
编辑:芯智讯-浪客剑& a. G) [0 ~( k4 H0 T0 L
往期精彩文章( b( f! ?. n7 j2 w7 ~: T* U. ~% j
VR市场迎来第二春:5G+VR云化将成最大推力!
- E, x9 ~; b6 y1 X2 p: s6 h9 k# a+ \" I% p+ }# d& C5 Y$ j8 ]5 n
2019生物识别论坛成功落幕:这十大看点不容错过!
- j6 \* v& _2 x' E; [6 x阿里平头哥正式开源RISC-V架构MCU芯片平台
. Z& y" E4 `/ K首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
; u' H& f& T5 E, m( G6 h# C5 j" _+ v/ h
展锐再推4G功能机芯片虎贲T117,意义何在?
2 c; u6 e8 [+ I
+ I- {$ @6 Y+ i9 Y* _$ R8 e历史首次!华为海思4G芯片Balong 711对外销售!1 `) x1 a, e* O) e q" I/ p1 ?
. m( M" G: c: T+ L7 c& l1 @1 [不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
6 q! B# A1 L2 q6 Z& `
1 s4 D9 q: m0 r% m7 ~巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
6 _* w7 q/ U! d( L/ y7 B$ `% c! W! c: n! F W
可穿戴巨头Fitbit宣布撤出中国!& H/ u6 |; n2 ?. R, }
( f! C8 d1 S `收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询; F& U/ A0 _4 P# G9 C
: S, y, M' e8 }; K. H# o# c
禁令之下,安防巨头海康与大华的应对之策!( {% w8 t8 a7 C* Y
# D; L' h3 x3 s; c
为应对RISC-V挑战?Arm CPU引入自定义指令功能!
a' ]2 i* s+ k% s" L6 {, f) P行业交流、合作请加微信:icsmart01
4 ]# ?! [1 e; M0 h, B! L# g芯智讯官方交流群:221807116 ) p$ S4 z5 u: C6 o6 x" f
Q* _. q- A) w% V) M% y6 Z
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=19 o. @: O* y1 x2 i) r. M7 e
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |