|

" G# ^$ w2 I6 L, F+ A7 @* s& ]) H2 Z2 }9 b/ R4 x& y
" z; b% N9 M! h9 n3 X4 Q- ^2 J+ f& ]10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。; g9 Y i/ w2 {/ k0 Z3 }
$ f' {$ ] U% ^3 o& ]3 _$ U
# v+ }8 `, c7 `5 ]/ }* \* U- |4 [
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
2 ~4 X/ p5 p v6 v- k$ o5 e
( ^! I3 m) Q& C" f5 Y1 T* z" b& W$ C9 ]5 F3 l" `0 ]6 I) B$ n1 @3 P- L+ T0 H
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!" W2 S3 L2 S) y( l2 a7 G) G
1 ?9 l2 r- U# W5 j
" r/ A* H! y- t
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
8 { z, N* J0 h# k2 p( {8 Y
% Z; _" C& H T3 Q; E" I) I) D
4 o+ p7 T& {+ }9 @: D* t9 T {1 |
# C' l% E q2 j( e$ b
% @, y2 @( J- q' R/ h! H9 c g3 i$ G! A% i$ Z
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。2 c, ]7 e: I4 k+ d8 M
4 e3 { C; M, o' _/ o# Z1 ?" s( e6 @9 ^4 r6 s! s0 _5 r% e w; u0 \8 m
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
: S+ \/ d. T! W2 J& l
3 Y. C4 @* }& P5 Y
+ ^+ k$ L( Y- U加码AI计算,Arm发布Ethos系列NPU IP
# N0 H* @! B( S1 G" Z& r/ s* J/ K- y1 C: {
4 D; J8 g4 T8 F' y# K0 p9 ?
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。: P% [9 [' w' [2 I; X& z- T2 z
& F9 i/ s% k0 p0 L8 S( a2 L) S( Z6 b _/ y& J
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。9 @, l6 K) H' a- L! d
6 o) e0 H4 h& N( Z0 f4 |
8 v5 I1 k0 _( X! X, L
但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
$ n( ]$ y( S y) c
: S$ n4 J; Z: f9 }- n' {! H8 L8 s2 D0 {& z) A
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
! `7 B9 K# i8 h9 G7 f) j3 \
. E; w& ^7 O+ `( I& h$ e# V
& }7 ~) [! [0 M: q. |
7 E, X! G3 T6 [; ]4 ~. `. ^: C% C" l/ P5 h9 Y P
2 P0 u2 o! J) e* h3 ?
: A* a' h4 ?. |; J6 H $ |7 p1 u2 Q& i* ^( F
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。- v0 n1 ~7 G+ M" _9 O
% ^! J* |6 y; i2 D, @7 U' q" @0 x
$ H5 e b) h5 y

8 o1 R. R, B t l' `* ]! p
2 {. W, O4 W( @. h6 g6 R0 J$ l5 e1 @9 q/ r( C
* K# r% M# Q! Z+ ], ~' k2 s
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
K7 D# ?' P+ c4 ^* w
$ T/ u P6 t2 {8 Q9 I! ~根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。, x6 S! N4 Q A9 S, }
" t; A- r) S$ ?% T3 u, K
9 [: [! E' u% a' E: J6 e2 ?) R8 q1 r- O+ b" j
在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。, s0 `0 v$ j j8 n. `% o- n
6 L4 I% F5 M& x1 S; E
( P; o1 h4 l6 U8 t在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。
7 ]7 t! p* P2 u' i7 b- G* g, h4 s" s, d" J1 D9 V! Y
7 i" D5 G! L2 i( V
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
9 E n4 b; s5 p% N1 d& g
/ u7 u0 |, N6 K+ m# h9 H8 \! w" q9 m7 F6 ]3 M
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
- x' a9 @, N& ~1 Y% e' t: d8 ~. G0 b% @9 a8 X" [
8 ^1 t3 f6 V' o( W4 M/ @Arm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。6 s* Z2 z7 U/ V) a. J
# ]2 L1 E" l- Z5 r/ z4 s, r" V( t9 f
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
7 ]% i F& M% }( @
3 h1 s2 o/ j/ G. M/ I# n
. p: o. e( d% e/ b+ nArm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。2 C" p! S/ o1 Z$ S |
/ q4 k7 Y& T9 k! l B$ @" g/ F! W% E \
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
, |7 W' V' R, F' _. ]) I7 ]0 {5 O6 I/ X* a3 w
; B1 l( @: z( L, l) k开源的AI开发框架Arm NN
& ?" U0 L, t% ]: @9 Z7 U5 `5 N
/ _% C* |, V: l, k5 X- t
0 W6 o, X8 ]0 L' j我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。6 L( C; T( \/ n/ _
: J' C# s& G- ~- ~" l0 t7 Y' E5 M% s
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。
- k# a( }$ X& W* s" Y" m2 X- C
1 N9 f1 p5 C( U# Z ( u! A3 [/ W' K/ ^" V
' p T: t, @- K8 Y0 s0 Y% l
) N4 M5 m ~# {! y/ r据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
# D/ V5 K; Y# u% v m. J9 _9 I& x3 f' l2 g* W# H0 L) d
" D- `% D ^8 z, [7 ]. _Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
. q4 X* I( l5 n! f, E4 l) f5 D/ ]4 l H% M) N s" \
' u+ y9 Q' a) T# i0 Y G# k& u* z

$ G/ B& z4 W, g
$ _6 f2 X2 a' b- ~& z- l5 L: Y$ J
7 j% I1 B" r, g, @- w* @5 u& t此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。0 x$ ^& z1 P3 M' N2 l
, W: v" C y1 ?+ Y! |# B
4 @ G" m' U7 B0 u4 W, ` g' C
Mali G57 GPU:为主流市场带来智能与沉浸式体验1 n$ J7 D) P% A* a& T* \
; o& _' E( H0 c( i4 P1 H9 u' e( f
* Y$ g* L! o; v% k) c+ [& F0 b
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
% h# P. |2 k% z
R. f8 d S* _2 {3 l! X$ A9 o p8 c- Y( F, e
, c( Q+ m: D7 I; B1 _; ] {
% A3 }5 E/ K/ E, @9 l/ r# t
0 b4 s! O3 U* l$ H6 T. I/ k1 ]据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。. R! ^0 {0 ?& d3 i& K
4 { U$ K2 D$ I4 ]% S& T8 ~* U
4 i; R) K# d& w' K6 b* v
Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
- V) X4 S2 t* |# K- L' J1 P
. b q' R" m6 c: S' a/ I S/ R" Z- A E2 M
Mali-D37:Arm单位面积效率最高的DPU" g+ C; u6 W: a! u8 E2 \! t
9 m( n" p. G2 F1 [
3 V3 q2 l+ I ^; n4 |0 G0 e在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
6 f6 j! q, w* Q( I2 ?9 O# e0 }6 o0 O8 _
+ x: D0 L4 T& Z2 q4 L

/ ]- [" G5 o7 u5 B0 a( ^1 Z; G& ~# t; a
6 c+ a1 h3 A) s9 B1 K据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
2 |5 j) ]- {7 }1 M+ T$ s/ S& ~- `, b1 u
6 r/ P* J8 R8 T; Q6 e+ r& R在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
. T' _7 b! K; A$ d+ h6 n, q9 z" i! |2 L" V2 L; d2 W, B1 f8 Z7 ~
' T% [: v/ R: v
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
`. Z) v: g* e/ C
% C0 [8 T4 _: D" k* P+ [; ^9 W. I! K9 S
Arm的通用型NPU能否获得成功?$ ^. e+ ^6 e& t$ b
\9 a5 |. s, Q: u) y
1 }8 g2 ^. m f p3 v+ v/ l从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?9 c- |8 [/ X5 j, T9 Z9 w
8 v8 y0 b, H" R2 O% n; v; R( K
0 x7 l) h3 j# b) w) {5 K对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。, c1 t+ T. p* x Q, e
' D& O9 r, e- A) ~ E
. {/ l2 t# }6 M
s9 y& k9 A/ U! n( u+ d
8 L9 k: T4 k: {0 c4 \$ [
. o l( L. j/ u" `在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。! U( z, x" o- J
3 m7 z: j3 ?: F* |8 a0 \: ~
/ H% n* R5 J# f! N# o/ A) I) ~3 V另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。) i0 H9 G7 e1 O- v5 x
% u- z- }0 Z% v. E1 R9 j
" n' ^8 R- g4 K
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。9 W. h6 }) B/ B' n" K
6 Y F. }! D m- @6 y1 v7 o" `& [( u3 x4 v d s
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
3 w; w% a3 E- s6 d5 @1 J
) j: Y3 d7 q) c5 u& r% M% t' S* n8 w3 F& H* N) O% K1 M
8 i+ O# `5 i1 K
& P3 [* ~7 r, F+ s4 J# Y2 h
X0 o$ _8 ?' r% M- G6 u+ s" F% }2 W值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
7 h$ G+ i# f$ {2 I4 D) T" U1 }
) z/ S& y* a% c9 s- _) M4 a4 i. D( ] D; k, c
编辑:芯智讯-浪客剑
. X' b9 ^" b! m5 P往期精彩文章, I( Q/ I/ Q$ U+ e0 y) P
VR市场迎来第二春:5G+VR云化将成最大推力!
" y, ^0 ^4 j* u3 e4 a
1 J1 E( P w0 y- q6 r# f' M5 S5 ^2019生物识别论坛成功落幕:这十大看点不容错过!
0 z; h1 L6 {) A: T5 y4 e阿里平头哥正式开源RISC-V架构MCU芯片平台% v9 N0 e+ } U' ]2 e
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?
, |5 _3 L, b! g: y2 I7 i/ G+ C# n4 B, ~7 A( f% J
展锐再推4G功能机芯片虎贲T117,意义何在?2 {- Z5 I6 ?; L: A
g0 l4 l Y6 F6 I$ I4 z. A& ?
历史首次!华为海思4G芯片Balong 711对外销售!
" U2 h7 H' b: |( H+ d. J- T. U j! l/ D
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!6 u: [8 C# i$ c% E0 O
% X; U% l3 _' {0 p" l巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!
( A. k3 y5 s7 R5 D; J
. A' m7 D4 H# y9 r' q可穿戴巨头Fitbit宣布撤出中国!
/ L% Q: U1 y: u5 i% R' Z" O6 }+ m" }
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询8 X; ^! i1 N4 ~' ` ^; j4 O
4 X7 l& b2 o( D# S9 K# [& p' u禁令之下,安防巨头海康与大华的应对之策!/ q9 d1 N3 x- c) c' A7 W: [
0 B: o' [2 }/ `3 e/ Z9 T: h6 z, l( o
为应对RISC-V挑战?Arm CPU引入自定义指令功能!0 m* Y @ K D$ }
行业交流、合作请加微信:icsmart01
5 H- j* H- c$ s& j) N芯智讯官方交流群:221807116 - ?2 s0 j7 I3 F- y+ C( h' ?
1 Y; ]5 O; G. \! N- ^+ {
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
5 e% e9 K1 f7 Y- h" s免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|