|
% o9 e: n" i3 T! w1 }. [! \! n, A% c( M& _
' k6 v+ t: n/ H
1 \: V& ?. i! _+ n7 C0 W
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
2 O' q; ~- n7 w4 L$ P" n+ U+ E U3 @8 k6 r
8 ? `2 w/ R0 K& C! B4 \1 @ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
$ g1 a- V) Y* X# ~( J- w- J0 T8 f R8 q* U
9 E& B4 ]: C" c! I1 Y& L- c* @7 L
今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!- H! E" o- R/ L; j
, y' L1 _( l4 g d3 \. k$ S; ?. V4 z5 [% I" R% c5 L
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
- r+ @# D! _+ T+ R4 K& ^7 a/ U, n) n/ J! l6 T) D9 J) G B$ e
- X8 h) c# J5 J2 W! b
! b! ]( u$ _4 a7 d& v0 I) `
2 s7 k0 c$ }( Y. ^: a% S/ f; D" [5 X$ \ V' C
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。
3 z& c6 ^' |* e; K# Z9 R- B- h' q$ M0 `0 [0 _; V
" T; f9 T+ O) m. W吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。( \7 l- l% L& z2 e& c, s
& `* {8 ?* G' p0 w1 P) r5 T! {/ _' m1 m4 {% X f+ s0 |2 {# d$ Z
加码AI计算,Arm发布Ethos系列NPU IP
1 B! L! [9 V) Y ]+ J; W- z' {; Q: g( ^( O
5 Y1 p( o& n. [ J根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。2 n- ]) U" a3 s5 D
0 X5 Q+ f1 @3 v$ ?& T% N% w. s; w @0 d9 w! b: K- T
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。/ s# M1 `- u; \; [2 [; E
- z% f) `4 ~0 b6 G
$ g8 M2 c# M+ j3 |但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
4 d) s. H- v) }! j- O/ l
$ k- d! m1 Z' E$ k) W) ?% I# B6 ^( H& U; L6 }( l; k! A
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。$ D% Q g" @0 N* j4 q7 `/ l
' |$ [- c7 l/ t! {2 } t$ v( C$ a% [4 Q" V. `. \. K
$ e) J9 V; {! ], @; J# @2 y' T3 r1 N/ p" Q. r" a( x! {3 _
- M- A& m( [( T' b' s
0 b* y3 _7 H7 v- T4 H ! t) ~5 X6 M' a) v! H+ I
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。" j; w" }. ?5 J" Z. a2 S% F; E
+ J$ ~7 c% k" i) N2 p- t+ l( r- D3 B4 G; e& a; H
- ?: J E* K2 `) Q' v1 C

+ w! S5 }: ]+ l0 ^# Z$ |1 D5 Y+ L, i' D( G; A( W6 q3 k
& {( N! {6 C* V+ C4 K
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
% L7 W0 m) R! b% b8 y& L
, ]! m5 ^# _+ Y7 h; z: N8 H! A根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。
7 f$ k1 B7 Y" u* i% n# I& R
, w6 D/ t) D2 r4 |5 J: @. ?6 f! ~9 ]1 [9 G3 b
5 N: g/ m9 h) w在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。% A9 a+ v) d3 f; N' O
1 J) i) b! U# S" U) d* S7 ]0 f
# x) Q8 l1 ~4 b" X' @+ n在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。" \$ B* ^4 N0 w; }4 U" w
/ u6 A' W/ ?9 j) w$ H& }
: Z% G& ~+ f u9 F& |
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。
' d- P9 [2 I) V4 I/ }% |* M- o! z% D# ^# Z" }6 X. H, K) z
* Y `' x- C6 \: {
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。
$ h5 H4 |' q& m! F5 e) b7 g- M+ [; F" F1 s
3 i1 V+ [0 b/ ?8 [: r7 p- W1 ^6 RArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。, e) z- N% H" C* i! L
. [# s, m7 T( W
/ x! [/ X; j& l8 ^. y; M- f
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
$ M1 \/ W/ T2 P) ~8 p7 a7 ~7 z. P, a4 X
+ U [ D" H. I! K! V) \/ [Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。8 Q* P' e: e$ f& K& U/ ^
, g, h" a+ r6 v# g0 U% S
" I) p* \+ m2 e+ E
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。/ m2 T/ U3 J' [. f! k
1 a" L$ x) ]2 E' v" U* I
8 n2 m! i! k" Q7 H开源的AI开发框架Arm NN
4 J3 R$ U- G R% c; @+ X9 f+ N3 K) I, ]0 e" i
; \5 G" v& S& h, `2 \" x/ K5 C1 u我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
3 y7 ^9 {9 k6 I2 N, p/ G7 v. T0 o# g& s
9 w, ?& _/ X; }$ ^2 u, R* E$ u# _
而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。$ E: o& |0 n2 D- ~# c1 n @: Q& R
2 a$ B- r& r2 D0 M
" U3 R! y- n: O8 U7 |2 p, \; | 6 I K7 Y9 ?3 a, E! h
% \" J# b4 \, z8 H/ }8 e+ l: C' S' M1 a; @% [( ^
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。
% ]* S4 s3 Q# @: _) D/ d( x$ n
5 @4 D- N* B: E% ~' G
/ |6 P1 m' w/ n& @1 p8 MArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
9 c% x" P( Q* `* R! y9 y6 z0 K- D0 Z. Q' H7 l. e
" q( v5 l* \: S) V$ ` ( D# {: G9 L$ k) G4 P
9 a% G" a8 t8 ]' {/ i
7 I6 w6 I% J! ? F3 [
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
! _- O% v1 h9 `: @ c; M* M
' {# n3 ]* f% M) Q5 r+ l5 R, `% S) x
Mali G57 GPU:为主流市场带来智能与沉浸式体验' [' [) t% _$ @. q/ {5 q& L
- |: S" C* A) m' t
0 i- ?3 \* v( a9 Q2 ?今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
$ ?/ {8 F$ d* q% `5 f. A" f& S, K' s3 w8 ?0 v, J
; V! R8 G4 u/ D1 b6 d

# g. _$ r4 ?- N! ^ l# c
/ E; O, `3 k. v8 B; t2 ~$ p+ [: K7 {4 a% i- @5 Z7 Z- g3 n$ g5 a2 Y
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。9 G* T( W7 c: t) s/ t) h7 ]( ]9 `
8 X( @, y3 z5 V# R
2 [- }( A) k, r- }Arm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。# v, I( N1 B, P
5 V1 M1 a) n' U- \7 F) Q. y3 P) Q
Mali-D37:Arm单位面积效率最高的DPU2 a+ u5 e- \1 z Z/ a5 L
7 p5 y$ X- l3 l, ?2 o l9 }
! n8 e. o. ]+ K: q7 q W. N o在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。; |$ f. O% G2 }- z5 h
' ]# E& x/ e! s, ^, e+ L
( ^, T, i* U. @& Z( g/ z2 c
8 z2 Q0 X. ~9 D; M* E9 q: F+ C* R$ o: k6 L# ~& |" j
+ m& N" }# {" G# q; W+ c9 Z8 {7 \据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
# x! w4 j0 P: Y- a* [7 i
' b1 x; P9 c7 z% q, [. |: e- C' F& @3 ~5 y; v+ X: e' K
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
. V0 b) C( |; z% I- Q1 x4 R8 |/ R; |9 m$ K; r
- T9 d& ?3 G$ M! y6 A
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
* G& s- l t# L$ V" A L6 P3 C5 O& K
' b6 P+ s% u5 ]- Q& NArm的通用型NPU能否获得成功?
) C9 A n! ^ u; P) E$ d; D) Q* W
: ?% h" V% c: D' y. k& o! W+ {从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?6 H7 R; h/ l" b1 M# i" {2 P
+ ?8 Z4 B9 l0 [, Z& H5 c9 |
1 g/ I; z/ B! f5 p% t对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。0 v$ R9 j8 v6 j+ o3 r, G
5 @; Q* h3 p7 S, {3 b5 S) P. b4 r8 X, K) E: {! p( t
& t/ `% d1 @# z: H0 z
& T' r, |8 \8 w% |) f
$ S9 D2 O. R& d: S* f$ [+ T; X1 _" _在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
/ n/ k" E+ H4 }( w% t* g& v# ` `- n* l. o2 a
! \: F8 K% c9 F$ }0 \: @
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。) k4 O5 M' k; ^5 C! \
* P' m$ G0 s3 J8 w# {' u& @4 ^( V7 z, I( W. p, J+ c4 I3 p4 W
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
9 f5 C! _" k+ L E7 [/ I! u7 `: r" _5 m* ?' y
* a: y& ]% X8 u: b
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。
/ P1 T$ V0 J. |: t, [; x
2 B3 b: F# n1 [! e5 F( Q1 c# y+ C5 E+ W* m' G4 a% ]
* z/ H- b* n8 P3 {! s9 H, A9 l& X$ P" }$ O3 ^; n
" T# C' B5 [" ?4 }
值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。
+ {$ B. p7 `) ]4 l' D+ z# }/ F( S8 K/ O. @
( A* \. O4 u; I
编辑:芯智讯-浪客剑
/ w; S% m. |3 v- R% e往期精彩文章% ]9 X# d0 o O- S- r
VR市场迎来第二春:5G+VR云化将成最大推力!
9 P8 |! O% f p+ L! y. G' K9 B. W7 o( b: n
2019生物识别论坛成功落幕:这十大看点不容错过!: K" L, l; z5 p- X" y7 n) m
阿里平头哥正式开源RISC-V架构MCU芯片平台
. z1 U! p5 O3 e% _: a l: `+ e首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?9 _0 q0 U9 \$ F7 g5 j
7 _4 `/ s! R* \9 V R( g3 v+ V' E
展锐再推4G功能机芯片虎贲T117,意义何在?1 }0 ?4 b6 n2 X
# W& E( Z" Q. C$ N( [; h8 I* e- J2 L
历史首次!华为海思4G芯片Balong 711对外销售!9 o4 u% G9 }! W) O- m0 i- C8 k7 V
% F/ ]3 v7 \0 S不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!, K2 V- J8 O, a& N8 M
% ~7 P9 o1 F: q, G# g6 ]
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!) f9 T, U$ [) o
. N1 ~ W5 |1 Y9 A/ U: w( ^. T可穿戴巨头Fitbit宣布撤出中国!
0 f b1 ^' x. |8 {1 j0 B: N$ a- i
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询; M) R! g# B8 G: W) E
$ w. m- s! H5 J7 d2 a8 U
禁令之下,安防巨头海康与大华的应对之策!
/ c0 T* Z2 d" P
5 o+ m$ \( c- U+ [( {9 g# r, o+ D为应对RISC-V挑战?Arm CPU引入自定义指令功能!7 `' n! D5 Z9 Q
行业交流、合作请加微信:icsmart018 v8 J3 F5 X3 H. f
芯智讯官方交流群:221807116 + B9 S2 L, `1 `2 E
' P }- }7 u$ P( H* P) L5 H& s, m) {来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1
8 l( @* g- _: Y5 A: K. B免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|