|
& @9 j5 A; u) v4 m/ H% _
# a% P" u8 J! r! @! s
# R! p' l7 v+ j* z
10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。% |' L& U ^. g- G1 x1 \% R
: a" r* K6 k4 A7 F3 i; q) E+ n! [( N0 p0 B# T* p# @) E- z
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!- p8 G" ? Z- @8 K. t
' j8 q4 T. ^5 r; U1 O7 i
# Y+ V n5 V% I, U$ w5 t" ]今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!
/ S* }# S. I( M c4 H$ A; A1 `- B
* d2 w. X8 @0 V1 P+ l
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!
5 P, q2 @( m1 ~5 @, l. {+ ^
8 Z. P) a, c. |3 E( S9 L5 M1 |$ V0 p
0 U$ L4 k$ a# V+ H7 \6 w/ h6 i5 ~ 8 P8 d ~9 K" `! _- o: W* X
|, G$ `. w4 x% ?: [' g' ~6 v7 s5 Q) o3 b8 L) J
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。9 H o, q: z) @% U \# l+ y j
8 t7 O6 z6 j+ e- Z" Z! W% q5 ] D- i
- ~" ~/ i' O2 u$ K+ V吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。: u# s/ e7 u$ e0 M
6 y1 j+ K. @0 n& _1 i; n8 n
% Y$ o |, d# h$ N' V3 a3 P加码AI计算,Arm发布Ethos系列NPU IP
& P5 H' t( t! U' I7 |1 }3 j5 d: ]' ` W% \4 c% b
# I* [" S4 _1 B4 I5 _
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
% y* z! b+ n# H, J& D+ c0 `9 D- n" [
4 w" N' N* k w6 C3 X7 j) f: D: t+ M% `. K' R: M" s$ x, N& H
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。. A" B1 u. Y" T3 y* R- W- @3 T
6 z/ \+ f9 {9 z9 Y t- k& U& m. _
& R- F5 n# y2 Q8 A* I但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
- S) r* m3 y7 E8 P
5 L/ @! N, s. Q" V+ V, }5 l* z8 }2 ^3 b" v0 k3 i. g- s8 e
在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。* \4 R6 \: l- M
Y8 ^* P0 [6 d! S/ l1 w' K2 a
0 o) m' X( |& t; q2 ]) m
* j; P' m/ s0 h7 B( g( B. W" C- a! s& X4 n
& {# }( }: U# @% Y- g5 P i6 e
8 S0 U0 C! M" f$ m0 u
1 G/ Z& z. h& b3 i今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。9 e, A, \5 g1 D0 A* b( l" r# |% h8 Z0 P
- R$ F" x% E7 I- S% T
# I$ ?) {0 V* s0 K
; ^" J/ |2 Q# a1 n( q' U- @: y8 l

: v: r, v8 G- O/ f4 N! L$ p
2 m/ E! \4 D; x, Q: g, e7 I& s* d4 C# [
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
0 }" w" m1 j& q# L% O , r% j3 Q* f1 Z5 M( Y6 _5 ]' T; k
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。) ~3 H* W7 S/ W& F
K2 T7 n, ~) Y9 a H- e4 Q# ^
$ F% `% M; Z4 H3 K" e, {
: \; H) b5 g2 u, r" h在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
6 `5 ]# d( _6 l, `+ O: v, d, h2 H9 L* P( o& c$ t+ H
9 ~4 [* k+ k8 |; O4 |8 o在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。* x' n6 l) b: |# M3 B5 n
! C( s8 b8 M1 n9 \: l6 w$ k; @
* g, v, K5 }/ a4 w0 `* E从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。9 c0 k) @4 N! l9 W% E- R* f
0 c4 t7 G- q' v7 }* ?1 b- N" m# Y& \- h
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。6 p) E t: q3 R! @2 V2 x7 S
- \( d: d/ T( j v" I
* a* T2 Y+ k% iArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
; Y8 j) U, b4 W9 R- u. T r! } N; O: D9 p2 a
' n+ ], B* i! D7 U
另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。) f( A% _ k4 H+ E
9 l. C0 x/ H- q3 V1 X; D8 n6 l6 r& I% [0 O. K' _3 S
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。. @9 N0 q" s/ n3 B
! o" l- U6 O) e O7 L# x5 X, E1 }" i* t6 E& V! n5 P) T
据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。! f& V) y7 m5 W* O9 H9 t
8 w- H( M- X) X; L
! D5 s( W1 L4 U
开源的AI开发框架Arm NN# Y6 V8 X3 H# q {% a p2 T
; Y0 C0 o+ W& j- X2 H% o* ~. f$ O* n7 X x5 v! ?
我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。3 Q; a/ N% r+ _# {/ y$ C
, d$ B" J" d- K' m! G
2 O$ ?- c) z& I) q3 z而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。& A( K/ ^& q/ `4 ~" ^ G' A
+ n0 k: C7 z$ e' E' z
4 \' l) }4 {* [- S3 |# L2 m* g2 s
" b+ w4 @ i5 g$ {: f4 f+ \
* |1 W9 Q1 s* @# T" H0 V {( O# y$ X
据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。5 e6 F6 R* L6 _- W1 \
( X9 ~4 m0 U g/ Q& D$ b. X
4 E0 M9 T F, f1 q2 a/ OArm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。- F1 |5 y% m0 G, `' r: H! I
0 i% ^7 D8 J7 |" w$ Q3 b8 Q
6 b0 S# y8 N& x : q+ j+ w1 b v# p: {8 w8 _
4 z1 O! a9 {. w$ P
( a% V P: a; k( I" M5 M
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。4 X: q, O) i& z9 s7 n1 U+ {/ g8 t
2 o. b, C7 H( I
d3 [* |( E" h& O6 X. ]4 jMali G57 GPU:为主流市场带来智能与沉浸式体验8 d k O( I$ r
6 _9 A7 b: P2 |- x! o& V
* n, A4 l N1 I) T1 ^" n7 R
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)
- L0 d6 @9 M, u) U- M. A7 l P7 x0 f4 x8 g0 G! |
( b* M# g' W' Y! D i. ^! J
# t/ ]4 {* `. Q4 i
, C8 @2 T1 }% [5 z* V2 g- H; y
, W( i% H* |! R据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。
. ^* L |( W G5 M0 L: G6 g
3 I/ D. p" k& l9 I
$ S7 L6 {2 d1 k: lArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
! f2 R& A- P- {# r* \; q6 w
- x# H- {6 A- j7 s; R( h
' S2 G+ q5 o1 M) ]( fMali-D37:Arm单位面积效率最高的DPU
% B' m1 y% P4 i- R2 k; d' t& J/ r0 a
: e$ S: s/ f. ]* K5 R在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。
* n0 S& f3 g2 R
( j4 F" `0 T: V1 w+ i
0 n) k- M5 c! U; O
2 p1 n: z9 B2 m5 H$ k
3 q+ s. @( G& F, ^
. q: t. L6 c$ t7 v( O4 n5 z1 {9 W据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
9 J/ a0 w) b: C9 U2 g2 R7 w, h6 m* E8 a3 }/ E
2 q. d; U* G7 Z3 C6 ^在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。1 D6 a3 Z$ w- {4 p! R# K3 k
. _' a% B" _3 u: l
& ~6 [3 O' `$ ^0 k
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
: t2 O' V1 h' O0 o3 A$ e% S" P* e( Q% c1 F
( i2 R- [4 }( ~
Arm的通用型NPU能否获得成功?" o; \, q: L7 b* [
3 k! V, g, | E/ a
& L) z5 |5 r, `9 `& ?$ q/ Y从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
' K6 B& ?3 w8 I& ?, n! ?" J6 \% _6 _+ _0 H2 N2 t* d, k
' V2 G5 c$ a2 H$ C
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。* b3 V4 o' f; O$ {: R0 W
9 ~, q! E+ @7 e6 M- l
9 P" d& D8 D Y* f, i& r
$ w/ j! J& e5 h2 w: H) `9 D
: }) a k# d1 p( A5 R7 o0 N. Q/ `+ n. w4 z9 O
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。' T* o4 H% y) q9 b- Y1 H
7 w/ ^! V, S% F$ }$ P- s
% q0 I. L# {4 N
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。& m/ _- X! a" t$ ~
9 u, Y; ]" g' X. u2 ^
/ e6 B' p3 P; \4 }另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。! b: {( a/ Z# y/ ^$ Y' r& t% ~
+ I2 L4 T( |6 l! J/ ?
) \7 g1 \% K) N' J# r# Z+ D. m
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。; a7 @/ j' f# l% |2 H% z5 ^( v
/ k2 p6 z% o# [# g" M! |
8 t5 [! S/ |) B) ?. v) p& ~! X
- v, w: w; q4 n+ W: l; y8 s# ~! [$ f4 S: _
* w3 e( @4 @% S: X5 H& i6 _" s值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。6 k8 W+ q4 f$ t! u( v$ `& d
+ Y- P% d% ?2 Z; T+ s
' p. t, w' c& E" ^, o2 |1 x( ?编辑:芯智讯-浪客剑
% v- ^3 O# M; x. T往期精彩文章& @& B' v0 J. A2 L# ~+ _2 N
VR市场迎来第二春:5G+VR云化将成最大推力!
% H+ ] O1 m# l- n, |8 K7 r
. l/ H5 E$ q0 v+ w6 v2 d2019生物识别论坛成功落幕:这十大看点不容错过!( `+ @; m! D. o
阿里平头哥正式开源RISC-V架构MCU芯片平台# L" P2 A9 W: i/ r6 c
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟?& z% }! f/ b; r% y
( `0 Y" e8 c1 U. f
展锐再推4G功能机芯片虎贲T117,意义何在?1 K7 R/ O8 p( r7 k: x; ]$ y m9 F
: D; E. J; ^, I8 A
历史首次!华为海思4G芯片Balong 711对外销售!6 u0 q2 Y. K2 G% h5 O' ]! L5 [
( K( E2 T' j2 H* g8 j. h
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!
6 U$ `: o0 u: `" g$ ?! J3 w/ F6 V4 w- i$ S. X
巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员!* [1 M3 S8 k) j
) ?; T6 W; O' j0 u) Z( c1 X
可穿戴巨头Fitbit宣布撤出中国!
: R3 B; ^4 U S- y5 x% `8 {/ p
& B9 |, R: u+ l5 I( V0 T收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询+ P' J0 s7 W/ S$ g' W A
# J5 `5 q$ O2 ?) C3 N+ ]
禁令之下,安防巨头海康与大华的应对之策!) o" s0 x% F+ F! y, g
$ ~) r6 l+ o$ W0 \5 k为应对RISC-V挑战?Arm CPU引入自定义指令功能!! x' f9 N3 k8 D( h5 N5 v3 g- C
行业交流、合作请加微信:icsmart01' h; v* C: o( Y( q) k
芯智讯官方交流群:221807116 * d; u' r* a/ _* Q% E
6 i0 } O' p- q7 `$ m+ o% I9 E
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=1. J# w0 R- @$ M/ V
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|