|
& P5 `7 h2 h2 H
|! J. d9 G4 L# e2 V
7 |, ]. O8 e" O$ R10月23日,在北京召开的2019 Arm技术峰会上,Arm正式发布了全新的Ethos-N77/N57/N37系列NPU IP,进一步加码人工智能(AI)计算。与此同时,Arm还推出了针对主流移动游戏市场的高能效的Mali G57 GPU和针对主流及入门级市场的单位面积最高效的Mali-D37 DPU。
% G n; \2 A' Y4 }2 p! ?* z$ K
8 u7 Q8 I- M, ]" x% a f8 w- D4 h2 n; n
ARMv8及后续架构将不受限制的继续支持中国合作伙伴!
" _' a6 Q: v& \. b. }: M! c, Q3 R* }6 \$ n& f+ I; T
/ v' t& \) m3 ~$ _今年9月25日,Arm中国在深圳召开媒体沟通会,针对此前外界盛传的“Arm断供华为”一事,Arm表示与华为仍是合作伙伴,ARMv8及后续V9指令集可继续授权!7 X% {/ J- o6 Y, I s& a
# v; d. L2 g) s" ~3 a
* W3 i+ Z8 u0 L
10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的V9架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!' t, n- Z' t: q) s, r9 a+ }
) ^% R) n4 \* E! o
. w, n& | C' x6 o: U4 n
7 I$ Z# J9 S# U$ I1 H9 t- A; h3 d" z; m
( O/ A" L g6 c* c; n) @( E
此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。5 t+ F: {+ g- X- @% o! C
: V9 W1 N1 M# _ T7 ?8 h! P/ {1 h9 i6 x+ R* q
吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。
; f7 n7 Y: y) U9 o; A! r
# o6 q6 j7 F {# |2 m9 z: b. N }% }/ `7 G/ Y
加码AI计算,Arm发布Ethos系列NPU IP3 `5 v( X$ B2 Y) f. k1 D
- G N Q3 [4 V& p0 m/ ?& ~, y5 R: {* Y2 E4 {6 }, C( }$ Z
根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。
- @" w! x/ E2 d3 |# N! Y8 L* l$ M' U+ f* w
& u% C) E$ Q6 n0 a/ `7 X
而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。
* K: ?$ L3 w2 f" I1 v H0 ?- P" G& R- {, m( s+ t& [
+ k! t4 j5 A( Q$ K& x: k' Q但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。
# }# y$ n; q2 I7 C+ u
6 B9 d. I) j0 [
4 X1 c1 i% e. |" ~/ Q' Q' Z4 l在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。
2 L: n+ F! m6 V1 t& z1 R# r' g p3 f6 c+ U0 e0 H8 G* A* `: q3 w
- w. u7 w. U3 w
) f+ F5 F2 f9 g5 W; s" C/ N
D$ q; |! Z1 J2 J) j" c6 g7 b8 {7 L$ s
h" D8 n% A+ v: v D6 D
1 z9 q3 l( c* j. _6 S
今天,Arm市场营销副总裁Ian Smythe 在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。
/ }* Z: j$ Y& H" J* }+ A
3 ?* L: T2 ^0 n, A# |1 r9 i
2 R0 `3 h/ a- E- O
0 h- v1 Q! Z4 h' B# c' ? ' l6 H# w- t( E% a5 |3 U
5 q/ ~, r) N/ u& K" Z# Y) |' i
3 i. J, e j0 d" N
Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm²(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?
( X- S Z" M O 0 s3 q, p4 [ ?7 f- [+ P
根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS@1GHz,麒麟980应该是4TOPS的版本。而麒麟990系列的NPU并未公布具体的OPS数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。( o& B5 D. v5 u1 w% {/ M4 P
! i6 \8 `9 I5 A6 O" q: W5 w) A8 ^+ b
: q2 Y3 t5 g0 P) E" Z5 l在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的NPU的单位面积性能大概是1.48 TOPs/mm²,而麒麟980和990没有相应数据可以参考。而根据TechInsights的拆解,苹果A12的NPU内核的面积为5.79mm²,也就是说苹果A12的NPU的单位面积算力约为0.86TOPS/mm²。
* L7 w4 e {7 \( M! @
8 [! S; t/ u6 Y1 }' j3 r6 ^+ A- G. L# s
在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6TOPS。苹果的NPU未有相应数据。寒武纪新的NPU内核1M在7nm下每瓦性能为5TOPS。7 a( `# Z' k V! [# e
& y) p$ N1 `6 H. h: `) |( y/ o4 D _* b H
从上面的数据对比来看,Ethos-N77的AI性能与苹果A12和麒麟980的NPU相当,相比麒麟990系列的NPU性能可能要弱一些。在单位面积算力方面,远高于苹果A12和麒麟970的NPU。在每瓦算力方面,也是远高于苹果A12的NPU,略低于麒麟810。综合来看,Arm Ethos-N77各方面都还是比较出色的,达到了目前旗舰级NPU的水准。2 v) E% J: x) M# K* R( k
! T6 |% v( m& S- l' Z. I* m |7 e/ M1 y6 I7 p! a0 } _
需要指出的是,4 TOPS的性能是单个Ethos-N77核心在1GHz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。; D! Y4 E8 H* r* h: @4 ?* d
! @9 }4 ~; i4 i5 x. Y& r
. D5 S7 g% u' u- vArm此前就表示,Ethos系列IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPS到超过70 TOPS的产品。
7 O( A) f I5 K4 S% o4 i0 c
3 B& h8 e8 A8 F+ d! S7 Q
, G9 |$ R5 A6 S6 _另外,Arm还推出了针对主流市场的Ethos-N57,内置了512KB SRAM,在1GHz主频下,算力最高可达2TOPS;而针对低端市场的Ethos-N37,是为了提供面积最小的ML推论处理器(小于1mm²)而设计,其同样也内置了512KB SRAM,在1GHz主频下,算力可达1TOPS。
' L8 c; ^) o2 R* X
" S( ~* P5 k4 D9 c# I x0 b& P5 B- \2 E. P( E5 g9 M; R# W
Arm表示,Ethos-N57和Ethos-N37针对Int8与Int16数据类型的支持性进行了优化,通过如创新的Winograd技术的落地,使性能比同类NPU提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ML在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。4 M2 l h6 f8 J
' c7 b5 `* M! }9 v
4 c8 w2 B9 v( d; `据芯智讯了解,除了移动市场之外,Arm的Ethos系列IP未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。
( K2 L, K% H ~2 g9 ?3 `
+ d E Y$ C$ t0 H9 V& ~8 B3 R! J! c# L# M3 w
开源的AI开发框架Arm NN1 t5 z6 i; U' S# v1 m
/ i9 W M) _7 X2 o# q0 X4 V
6 Q3 s5 j; X+ v7 _我们都知道,此前高通骁龙845/855系列都并未内置专门的NPU内核,但是其仍然提供了较高的AI能力,而这一切得益于其神经网络引擎Neural Processing Engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得AI计算合理的分布在CPU、GPU、DSP等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行AI计算。
( b; w2 T' v0 H
3 n% w% t9 ]- `0 j2 Z8 N1 `
2 n' v; D3 c7 V3 k! ~而Arm此次在发布Ethos系列NPU IP的同时,也推出了开源AI开发框架Arm NN,强化异构的AI计算,进一步提升整体的AI性能。/ N% T) ]+ b$ k; D3 L) V
% V- u+ ?% i# o) G" V$ C
& N" ]7 _. s8 _( e& h
9 J) {* P: z. ^. L! `% d! H$ q; P1 J5 [% i: @ V/ q
/ m$ ]' k# Z5 D5 ] g' I据介绍,Arm NN是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的NN框架,并提供完整工具链,可实现在AI计算上对于Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构的AI计算。 b0 c6 ~6 G Z
& c- [/ M5 V9 D/ d' {& g0 r
D$ \/ H# b* M3 ?Arm表示,由于不同的SoC对于AI的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的Arm NN的推出,将降低开发者调用Arm内核的难度,进一步提升开发人员的体验。
6 x k* ~& H& \* ^0 {+ C8 B. A' e8 @# D' o1 J; `
3 L7 v6 @ \9 E0 p" ? _1 a

) C( R6 x+ q) G; D% O( y8 m" X; m( Q4 M' ]& G
# n- {4 W# Z$ @( t
此外,为了推进基于Arm NN的内容创建和开发,Arm还与Unity(Unity最目前主要的3D引擎,50%的3D游戏,75%的VR内容都是基于Unity引擎开发)达成合作,进一步优化Unity引擎,使得基于Unity的开发者能够更容易的访问和更高效的利用Arm的内核,在Arm CPU/GPU/NPU之间获得更好的性能。可以实现一次开发,即可获得Arm全系列的内核的支持(即可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。
- N2 { C$ j3 p3 a3 c; k$ N* K
) ~/ o8 |# G3 N4 }, D
' n7 f# G4 ^; O3 p$ K) G g3 l5 v) y: ^Mali G57 GPU:为主流市场带来智能与沉浸式体验" i0 p/ _" l& ]) e
3 ^; _. G5 F9 G v8 X5 y) ^( `1 H4 f. c5 ]. ~
今年6月,Arm针对高端市场推出了首款基于全新Valhall架构的GPU——Mali-G77。今天,Arm针对游戏市场推出了第二款基于Valhall架构的高性能、高能效的GPU内核——Mali-G57。(Vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)$ W' V5 e6 Y/ ]# z: |
, {& B# k2 A( j6 L( q" U& p# z5 ~" }; e, j
3 `7 b$ n4 C6 Z5 E3 E5 W) D) T
. w/ y- z( n4 m( e1 Z+ J( _& y$ {
" U- n0 j1 ~. d% W! ]0 m" [9 a
据介绍,Mali-G57的性能相比上一代的Mali-G52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且Mali-G57还加入了针对虚拟现实(VR)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的XR实境应用。而且,Mali-G57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。0 D) o, U" I, X" f
# G" y9 u, _1 h; t/ [
/ ]$ c, Y3 @8 I: W& F/ _; J6 ?" HArm表示,Mali-G57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷。
% o8 b1 W% @6 b1 [ X9 D# l5 o2 d0 j% E
3 c% g4 a( G3 B$ h% }Mali-D37:Arm单位面积效率最高的DPU
# Z5 n3 R2 H; Y" p8 j- r! `- P& A' j2 p
. c- Y x+ b! E) s# m4 p$ ~3 D在今天的技术论坛上,Arm还推出了目前单位面积最高效的显示处理器Mali-D37。+ Z7 B$ Z% ?3 |0 p; i
1 j9 {2 \! x" D% ^1 p# g. z6 g* S8 e
0 Z! x- y2 h2 y& a# l1 ^3 j8 s) c
- J1 ]. U* Z9 K+ f1 ~7 W% c l. V3 h( {) S+ a+ X0 f) y
0 W6 F+ r( _+ b: O: [5 m
据介绍,Mali-D37是Arm第一个面向主流市场的基于Komeda架构DPU,拥有极高的单位面积效率,在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1mm²。
0 o$ n4 h+ m. C5 x! a% z- k' F' b2 R
- c, m4 ?2 \1 a- g' f
在性能方面,Mali-D37保留了高阶的Mali-D71关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37其通过将部分GPU核心显示的工作负载卸载到Mali-D37来工作,以减少GPU的工作以及对于内存的访问,使得系统的功耗可以降低30%。
2 e! n x5 \4 s
' ?9 X5 _0 V q4 T% B5 D' k( t+ ?. h0 r1 e6 C* Y$ @% X
Arm表示,Mali-D37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2K级别的视觉效果与性能支持。
) S4 M. L* @, n. {+ A$ C: F: Y
: u' I7 R) }; k1 ?: ~5 U! {. k
& @9 S+ H1 ~8 @9 b7 ]+ ~Arm的通用型NPU能否获得成功?
. S6 c1 n) d! ?8 Z5 R- v4 a4 B9 F2 |3 Y! M. O
% ?) v. i; o" Y/ x! p4 ?
从目前的市场趋势来看,AI芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的AI芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的NPU内核。那么Arm的“通用型”的Ethos NPU IP真的有市场吗?
& P# R+ z& M ^( a. x5 a; e
3 U7 p5 ^4 [$ g" t% _4 a0 v, H" U2 V, w# W: J
对此,Arm市场营销副总裁Ian Smythe表示,Arm的Ethos NPU IP并不是孤立存在的,其主要的优势在于,在其本身提供出色的AI性能的同时,可以更好与Arm的CPU、GPU进行协同,以实现异构的AI计算,从而进一步提升整个系统层级的AI性能、降低功耗。而且,目前AI市场还是在初期,很多的AI算法仍在快速迭代,选择“通用型”的NPU是比较安全的做法。
v4 B8 z7 J9 T( s9 Y% b
- W8 i% R& N* W( G9 X9 _# D9 ^1 W/ b9 }, R6 L, z0 s
3 I0 V: t e6 C) G
+ J$ e- z$ R3 f5 s% B
5 B& w4 j( [0 w4 A7 x
在采访当中,Ian Smythe向芯智讯确认,Arm的Ethos NPU IP也可被集成于比如RISC-V等其他架构的SoC当中,但是Ian Smythe也强调,这样并不能发挥出Ethos NPU与其它非Arm CPU/GPU在AI计算上的协同优势。
- ]' J- S* G+ U7 `- H4 Z" u* P6 B# I" |
f) b. O/ s( A. Z8 O: F8 S
另外,Arm的Ethos NPU IP还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端SoC当中集成了NPU,而随着AI计算向边缘侧部署的趋势,未来市场对于NPU的需求也将会越来越大。Ethos NPU IP的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的NPU内核的支持。0 g$ v M2 T: d6 R( s+ T7 h$ K5 l
/ q( E! |) S: M! s' H p
# I2 L, F5 P! _
另一方面,目前的Android应用生态基本都是基于Arm架构的处理器,因此,如果采用Arm的Ethos NPU IP,结合开源的Arm NN框架,应用开发者将可以更简单、高效的调用Arm的CPU/GPU/NPU内核,可以为用户带来更为出色的AI体验。而且,可以实现一次开发,即可获得Arm全系列的内核的支持(这也意味着,可支持众多基于Arm不同类型的内核的SoC),无需再重新编译。而对于其他的芯片厂商的NPU来说,开发者要想实现灵活高效的调用NPU,充分发挥其AI性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于A厂商的NPU调用,同样的应用要想实现对于B厂商NPU的调用,可能需要重新进行编译。显然,对于应用开发者来说,Arm的NPU所具备的生态优势无疑是其他厂商所无法比拟的。
/ H* q& e8 J/ C7 Q. H% _# [: L4 }9 H- H
# p8 I# t3 _9 O, }- {3 i( c9 M& {) R
最后,Ian Smythe强调,Arm对于AI性能的提升是多维度的,一方面会持续推出更高性能的NPU IP,同时也在不断提升Arm CPU/GPU的AI性能。9 Q& }! u. x1 U* J
7 R5 t1 w* s. t7 ~, \9 F# g s+ o, s/ H# m8 ?
/ z% _" o; V3 d7 @( P8 t; B8 R
9 d5 O. T* B5 P
9 f1 M" F5 o O# a5 Z$ F值得一提的是,Ian Smythe在演讲当中透露,Arm在下下一代的大核架构Matterhorn当中,加入Matrix Multiple(MatMul),令其ML(机器学习)性能与前代CPU相比提升一倍。0 K. e/ V2 x0 e! t2 X
# o0 |+ \, z: E7 [5 L: m' l- g- z8 r6 t8 I3 _ k
编辑:芯智讯-浪客剑
- Q8 p4 f* z Z) u! }往期精彩文章
, C7 D3 R2 e. c9 [$ RVR市场迎来第二春:5G+VR云化将成最大推力!
9 R% r5 {+ R y; ^% c5 j$ ]5 K
2019生物识别论坛成功落幕:这十大看点不容错过!
* c0 z0 W/ B( E+ ?* Z- K# T阿里平头哥正式开源RISC-V架构MCU芯片平台: U3 ?9 T: ~/ _- \$ N4 G Y
首度杀入3D人脸识别门锁/门禁市场,英特尔为何选择与小钴科技结盟? @( @5 Z/ C: T" D
3 p! y0 o" c, E
展锐再推4G功能机芯片虎贲T117,意义何在?2 |% r t; ?) ^# r$ }6 D
4 b7 ]+ g- L7 n, Z& `: S
历史首次!华为海思4G芯片Balong 711对外销售!
+ w, _2 h6 Z9 b1 ~- b5 O- Y7 K: @( W& _+ X4 q) s1 }' V9 V
不惧美国打压!华为已获得65份5G商用合同,5G基站发货超40万个!- D( I; x0 ]0 @/ T( ~/ t
: o4 ]8 q- P3 ?$ V6 T, A巨额债务违约+资金链断裂?手机ODM厂商海派关厂裁员! k% e8 E. y0 x) y# R
4 s1 ^! w5 O+ Z+ B$ F- X可穿戴巨头Fitbit宣布撤出中国!
; o- N) Y5 {/ W( H) o! g9 j+ A6 G, D) z1 C! H4 A' B
收购Intel基带芯片业务涉嫌违规?苹果遭市监总局启动问询4 A( g5 i& G, p4 j
7 H, q$ S8 ^7 W
禁令之下,安防巨头海康与大华的应对之策!
- q; A3 O+ n: \
6 A& d$ h) I6 o$ C! x, [为应对RISC-V挑战?Arm CPU引入自定义指令功能!
* s* I3 D8 ~/ x6 G* s3 _% [" ?+ ~: y行业交流、合作请加微信:icsmart01
v ]2 d; V6 i: l芯智讯官方交流群:221807116 6 b$ l0 x+ Y1 A& ]; Y3 P4 J6 r' T
$ a6 x' b9 q. _: W9 \3 Z9 r8 } i
来源:http://mp.weixin.qq.com/s?src=11×tamp=1572103805&ver=1936&signature=jeCKwe1UBQzC*Pzs8GoY9TZBvEs1rdMAvR4c22h3Cpdg-qQ*TOrpE2uZ4YvRMx7pQMFu5Q-as9lkvJgPIZqWm1WA-*ncmgAC2Ls6p79VafFsjOW9cM78m6hG7c-lzR2Q&new=18 X D* c6 U6 {" s5 g
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|