京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3119|回复: 0

揭秘NVIDIA加速AI推理的密码,1台T4服务器完胜200台CPU服务器

[复制链接]

12

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-7-14 22:21:51 | 显示全部楼层 |阅读模式 来自 中国
看点:TensorRT与Turing架构协同配合,能提供高达CPU服务器45倍的吞吐量。0 R9 `, l' V% |/ M: W. U9 ]9 O
2 E3 d( H9 H+ u+ b; f
4 G* @! {9 T9 _. {, |  `( @6 M
7 `- ]- Q; c0 W5 j/ }- j7 B1 D6 g
每天,数以万计的语音助手、翻译、推荐、视频管理、自动驾驶等各类新兴服务,都在以超快速度完成深度学习推理。3 @4 W2 @4 ~- O4 Y0 o
8 s# H7 ^: a" Z! T9 U5 t2 k% d7 Y
用户会看重AI产品的实时性、高准确度,而对于开发者来说,要考虑到的因素更多,不仅要满足最终用户的需求,还要考虑成本、能效等因素,因而,能满足可编程性、低延迟、高准确度、高吞吐量、易部署的成套AI推理软硬件组合成为开发者的心头好。
* B' H) K" R+ D) R而配备NVIDIA TensorRT超大规模推理平台的GPU可以说是学术界和产业界最受欢迎的AI推理组合之一,它们可以带来速度、准确度和快速响应能力的成倍提升。
: s: P! g# I/ L8 s5 }6 {去年NVIDIA最新发布的Tesla T4 GPU,因其专为推理而生的超高效率、超低功耗,能为开发者节省大笔预算,已成为业界首选AI推理神器。
3 O5 ~9 i8 Y9 ~本期的智能内参,我们对《NVIDIA AI推理平台》白皮书进行解读,看NVIDIA超大规模推理平台如何协同顶尖AI推理加速器Tesla T4 GPU,为深度学习推理带来吞吐量、速度等性能的倍增,并降低数据中心运营商的开发成本。如果想查阅此白皮书《NVIDIA AI 推理平台》,可直接点击左下方的“阅读原文”下载。
" D0 x; O& P  o9 O6 L
* V0 d) q1 k, Z4 C* h
NVIDIA GPU推理的应用价值4 P! Q0 [+ o3 g4 P

( {( o  H  F, U0 g& u% w. L9 @+ c6 C4 x: ^! G
NVIDIA AI推理平台就像一个隐形的推理助手,正通过互联网巨头的超大规模数据中心,为人们带来各种新鲜且高效的AI体验。
6 X/ [+ i- E- j* V: g
0 W: `7 _) }; P相比传统的CPU服务器,GPU产品推理组合不仅能提升推理性能,还能更节省成本。
7 R% |6 I9 i, ~比如京东的视频审核就使用NVIDIA AI平台,将服务器数量减少了83%。( ?' }7 b9 G( g: q( ^; J$ m
每天由第三方商家上传到京东POP平台的视频数据不计其数,京东必须确保上传的信息安全无害。
; n1 P7 P. D8 ?5 W5 `5 m! g" W以前,要审核1000路的视频流,京东必须在云端部署1000枚CPU,而使用NVIDIA AI推理平台后,吞吐量提升20倍,速度比CPU快40倍,1台配备4个Tesla P40的服务器能代替超过约50台CPU服务器。
! f- C% G0 A5 O: ^. I
, i/ {  j5 C& r0 G: n/ H$ jT4作为NVIDIA专为加速AI推理打造的GPU,在推理性能和能效比上一代产品P4 更胜一筹。
+ |, Q9 H6 W$ Q9 Y4 R3 Y7 s) G如图,左边是200台占用四个机架的CPU服务器,支持语音、NLP和视频应用,功耗达60千瓦。而相同的吞吐量和功能,一台搭载16块T4 GPU的服务器就足矣,不仅如此,这台服务器还将功耗降为原来的1/30。
4 a) \4 [' O* q- S6 g  ~+ [ # x( n+ o; k% M; w/ r3 V! A  o2 S

0 s' s3 ]( X& ~$ i6 d* y0 @5 l8 m9 |基于Turing架构的Tesla T4 GPU
  m6 F* h+ F  b& d: E9 G
! b% E/ {1 p* [
: F9 x3 f8 C0 a" K
NVIDIA Tesla T4 GPU是全球顶尖的通用加速器,适用于所有AI推理工作负载,不仅有小巧的外形规格和仅70瓦的超低功耗,而且效率比前一代Tesla P4超出两倍以上。
9 j; V9 Z1 k7 P; n. S: _  B9 u6 q9 F  O8 j" X9 Z
它采用的Turing架构,除了继承Volta架构为CUDA平台引入的增强功能外,还新增独立线程调度、统一内存寻址等许多适合推理的特性。
& x5 {3 ^5 b. j# t: V; HTuring GPU能提供比历代GPU更出色的推理性能、通用性和高效率,这主要归功于如下几个创新特性:
' C" r4 s) U. v% y) h. H9 k  B1、新型流式多元处理器(SM)3 e3 m9 F. i9 l) ~; E# k

/ D- I: V4 M( m" j新型SM具有Turing Tensor核心,基于Volta GV100架构上经过重大改进的SM而构建。1 r$ Y- N* F8 e% K0 Q  U6 Z" k
它能像Volta Tensor核心一样,可提供FP16和FP32混合精度矩阵数学,还新增了INT8和INT4精度模式。* h/ e9 I1 U4 A. i: T* ?, L
通过实现线程间细粒度同步与合作等功能,Turing SM使得GPU的性能和能效均远高于上一代Pascal GPU,同时简化了编程。6 c+ [$ C( G  A/ \0 b5 g
2、包含实验特性,首用GDDR6
- L1 K, ?; o# d" j+ N
, f3 w! \/ Z- T2 U, p: PTuring是首款采用GDDR6显存的GPU架构,最高可提供320GB/s的显存带宽,其存储器接口电路也经过全面重新设计。
/ w2 B: m- F$ T9 w5 w0 r相比此前Pascal GPU使用的GDDR5X。Turing的GDDR6将速度提升40%,能效提升20%。
; I) h2 |, L& ?4 I( u3 s8 e- p: U% b& h3、专用硬件转码引擎. M9 ^5 y+ t; g; G
8 a3 m4 H- y7 [9 \
视频解码正呈现爆炸式增长,在内容推荐、广告植入分析、无人车感知等领域都获得大规模应用。
. @: w9 F2 t0 m2 \5 d/ F  ^T4凭借专业的硬件转码引擎,将解码能力提升至上代GPU的两倍,可以解码多达38路全高清视频流,而且能在不损失视频画质的前提下实现快速编码或最低比特率编码。
1 Z2 h+ h5 ^8 \7 p4 k9 ]8 b+ |

3 a8 g, a. L# R0 |超大规模推理平台TensorRT
  p: c: B3 u* \  D9 B2 _

. b# l- Z/ Z" f6 T% Q, I0 o7 j. }+ F( A/ l2 g2 h8 B; ?
仅有强大硬件还不够,要搭配高适配度的软件工具,才能最大化硬件算力的利用率,为开发者带来更完整和优化的开发体验。2 `5 I! o/ z5 v, y; H7 Z  g
NVIDIA加速推理的优势也正是在软硬件的结合上凸显出来,既有专为深度学习定制的处理器,又具备软件可编程特质,还能加速TensorFlow、PyTorch、MXNet等各种主流深度学习框架,为全球开发者生态系统提供支持。+ s8 Q, K% H9 C1 d  G( D8 z0 b$ u3 |
面向深度学习推理,NVIDIA提供了一套完整的推理套餐——TensorRT超大规模推理平台。
( t( c6 [8 p" K0 \6 t$ xTensorRT包含T4推理加速器、TensorRT5高性能深度学习推理优化器和运行时、TensorRT推理服务三部分,支持深度学习推理应用程序的快速部署。
& @0 j) a4 P1 r* `( \4 D8 p8 {其中,TensorRT5将能够优化并精确校准低精度网络模型的准确度,最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台。
: d0 Z: z/ p: B( q. m7 hTensorRT推理服务是NVIDIA GPU Cloud免费提供的即用型容器,能提高GPU利用率,降低成本,还能简化向GPU加速推理框架的转换过程,更加节省时间。, O  M& Q. G2 T9 _: v0 o
配备TensorRT的GPU,推理性能最高可达CPU的50倍。
0 a5 [! P7 M, B8 h6 f) ^这得益于TensorRT对网络结构的重构与优化。在精度方面,TensorRT提供INT8和FP16优化,通过降精度推理,在显著减少应用程序的同时保持高准确度,满足许多实时服务的需求。
3 \- Z* L3 K. Z0 {- j9 {6 p4 x4 E- F1 c8 X1 _! R* o
另外,TensorRT还通过融合内核的节点,优化GPU显存和带宽的使用,并以更大限度减少显存占用,以高效方式重复利用张量内存。
! y9 \* b0 k2 B2 y' K) _TensorRT和TensorFlow现已紧密集成,Matlab也已通过GPU编码器实现与TensorRT的集成,能协助工程师和科学家在使用MATLAB时为Jetson、NVIDIA DRIVE和Tesla平台自动生成高性能推理引擎。
1 x6 u- B0 A7 V; S3 oTensorRT和Turing架构两相结合,能提供高达CPU服务器45倍的吞吐量。
6 A6 G7 k4 X  D" t2 b1 O( w/ ^智东西认为,深度学习推理需要强大的计算平台,来满足云端与终端日益增长的AI处理需求。而一款强大的计算平台不仅需要强大的芯片,还需要完整的生态系统。; B$ G. F9 R" I+ \0 J6 h
通过软硬件协同作用,NVIDIA TensorRT能在带来高吞吐量和高能效的同时,实现推理神经网络的快速优化、验证和部署,既能降低开发门槛,又能节省服务器成本,使得工程师和科学家更好地专注于深度学习研究,推动各行业智能化升级。
+ W/ ?& _) x% I1 H4 S* L) f如需查阅此白皮书《NVIDIA AI 推理平台》,可直接点击左下方的“阅读原文”下载。
( J3 t- F5 L+ p$ n% k" N. ^* x
: ]+ o4 P$ o5 I' c& ]; {2 |/ F& S. u  x2 Z9 X
本账号系网易新闻·网易号“各有态度”签约帐号
$ O! Y# T# j" k* ?" x8 V# D9 V8 A6 g

0 [/ ]8 C2 ]+ P; L- S

5 S% O+ Q# I; {+ T2 y% r$ b9 m, z% g  |/ N; a1 R
来源:http://mp.weixin.qq.com/s?src=11&timestamp=1563112804&ver=1728&signature=HZaQD1-Iw7*AR*o3fdBcyw5VDHbMCpxSKJGqaQMMpZHF73he5pDyE70f0-5qVZIeVnwkYYOroperpRzyE8aoDyBG*2cTDr6rR7tTsX1iioPy-j-XZG0nay6b0wl3wEkt&new=1! O2 y! K1 C% c
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-10-23 17:22 , Processed in 0.051157 second(s), 27 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表