|
本文为 AI 研习社编译的技术博客,原标题 :" ]6 @ H3 K x% ~% t" _4 W
Counting No. of Parameters in Deep Learning Models by Hand
" l+ f1 q. L2 V翻译 | Snowdrop99 8 M, R! M- ~/ s$ }8 e _
校对 | 斯蒂芬·二狗子 审核 | 酱番梨 整理 | 立鱼王
# G: [6 O& t5 h原文链接:
3 c1 U9 m" j' M+ {! U* e注:本文的相关链接请访问文末【阅读原文】
, e; O2 H7 f2 _: S) W$ | 摄影:Andrik Langfield,来自Unsplash
1 z; i1 C" s& Z) r* [/ M* D4 l( S8 m
为什么我们需要再次计算一个深度学习模型中的参数数量?我们没有那样去做。然而,当我们需要减少一个模型中的文件大小甚至是减少模型推理的时间时,我们知道模型量化前后的参数数量是派得上用场的。(请点击原文查阅深度学习的高效的方法和硬件的视频。); {" S, C3 _6 ?# g6 E( d. G
计算深度学习模型中可训练参数的数量被认为是微不足道的,因为你的代码已经可以为你完成这些任务。但是我依然想在这里留下我的笔记以供我们偶尔参考。以下是我们将要运行的模型:3 C- x/ f8 n4 W& a: }' P
7 m* y& q3 t5 T* }( V1 O6 o1 |7 r
- 前馈神经网络 (FFNN)6 m& C) V1 j6 w" {2 {9 [
- 循环神经网络(RNN)" z0 G8 m7 {3 I9 q, S
- 卷积神经网络(CNN)& {3 I6 U4 D& h/ z, ], t. A1 t
与此同时,我会用Keras的API创建一个模型,以便简单的原型设计和代码的整洁,因此我们在此快速import导入相关的对象:3 _( s6 z/ D t' a9 D1 }. `+ J
from keras.layers import Input, Dense, SimpleRNN, LSTM, GRU, Conv2D
( D' l9 C) F/ z' zfrom keras.layers import Bidirectional' N: b" i8 k+ @; q
from keras.models import Model建立模型后,使用model.count_params来查看有多少参数是可训练的。6 `' v, U6 S( W6 V+ Y. `& K
1. FFNNs' N% y9 x% S2 f
; L* G8 _( f P/ o! @( } u- i, 输入大小 ~$ q6 H/ ?/ X& ]9 s
- h, 隐藏层的大小4 h$ Y; s+ W7 ]; x' m) _: S3 k
- o, 输出大小
1 Z& r# L( b4 N2 v0 h% @8 c! } 对于一个隐藏层,% ]6 O/ i8 P4 Y# Y* H4 a
参数数量
; t B2 e5 c: v=层间的连接+每层的偏差
* @" m- ?1 H; K+ c=(i×h+h×o)+(h+o)5 _! N$ X- |3 {8 ~+ @
例1.1:输入大小为3,隐藏层大小为5,输出大小为2. H6 Q3 l% ~# X: @+ h, x
图1.1:输入大小为3,隐藏层大小为5,输出大小为2的FFNN。图形反映了实际的单元数量。
; G9 E( j8 X2 M* a8 Z' v
$ Z. X3 F ~( N0 d3 F; t- i = 33 q- g( Z6 |# J4 W8 V
- h = 5
4 c! ?* h. S& b3 _8 h+ |2 f. h% { - o = 2 `; _8 P4 L5 h+ T
参数数量1 c2 l$ f X5 L8 @: {" J- F( E
=层间的连接+每层的偏差
6 j% J& Y' G9 n$ I' G2 k2 h+ [, m=(3×5+5×2)+(5+2)8 c- x0 @2 q- U& W
=32* j9 W$ n; i5 e; ]: K
input = Input((None, 3))3 V: v! I# m! t! Z' l# X9 q
dense = Dense(5)(input)$ W+ @1 `9 f# v) I( ~
output = Dense(2)(dense)) Q! K0 F& P# M! g, \$ T7 V" L# T
model = Model(input, output)例1.2:输入大小为50,隐藏层大小[100,1,100],输出大小为50" \# P$ t& B1 [$ ~& o3 _. ]
- F: p' o0 ?: t* H& q
图1.2:3层隐藏层的FFNN。图形没有反映出实际的单元数量。$ J+ n6 j( i$ ~- W8 ^9 I
0 F! f# o/ T" Y6 C6 p% }9 Z) j$ f9 g* `
- i = 50
# j3 T' W9 g9 L( d9 M; n - h = 100, 1, 1006 v+ L5 @) v- ~( A- f( z
- o = 50
: N5 \; j0 L6 o1 q9 f- F 参数数量" b0 `8 F$ I9 t& S
=层间的连接+每层的偏差
; M! o6 e6 c: d=(50×100+100×1+1×100+100×50)+(100+1+100+50)2 h! b7 Z+ p" K3 y; K4 K; k& [4 M
=10,451
+ H3 [" C. j: |$ Ginput = Input((None, 50))$ i. Y# T8 R# k5 R* A# ~) a
dense = Dense(100)(input)
+ L! W/ m- f; b% y: V8 b: a dense = Dense(1)(dense)
) u" s9 V0 R" c" N5 n" z dense = Dense(100)(dense)7 N; n4 i1 ~" }( c+ _4 z/ m
output = Dense(50)(dense)
/ Q# H* R4 v! B8 N- Q' @ model = Model(input, output)2. RNNs
# T# E. |) s: h8 d+ u0 Q i
2 a! I; w/ {. G+ N6 x' x+ k- c- g, 一个单元中的FFNNs的数量(RNN有1个,GRU有3个,LSTM有4个)
) x* m& _* @4 x2 `; k$ y - h, 隐藏单元的大小9 p4 \' o. Q! X% z3 W+ A+ u
- i,输入的维度/大小 " @- T3 n* c1 \7 J J0 `/ a
因为每一个FFNN有h(h+i)+h个参数,则我们有
d4 y5 }- D* T8 {4 y& e参数数量=g×[h(h+i)+h]
. c3 t, q* q& Q# w& c: M8 W& F例2.1:LSTM有两个隐藏单元,输入维度为3.9 u3 v; D" b: ~" d1 J
. J- Y/ B8 @. r
图2.1:一个LSTM单元。% K% N2 K0 F' ? I4 }
, z# t7 W U* D& n) _+ L- g = 4 (LSTM有4个FFNN)2 {: K" U: f2 N& X: U6 Q! {3 ?
- h = 2
. u- [! `6 l9 m0 w9 @ - i = 3- f. N. R% _* _* w7 p4 ^4 V
参数数量 w2 B6 Q" E. u
= g × [h(h+i) + h]
+ E8 c" N* {7 j8 X E* m4 ?= 4 × [2(2+3) + 2] 6 {+ `0 b8 O9 ~. H* c }+ e/ c' H4 ]
= 48
1 {0 }" t3 D- |* t$ p' binput = Input((None, 3))
2 d& n7 h+ _# @# _ lstm = LSTM(2)(input)5 H6 l9 w2 y- l
model = Model(input, lstm)例2.2:堆叠双向GRU有5个隐藏单元,输入大小为8(其输出是级联的)+LSTM有50个隐藏单元。
8 X+ U8 \" u. Z" n7 U" F4 P0 a 图2.2:一个堆叠RNN包含有BiGRU和LSTM层。该图形没有反映出实际的单元数。1 n3 o5 J; |. _) i
双向GRU有5个隐藏层,输入大小为10,! ^- w% k3 e9 q3 H0 V! G
3 p5 j' H* r! ?& y) V
- g = 3 ( GRU有3个FFNN)- q' @' Z/ q0 [0 Q5 F( L) W) Z
- h = 5: S+ \* x& P& w. }) M" r4 s
- i = 8
8 C$ J/ K+ S+ _9 _ 第一层的参数数量
5 a6 d4 w4 X+ H! T! [' {= 2 × g × [h(h+i) + h] (由于双向性,则第一项是2)
. t& p9 `$ w/ }' d= 2 × 3 × [5(5+8) + 5]# \, Z$ ? O8 w; O$ |" H/ m
= 420
8 v7 I$ ~6 k- j1 A% t" mLSTM有50个隐藏单元
/ k1 ^* M; [) B9 m" J9 t: T' P8 f3 ^) x x$ u: c8 P% O+ n) \( y
- g = 4 (LSTM有4个FFNN): D( k9 ]! M4 P
- h = 50- u5 p8 r7 m [" q/ ]
- i = 5+5 (双向GRU级联的输出;GRU的输出大小为5;隐藏单元数同为5)
0 t1 n0 p* W7 \& x( _6 @ 第二层的参数数量, S2 ]1 Q* U5 B( R! y8 U
= g × [h(h+i) + h]8 `+ L0 C! @ f6 Y- Y9 u: X5 I
= 4 × [50(50+10) + 50]
7 D/ ~: w9 G( d! F+ G= 12,200 |7 A& J3 a$ U- F
总的参数数量= 420 + 12,200 = 12,620
7 B" _- o S- |- B) z4 w5 b7 |input = Input((None, 8)). z) t( X, P: E6 L; `8 O& g
layer1 = Bidirectional(GRU(5, return_sequences=True))(input)
. U. D- l0 Y5 }% O6 C) }0 ~layer2 = LSTM(50)(layer1)& v: W( H3 X" V9 W
model = Model(input, layer2)merge_mode默认是串联的。/ r" ? ^. @4 Z3 T7 ?/ P) I
CNNs对于一层,
& n& t8 b f% L' i+ O) }( t y9 M
- i, 输入映射的数量(或通道)no. of input maps (or channels)
6 d- m" D/ k% n Z0 J5 S - f, 滤波器大小(仅仅是长度)filter size (just the length)9 m" }/ P2 b4 M5 h& U' }
- o, 输出映射的数量(或通道。这也由使用了多少滤波器来定义)
6 c8 ?0 N9 w6 { 一个滤波器被应用于每一个输入映射。
- O# H4 L: o7 N5 d, s" e. o; P, y参数数量
1 K# k" j- _4 U& |- }= weights + biases
+ \. j, f" o! w1 e6 A( g= [ i × ( f × f ) × o] + o
3 F) Y* J: i O- J# e1 s6 c3 _
+ ~. n- ~( B' \' j例3.1:1×1滤波器的灰度图,输出3个通道
2 B ~' `; u6 A+ y, f3 y3 H 图3.1:使用2×2滤波器对灰度图像进行卷积以输出3个通道。 这里有15个参数--12个权重和3个偏差。
, J+ { f4 U0 Z7 E! k# y5 F* _( J& d' ^
- i = 1 (灰度图只有一个通道)
3 j9 [/ ]1 m! \) Q0 u - f = 2
9 J: |0 \- ~3 @. D- w- s - o = 3
; N! l1 Z: ^8 Y 参数数量( \4 ^! d( D- O8 ^& Y, o4 q8 H
= [ i × ( f × f ) × o] + o* f3 H$ `5 z+ f; `, k5 x5 s+ W
= [1 × (2 × 2) × 3] + 3! f9 N- B/ X7 J+ C$ O# I9 v
= 15
7 X3 x( s* @* {7 c7 ~1 r R# U5 A z3 Qinput = Input((None, None, 1))
8 [: F: y$ ^) w4 I y* u& d6 dconv2d = Conv2D(kernel_size=2, filters=3)(input) h, u' O% L- p6 U
model = Model(input, conv2d)例3.2:RGB图像有2×2滤波器,输出一个通道( X V( l, P$ x
每一个输入特征映射都有一个滤波器。产生的卷积按元素添加,并且向每个元素添加偏差项。 这给出了具有一个特征映射的输出。
1 S8 d8 Z% n( d1 C 图3.2 :使用2×2滤波器对RGB图像进行卷积以输出一个通道 。这里有13个参数--12个权重和一个偏差。 5 ^( }1 y9 |5 `
0 J7 V U4 }0 `2 S. b- i = 3 (RGB图像有3个通道)
* y1 c# \& e! M% c4 B - f = 2# q/ W" o2 v3 `
- o = 19 s# L$ H: _% w3 ^$ s9 x) m
参数数量% f7 C% ]+ i. \( T/ K+ l4 l! I
= [i × ( f × f ) × o] + o
: X- C; X$ y# M& u2 }! V; s= [3 × (2×2) × 1] + 1
6 F: Q( D/ I4 F$ ^ L' N. k! n= 13
6 W B* _ g& |& d) Oinput = Input((None, None, 3))! H& S$ c% `2 Z' H! K- S, n0 P/ P
conv2d = Conv2D(kernel_size=2, filters=1)(input)
( o: E2 B5 f$ G4 Y; |& B1 e; n model = Model(input, conv2d)例3.3:一张图像有2个通道,2×2滤波器和3通道的输出
" J) X( _: d( U% M* B. L* r每一个输入特征映射有3个滤波器(紫色,黄色,青色)。产生的卷积按元素添加,并且向每个元素添加偏差项。 这给出了具有3个特征映射的输出。; `' t+ U) y& j
图3.1:对一个2通道的2×2滤波器的图像进行卷积以输出3个通道。这里有27个参数--24个权重和3个偏差。
4 F( h0 I0 \: D" c7 ~
' X6 V) U: k" b: Q8 w, H- i = 2" S R" e& b- E7 l3 ]
- f = 2
7 F! E) }- _; O - o = 3$ ?! E/ ^" z- K/ |+ a' M, ?
参数数量6 W( }* ? D: l
= [i × ( f × f ) × o] + o
) p" l0 _2 d6 ~= [2 × (2×2) × 3] + 3
) R* T2 `$ b8 w9 [. K5 r+ M= 277 I* M3 |, o) p3 d% q& R% u" A; B- ?
input = Input((None, None, 2))
; m- k/ B& R0 A. b# C' P1 l* Rconv2d = Conv2D(kernel_size=2, filters=3)(input)
6 Q- Y+ n2 _5 i2 B: f2 w8 I model = Model(input, conv2d)目前为止就这样了! 如果您有任何反馈,请在下面留言!4 [% B; p- n6 Q' D
想要继续查看该篇文章相关链接和参考文献?; s+ J4 D/ D3 s
, l" g# Y/ r) c" Y t* @
点击底部【阅读原文】即可访问:& R9 M: d4 }8 N9 p- N' I1 g2 [3 H
" s6 D- f, P9 g o! f. x- A& r
: K2 ]8 `0 T' }* ?" U来源:http://www.yidianzixun.com/article/0LfEMRXu2 w7 c2 ?3 H2 Q3 x' l
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|