次の仮説を検証する
ランダムに初期化され十分に密な NN \(M\) があるとする. このときある部分 NN \(N\) \((N \subset M, N \ne M)\) があって, \(M,N\) を独立に学習させると同程度の精度を達成する.
この部分 NN, \(N\) のことを当たり券 (winning ticket) と呼んでいる.
また部分 NN の実装は, 各枝にマスク \(m \in \{0,1\}\) を掛けることで実現する.
Figure 3 を見ると, 確かにこの宝くじ仮説は正しそうに思えて, 21% にまで削減しても, 同程度の性能を出している. 平均で見るとやや悪くなっているくらい.
初期状態に戻すという最後の工程をしないで, ただ枝刈りだけすると, 基本的に性能が上がる. 極端にやりすぎるとさすがに下がるけど, 例えば LeNet を 7.0% にまで減らしたものの方が有意に性能が上.
他にも実験が豊富