Swish: a Self-Gated Activation Function

活性化関数 深層学習

概要

Gnuplot Produced by GNUPLOT 5.2 patchlevel 0 -1 0 1 2 3 4 5 6 7 8 -4 -2 0 2 4 6 8 sigmoid(x) sigmoid(x) x * sigmoid(x) x * sigmoid(x)

実験

いくつかの実験で活性化関数を戦わせて Swish の良さを主張している.

  1. MNIST/fully-connected (not CNN)
  2. CIFAR-10/ResNet-32
  3. ImageNet/various networks

感想

使う活性化関数の候補の1つにはなり得るが、今までもそうであったように、どの活性化関数使っても基本的に性能は大きくは変わらない. どれがいつも最良の結果である、ということもなく、場合場合で違う.