TanhExp と呼んでる関数 \[f(x) = x \tanh(e^x)\] を活性化関数として使いましょう.
活性化関数として今まで \(\tanh\) とシグモイド関数 \(\sigma\) (これは \(\tanh\) と同型である)くらいしかないところに ReLU が提案されてから深層学習は進展したが, ReLU を更に改良したとされる活性化関数はいくつか提案されてきた. TanhExp もその一つである.
KMNIST, CIFAR-10, CIFAR-100 の Accuracy 勝負で多くのネットワーク構造で TanhExp が最良.
活性化関数そのものとその微分関数の計算時間は学習時間に影響する. 流石に ReLU が最速で, 次が TanhExp か Mish かくらい.