Data Augmentation by Pairing Samples for Images Classification

original paper: https://arxiv.org/abs/1801.02929

概要

arxivにData Augmentationについての論文を公開しました．画像認識タスクで学習時にトレーニングセットの画像を2枚ランダムで選んで重ね合わせてみたら，びっくりするくらいエラー率が減った話です（ImageNetやCIFAR-10で15％くらい，最大で30％近く） https://t.co/pEumNkVquw
— Hiroshi (Taku) Inoue (@inoueh) January 10, 2018

画像認識のためのデータ水増しのテクニック. 異なる2枚の画像を重ねて (mixture) 、それを学習データに追加する (SamplePairing). 単純にデータ数が自乗に増える.

方法

異なる画像を (ラベルを気にせず) 2枚選ぶ. 重ねて出来た画像に元の画像の一方のラベルを与えて学習する.

NOTE: 著者によれば、同じラベルのペアに限定する方法も試したそう (https://twitter.com/inoueh/status/950990313371222016) だが、全て使ってしまったほうが良いらしい.

他

実験的には3個合成よりは2個のほうが良かったです．直感的には合成しすぎると，何がなんだかわからなくなる気がしますしｗ濃度を変えて混ぜるとかもやったんですが，結局単純な2個平均がベストだったので・・・．
— Hiroshi (Taku) Inoue (@inoueh) January 10, 2018

追記

mixup という名前でほぼ同手法が提案されていた. 論文はこちらが通っている.