もっと大きなベンチマークが必要. Kuzushiji-MNIST はくずし字 (cursive Japanese) を集めたデータセット. さらに大きなデータセットとして Kuzushiji-49 と Kuzushiji-Kanji も用意した.
Kuzushiji-MNIST は MNIST の置き換え, Kuzushiji-49 は画像がより大きく, 48の平仮名と繰り返し記号の文字がインバランスに含まれるもの, Kuzushiji-Kanji は 3832 種の漢字がインバランスに含まれるもの. 後者2つについては文字の頻度は実際のテキストでの頻度のままで調整していない.
Kuzushiji-MNIST と -49 でベースラインを作った.
Kuzushiji-MNIST は98%とかそのくらい.
くずし字を現代風の普通の漢字に画像として変換するタスクをやった. 結構出来てる.