Sun Dec 11 2016

いつも通り negainoido チームにお邪魔して参戦した. いつも通り私は、バイナリ解析といった王道な問題は全然なので、ちょっと邪道な問題に手を付けていた.

SECCON TOWER

問題は次の動画を読み取って PNG 画像を得よ、ということらしい.

(問題を知らない人は ↑ この動画の (せめて) 最初の2分くらいは我慢して見て下さい)

考えたこと

ロボット？ (よく見ると伏せた紙コップの中にラズパイを仕込んで作ってある) がどうも手旗信号みたいなのを振っている. 最初の 70秒程度は、チュートリアルである. ロボットの動きに対して人間がノートに "WELCOMETO..." とペンで書き込む. ロボットの一つのポーズが一つのアルファベットに対応してることが推測できる. だとしてもいくつかのアルファベットが欠けているので完璧な対応表をここだけで得ることはできない.

以降50分に渡って、ロボットがひたすらポーズを取っていくので、対応する文字を列にして、何かしらの方法でバイナリにデコードすると PNG 画像になるのだろう.

ポーズとポーズとの間隔はほぼ、1秒であった. おそらく、ぴったり1秒になるように調整されてるのだと願い、フレームを切り出して、機械的に振り分けることにした. はじめは画像をピクセルのベクトルに変換して、コサイン類似度を取って、高かったら2つの画像は同じポーズを示している、、、、で分類することにした. ココらへんに関しては後述.

結局大事だったのは、とりあえず、ロボットの一つのポーズを一つの文字だと思って (それが実際には何の英字や数字に対応してるかは気にせず) 最初の100文字程度を手でアノテートしてみたこと.

ロボットの腕の形は、中心が固定されてぐるぐる廻る長い棒と、その両端に関節がある小さい棒の三本で構成される. 長い棒は、地面に対して、0度、45度、90度、135度の四通り. 小さい棒は、長い棒に対して、90度未満程度、右、左、または長い棒と重なった状態の三通り. 以上から、 4x3x3 で 36 通りありえる. これをラーメン屋でチームの皆に話した所、BASE36というのがあるらしい. 英字+数字で表現するらしい. しかし自分は36通りの内、35通りしか切り出したフレーム (ロボットのポーズの瞬間を取った画像) から発見できなかった (これについても後述). BASE36 なら 36 文字全てが出てこないのは怪しい.

フレームの切り出し

ポーズは1秒間隔で、動画は50分なので、ポーズ、すなわち読むべき文字は3000文字. 最悪、人間が全部読み取るのも覚悟しつつも、とりあえずの方針は、機械的にフレームを切り出して機械的に判別させることとした. 人が見るにしても、フレームの切り出しは必要. 何番目のポーズの文字は何々、という情報を共有するのに、動画を初めから睨んで、そのポーズが何番目かなんてカウントしたくないので.

最初、自分は次のように単純な方法でポーズ画像を得ることにした. あ、動画は YouTube にあるが、どうにかこうにかして手元に input.mp4 としてあるものとする.

# 動画 -> ポーズ
ffmpeg -ss 75.5 -i ./input.mp4 -f image2 -vcodec png -r 1 "./pose/%05d.png"

75.5秒を起点に、1秒に1枚、スクリーンショットを取って保存する. これはロボットがぴったり一秒ごとにポーズを取ってくれることを期待している. ついでに、画像全体だと無駄が多い. ほしいのはロボットの腕部分だけだし、ついでにいうとカラー画像である必要はない. HDD を圧迫するし.

for f in pose/*.png; do
    g=crop/${f#*/}
    convert -crop 400x400+520+20 -type GrayScale $f $g;
done

こんな感じ. 最初の方はいいんだが、後半、なんだかロボットの動きが鈍くなってく気がする. 動きがたま〜に、遅いんだか、まだ腕を動かしてる途中のフレームを切り出してしまうことがある.

躍動感がある. ちょっと腕がブレてるぐらいならいいが、実際と違うポーズに見える瞬間を切り取ってしまったことがあった. 先程、35通りのポーズを確認したと言ったがそれは嘘で、これが原因だった.

ちゃんとロボットが動きを止めてることを確認して、フレームを切り出さなければならなかったのだ. ここはチームメイトにタスクを投げたので私はやってないが、次のようなことをやってもらった.

+12 周辺を見るのは、やはり基本的にポーズの次のポーズは 1 秒後、すなわち 12 フレーム後であるはずというヒューリスティック.

自動識別

きれいなポーズ画像が 3000 枚、手に入り、それまでにやってたアノテーションは誤りを多く含むことがわかった. 先程、 36 種類の文字を表現できるのに 35 種類しか発見できなかったと述べたが、実は誤りで、35 どころか 32 種類しか無いことが発覚した. ここらへんで @autotaker1984 さんが chappe system なるものを見つけ、加えて BASE32 であることを推理したので話が一気に簡単になった.

いくつかすぐ気づく例外として、chappe system の "&" (アンパサンド) が SECCON TOWER の "J" である. あとあと、動画の最初のチュートリアルでは、次のポーズ、

は "." (ピリオド) に対応しそうな雰囲気だったが、BASE32に "." などない. 本番のスタートもこのポーズからスタートしているが、途中で一切出てこないので、気にしない (存在しない) ことにした. ちなみに padding の "=" というつもりでもないらしい. 動画の最後は "A" で終わっているので.

で、さて、自動識別であるが、フレームの切り出しにも利用した画像のコサイン類似度は、まるで使い物にならないことは結構初めに気づいていたので (今回これがダメな理由は [http://wgg.hatenablog.jp/entry/20161211/1481451044:title] にある通りです. でももっと工夫すれば頑張りの余地はありそう)、MNIST と同じ要領で簡単なCNNで32に分類させることにした.

コード自体は全然なんということもなく、chainer でちゃちゃっと書いた.

import chainer
import chainer.functions as F
import chainer.links as L


class SecconTowerClassifier(chainer.Chain):

    def __init__(self):
        super().__init__(
            bn0=L.BatchNormalization(3),
            bn1=L.BatchNormalization(8),
            c1=L.Convolution2D(3, 8, 3),
            c2=L.Convolution2D(8, 32, 5, stride=2),
            c3=L.Convolution2D(32, 64, 5, stride=2),
            out=L.Linear(None, 32)
        )

    def forward(self, x, train=False):
        h = x
        h = F.average_pooling_2d(h, 3)
        h = self.bn0(h)
        h = F.dropout(h, 0.5, train=train)
        h = self.c1(h)
        h = self.bn1(h)
        h = self.c2(h)
        h = F.elu(h)
        h = self.c3(h)
        h = F.max_pooling_2d(h, 3)
        h = self.out(h)
        return h

    def __call__(self, x, t):
        h = self.forward(x, train=True)
        loss = F.softmax_cross_entropy(h, t)

        # Acc
        n = x.data.shape[0]
        _i = chainer.cuda.cupy.argmax(h.data, axis=1).reshape((n, ))
        acc = chainer.cuda.cupy.sum((_i == t.data)) / n

        chainer.report({'loss': loss, 'acc': acc}, self)
        return loss

学習も何十分何時間も回していない. 何と言っても学習データは自分一人で作っていたので、そんなに数が無くすぐに収束するので. 学習を回しながら学習データを増やしてって、ちょっと溜まったら学習をリスタートさせるというサイクルを30分位？繰り返していた.

以下、作ったデータセット. 行の頭がラベル (chappe system ならぬ seccon tower におけるポーズが表すシンボル) で、続く数字の列が、何番目のポーズであるか. 例えば 1 番目のポーズは "R". 2 番目は "F".

見たら分かるように、「ディープラーニング」をするにはあまりにも事例数が足りない. 一応訓練事例において正解率 97% を超えてたことにはなった時点で学習を終了した.

たった 10 の文字に分類する MNIST ですら、100% の精度を出したという報告はない. すなわち多少の誤りは諦めるしかない. @autotaker1984 のアドバイスにより、機械学習の識別でポーズ画像をディレクトリに分けて、あとは人間の目でチェックすることにした. 基本的に分類はほぼ成功しており、人間がすべきコトは、多くの同じポーズの中に、別なポーズが混じっていないかを確認するだけなので、そんなに難しくはなかったし、誤りは 3000 ポーズ中、10 程度しかなかった.

10程度誤ったと言ったが、それらは全て、UとV、QとM の取り違いであった. 次にそれぞれのポーズを示す.

まあ、似てる. しょうがない. 人間の手で修正したあと、base32 列になおしてバイナリに直したところ、次の画像を得た.

Macのプレビューでは強引に開けるものの、いまブログにアップロードしようとすると「未対応のファイル形式です」と怒られたし、明らかに最後の方、壊れてる. でもカメラでは読み取ることが出来た. 読み取るとフラグ及びスペシャルサンクスを得る. よかった.