Detecting Erroneous Sentences using Automatically Mined Sequential Patterns

英語文の erroneous を検出する

Erroneous

一般にESLによる共通したミスとは [Yukio+ 01, Gui and Yang 03]

などなど

語の列 LHS と、クラス c からなる LHS -> c を LSP と呼ぶ

いわゆるパターンが LHS であり
それにマッチするなら属すると期待されるクラスとの2つ組を持って考える

列 (LHS) を \(<a_1 ... a_m>\) で表現する

列 \(<a_1 ... a_m>\) が列 \(<b_1 ... b_n>\) に含まれるとは

\(a_j = b_{i_j}\) for an \(1 \leq i_1 < i_2 < ... < i_m \leq n\)

とあること
即ち、\(a_i\)が全てもれなくただし順序を保って\(b_j\)に出現すること

LSP (p) の包含関係は
それのLHS (p.LHS)の包含関係かつ、クラス (p.c) が等しいこと

指示度 (support) と確信度 (confidence) を適当に定義する

LSP p について、

今のタスクに於いてクラスとは次の2つ

単語も単語クラスとしてのPOSも同列に使う

これは元の文の長さと同じ長さの LHS が出来るだけだ

次のようなものが理想的 (confは100%ではないことに註意)

sup と conf に下限の閾値を与えた frequent sequence mining algorithm [Pei+ 01] を用いて作る

function words
[Pei+ 01] J.Pei, J.Han, B.Mortazavi-Asl, H.Pinto: Prefixspan: Mining sequential patterns efficiently by prefix-projected pattern growth