英語文の erroneous を検出する
一般にESLによる共通したミスとは [Yukio+ 01, Gui and Yang 03]
などなど
語の列 LHS
と、クラス c
からなる LHS -> c
を LSP
と呼ぶ
いわゆるパターンが LHS
であり
それにマッチするなら属すると期待されるクラスとの2つ組を持って考える
列 (LHS
) を \(<a_1 ... a_m>\) で表現する
列 \(<a_1 ... a_m>\) が 列 \(<b_1 ... b_n>\) に含まれるとは
\(a_j = b_{i_j}\) for an \(1 \leq i_1 < i_2 < ... < i_m \leq n\)
とあること
即ち、\(a_i\)が全てもれなくただし順序を保って\(b_j\)に出現すること
LSP (p
) の包含関係は
それのLHS (p.LHS
)の包含関係かつ、クラス (p.c
) が等しいこと
指示度 (support) と 確信度 (confidence) を適当に定義する
LSP p
について、
sup(p)
とは、訓練事例 (Database) 中で p
が含む文の割合conf(p)
とは、sup(p) / sup(p.LHS)
今のタスクに於いてクラスとは次の2つ
Correct
Error
LHS
の生成単語も単語クラスとしてのPOSも同列に使う
これは元の文の長さと同じ長さの LHS
が出来るだけだ
次のようなものが理想的 (confは100%ではないことに註意)
<a, NNS> -> Error
NNS
は複数形<yesterday, is> -> Error
sup
と conf
に下限の閾値を与えた frequent sequence mining algorithm [Pei+ 01] を用いて作る