パターン言語に就て, 空の代入を許すか許さないかで,
Inductive Inference of Formal Languages from Positive Data / Anguin が示した.
Reidenbach によって否定されている.
多項式時間の推論が可能であることを, Shinoharaが1983に示した. Polynomial time inference of extended regular pattern languages
言語の包含関係とパターン集合の構文的包摂関係の等価性を 与えるような Compactness の概念を 1994, Arimura+ が Finding Minimal Generalizations for Unions of Pattern Languages and Its Application to Inductive Inference from Positive Data で導入した. また, Compactness を有する言語和の族を効率的に学習するアルゴリズムを与えた.
2003, Sato+ によって Learning of language generated by patterns from positive examples で与えられた.
2002, Uemura+ によって Compactness and Learning of Classes of Unions of Erasing Regular Pattern Languages で与えられた.
消去可能正規パターン言語の和, 積, 補集合の学習問題を扱う
たかだか \(k\) 個の和積であるところの, \(k\) -和積パターン言語 を対象とする.
二つの表現を定義する
なんか帰納的に有限証拠集合を列挙できることを示す. 最後に, 言語族の集積点の概念とその結果を用いて, 学習不可能であることを示す.
パターンとは, \((\Sigma \cup X)^*\) のことで, 各変数が高々1回出現するものを, 正規パターンという. ここでは正規パターンのみを考える.
assign ::= { units }
units ::= unit | units
unit ::= var := pattern
var
pattern
を代入という.
例えば \(\theta = \{ x := cc, y := xay \}\) なんかが代入.
パターン \(p = axby\) の, 代入 \(\theta\) による像は \(p\theta = accbxay\) である.
二つのパターン \(p, q\) について, \(\exists \theta . p = q\theta\) のとき, \(q\) を \(p\) の汎化と言って, \(p \preceq q\) と表す.
あるパターン \(p\) 変数に空を含む語を代入によって得られる 語全体を言語 \(L(p)\) という.
和積パターン表現 \(P\) に含まれるパターンの集合を, \(E(P)\) で表し, その濃度を \(\#E(P)\) で表す. \(\#E(P) \leq k\) となるものを, \(k\) -和積パターン表現 ( \(CRP^k\) ) という.
和積パターン表現から, その言語は自然に導かれる
みたいに.
\(k\) -和積パターン言語の族を, \(CRPL^k\) という.
正規パターン \(p_i\) に対して,
含まれる正規パターンの数 ( \(k = n\) ) に対して, \(k\) -和パターン表現 だとかいう.
命題論理と同様に, 標準形を考えられる. たぶんだけど, \((p \land ... \land p) \lor ... \lor (p \land ... \land p)\) というやつのことだろう.
2-和積言語 \(L(x_0 a_1 x_1 a_2 x_2 a_3 x_3) \cap L(xcy)\) は, 次の4-和積言語で表現できる.
\[L(x_0 c x_0' a_1 x_1 a_2 x_2 a_3 x_3) \lor L(x_0 a_1 x_1 c x_1' a_2 x_2 a_3 x_3) \lor L(x_0 a_1 x_1 a_2 x_2 c x_2' a_3 x_3) \lor L(x_0 a_1 x_1 a_2 x_2 a_3 x_3 c x_3')\]\(k\) -和積パターン言語 ( \(P\) ) に等しい 和パターン言語 ( \(D(P)\) と書く) が存在する.
証明は理解できなかったけど, 有限ならいくらでもいいんだから, できると思う
言語族 \(\mathcal{L}\) の言語 \(L\) の 特徴集合とは, 語の有限集合であって,
\(S \subseteq L' \in \mathcal{L} \Rightarrow L \subseteq L'\)
となるような \(S\) のこと.
\(k\) -和パターン表現 \(P, Q\) の 二項関係 \(\sqsubseteq\) を次のように定義する.
\[P \sqsubseteq Q \iff \forall p \in E(P), \exists q \in E(Q) . p \preceq q\]正規パターン \(p\) の変数に, 長さ2の語を代入して得られる語全体を, \(S(p)\) と書く. また, 和パターン集合 \(P\) について自然に \(S\) は次のように定められる. すなわち, \(S(P) = \cup_{p} S(p)\) .
\(k\) -和パターン表現 \(P, Q\) に対して, アルファベットの濃度が \(k+2\) 以上ならば,
\(S(P) \subseteq L(Q) \iff P \sqsubseteq Q \iff L(P) \subseteq L(Q)\)
アルファベットの濃度が \(k+2\) 以上で, 和パターン表現 \(P\) , \(k\) -和パターン表現 \(Q\) に就て,
\(S(P) \subseteq L(Q) \iff P \sqsubseteq Q \iff L(P) \subseteq L(Q)\)
\(k\) -和積 \(Q\) を次のような積和標準形で書く.
アルファベットの濃度が \(k+2\) 以上で, \(k\) -和積パターン \(P, Q\) に対して, Pの和パターン言語 ( \(D(P)\) ) を, \(P'\) とすると,
\[S(P') \subseteq L(Q) \iff \forall i. P' \sqsubseteq I_i \iff L(P) \subseteq L(Q)\]言語族 \(\mathcal{L} = L_1, L_2 ...\) が添え字付きであるとは, 帰納的関数
f :: (Nats * Word) -> Bool
f (i, w) = w in L[i]
が存在すること.
文字列の無限列 \(\sigma = w_1, w_2 ...\) が, 言語 \(L\) の正提示であるとは, \(L = \{ w_i : i \in \mathbb{N} \}\) となること.
有限列 \(\sigma[n] = w_1 .. w_n\) を, 初期断片と呼ぶ.
推論アルゴリズム \(M\) は, 初期断片 \(\sigma[n]\) を入力とし, 推測として言語 \(M(\sigma[n])\) を出力する.
\(n\) についての極限が存在するとき, 収束するという.
\(M\) が正例から極限同定できるとは, 任意の正提示について, 同じ言語に収束すること.
言語族 \(\mathcal{L}\) に対して, 極限同定できる \(M\) が存在するようとき, \(\mathcal{L}\) は正例から推論可能である, という.
言語族 \(\mathcal{L}\) における言語 \(L\) の有限証拠集合 \(S\) とは, 語の有限集合であって,
\[S \subseteq L \Rightarrow \lnot ( \exists L' \in \mathcal{L} . S \subseteq L' \subset L)\]言語族 \(\mathcal{L}\) に就て, 次の二つは同値.
アルファベット濃度が \(k+2\) のとき, \(CRP^k\) は正例から帰納学習可能である.
和積パターン表現に, 次を加える.
和積補パターン表現から言語を導くルールとして, 次を加える.
さて, \(k\) -和積補パターン言語は学習不能である.
証明には, 集積点の概念が使われてるため, 私には理解の及ぶところではない.