HTMLテキストから、ある関係 R にあるような 二つの名詞からなるタプルを回収する。
彼らのシナリオでは、 (本のタイトル, 著者) を回収する。
このタプルのことを R と言ってる?
R' = SampleO = FindOccurrences R', DP = GenPatterns OR' = M_D Pgoto 2pattern とは、 (author, title, order :: Bool, url, prefix, middle, suffix) のこと. order以外は 全部 String 型。 prefix, suffix は長さ m (以下?) とする。
つまり、tokenizeはしない。 対象がHTMLなので、これは妥当だ。
url は文書のURLを表す(つまり文書ID)けど、 ちょっと謎なことを後でする。
order == True のとき、 文中に、 author, title が順に現れ、 author の直前の m 文字が prefix で、間が middle で、 title の直後の m 文字が suffix である。
order == False なら、 title, author の順で現れること。 ほかは同じ。
ある order , title , author に対して、 共通の middle を持つ文を見つけたら、
それぞれの、prefixの最長suffixを prefix' , それぞれの、suffixの最長prefixを suffix' , それぞれの、urlの最長prefixを urlprefix とする。
outpattern = (title, author, order, urlprefix, prefix', middle, suffix')
specificity = (length middle) * (length urlprefix) * (length prefix') * (length suffix')
specificity が適当な閾値より小さかったら捨てる
"www.sff.net/locus/c.*"
("<LI><B>", Title, "</B> by ", Author, " (")