A Novel Method for Bilingual Web Page Acquisition from Search Engine Web Records

自然言語処理 自動翻訳

検索エンジンを使って bilingual web page を探す

Introduction

こういうのを使って有益なパラレルコーパスを作る既存研究がある (Jiang, 2009)

既存研究だとweb page を決め打ちで使ってるだけなので、 検索エンジンを用いて手広く蒐集したい

Overview

  1. Baidu を使う
  2. parallel sentence pairs で検索
  3. ヒットしたページについて、HTMLタグ奇麗に取り除いてそれっぽいテキストを抜き出す
  4. ちゃんと bilingual になってるかどうかを判定 (分類)

Clustering with Path Similarity

HTMLタグのパスで欲しいテキストを抽出する

一つのパスによって表現されるHTML要素は、大体一つのページにおいては一箇所に固まっていて、 その重心をもってパスが指す座標 (一次元) とする. web page の上で近い位置にあるものは、似たクラスにあるテキストだろう.

Data Record Extraction

Bilingual Web Page Verification

Experiments and Results

Dataset

Evaluation

Conclusion