[ ページ: 1 2 3 4 5 ]

3. エストニア語とフィンランド語の場合,ともに比較的大きなコーパスを利用することが可能であるが,コーパスをめぐる状況はかなり違う。

 エストニア語は,約480万語の plain text が,インターネット上でダウンロード可能になっているほか,索引サービスがある[*注5]。ただし,オンラインでのサービスは非常に限定されているため,公開されているコーパス・ファイルをダウンロードして手もとにおいて利用する方が効率的である。また,エストニア語のテキストに対し,単語ごとに形態素分析と品詞情報付加を行う DOS用プログラム(ESTMORF [*注6])のユーザライセンスを取得し,コーパス・ファイルとともに Windows 上で利用することが可能である。

 すなわち,エストニア語の場合,コーパスと形態分析プログラムを一緒に自分の Windows パソコンにインストールし,コーパス検索のためのシステムを構成することができる。ただし,ESTMORF の実行には比較的時間がかかるので,コーパス検索を行うたびに実行するのは効率的ではない。発表者は,plain text を ESTMORF で処理した出力を整形したものを文法情報が付加されたコーパスと見なして検索するシステムを考案して利用している。これを便宜的に「エストニア語方式」と呼ぶことにする。

 フィンランド語の場合,UNIX サーバーにおかれた2000万語を超える plain text を telnet で利用することが可能である[*注7]が,コーパス・ファイルのソースをダウンロードすることは,著作権上の理由から許可されていない。また,WWW によるオンラインの検索サービスもない。Linux サーバーでは,さまざまなツールの他に,フィンランド語のテキストに対し,単語ごとに形態素分析と品詞情報付加を行うプログラム(FINTWOL [*注8])が利用可能である。FINTWOL には Windows 版もあって,UNIX 版と同様,ユーザライセンスを取得して手もとで使用することができる。

 すなわち,フィンランド語の場合,現状では,コーパス検索を telnet による遠隔操作で行わなければならないので,コーパス検索のシステムを手もとに構成することは不可能である。発表者は,plain text に対して正規表現による検索を行ない,FINTWOL による形態分析を検索のたびごとに一種のフィルターとして実行するという,すべての作業をサーバー上で行う方式を考案した。これを便宜的に「フィンランド語方式」と呼ぶことにする。この方式では,形態分析の結果を一時ファイルに保存する形になっているので,一時的ではあれ文法情報を付加したコーパスファイルが作られることになり,この点で,エストニア語方式とのノウハウの共有がかなりの程度まで可能である。

 エストニア語の場合,文法情報が付加されたファイルと,コーパス検索用のツールをセットにして CD-ROM で供給し,ユーザは自分のパソコンにインストールして,コーパス利用を行う方式が実現可能である。他方,フィンランド語方式の場合は,コーパスそのものを CD-ROM で供給できないので,コーパスがおかれているサーバーに telnet アクセスして,サーバー上でほとんどの作業を行うという方法にコーパス利用が限定されてしまう。


[ ページ: 1 2 3 4 5 ]

最終更新日 2002-10-10