5. ここで,2.で(i)(ii)として指摘した2つの問題に戻ってみよう。(i) のの問題に対しては,文法情報を表すしくみを統一しようとする Text Encoding Initiative (TEI [*注9])のような試みがあり,BNCコーパスもこれに準拠している。しかし,個々の言語に依存しない品詞カテゴリ,形態論カテゴリの体系の考案は,現在の言語学の状況では不可能とみるべきで,文法情報の表し方を標準化することによって検索プログラムの汎用性を高めようとする方向にはあまり期待が持てないと思われる。

 (ii)の文法情報が付加されたコーパス・ファイルの形式とそれに対応した検索ツールの開発の問題は,(i)と比べると対処がしやすい。文法情報がそれぞれの言語ごとに独自の形式で表わされている現状はそのままとし,ファイルの全体的な形式を1単語ごとに改行する形式に統一し,そのようなファイル形式に合わせた検索ツールを開発するという選択肢を選べば,特定の言語やコーパスに依存する部分をできるかぎり少なくした比較的柔軟な検索ツールを開発することが容易になると考えられる。発表者は,Perl を用いてこのタイプの検索ツールのプロトタイプを考案して利用している。

 このタイプの検索ツールは,BNCコーパスの検索にも十分使うことができる。ただし,その前提として,(1)は(13)のように変換する必要がある。この種の体系的な変換は,Perl の比較的簡単なスクリプトで実行可能である。

(13) 整形したBNCコーパス


[ ページ: 1 2 3 4 5 ]

最終更新日 2002-10-10