日本言語学会第121回大会(2000/11/25-26)・研究発表

形態分析プログラムによる
コーパスへの形態情報の付加について

松村一登 (東京大学大学院 人文社会系研究科)
E-mail:kmatsum@tooyoo.l.u-tokyo.ac.jp


1. 周知のように,英語などでは,文法情報が付加された巨大なコーパスが,簡単な手続きを踏めば誰でも利用できる形で提供されている(たとえば British National Corpus;以下,BNCコーパス[*注1])。また,特定のコーパスの検索のために特殊化されたツール(例:BNCコーパス用の Sara[*注2])が用意されていることも珍しくない。こういった条件が整っている場合,コーパス研究者の関心は,提供されているコーパスから求める情報を効率よく手に入れるために,用意されたコーパス検索ツールをどうやって上手に使いこなすかという点に集中する。

 他方,圧倒的多くの言語では,コーパスと言っても,文の境界などのような最小限のタグさえ付いていない,本当の意味で plain text が手に入れば幸運で,ふつうは,コーパス利用者自身が自分でテキストを入力し,文境界を明示するなどして,コーパスとして利用できるまで整形する作業を行っている。さらに,文法情報が付加されたコーパスとなると,コーパス利用者が自分の手作業で付加していくのがほとんど唯一の方法である。また,検索に際しても,一般的なコンコーダンス・プログラムを使うために,自分でコーパスファイルを整形する必要が出てくるのがふつうである。


[ ページ: 1 2 3 4 5 ]

最終更新日 2002-10-10