漢字六万四千字のフォントセット公開に向けて


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

その2へ

その3

多言語の中の日本語

 我々のプロジェクトは、しばしば漢字プロジェクトと誤解されるきらいがあるが、本来はコンピュータによる多言語同時並行処理が可能になってほしいという、まことに素朴な発想から始まった。簡単にいえば、私の場合には日本語とフランス語が混在するようなテクスト(例えば仏和辞典)を読んだり書いたりできること、そしてそのテクスト・データがコンピュータの機種やOS(つまりウィンドウズやマック)やソフトに依存せずに、21世紀にむけて恒久的に維持しうるものであること、そのような多言語処理システムの構築を夢みたのである。むろん、コンピュータ・システムの構築そのものは専門家に任せるとして、人文学研究の基盤となるべき文字基盤の整備が我々の課題であった。そこで、フランス語はさておき、手始めに日本語を中心とする多国語処理の問題を考え、実現しようとしてきたのである。

日本語の中の多言語

 今から思えばこの「手始めに」がすでに安易だったのだが、仏文専門の者にも日本語は避けて通れない。良かれ悪しかれ、私の場合にはフランス語を通して、同僚の片山英男さんの場合にはギリシャ・ラテン語を介して日本語を見ているわけで、もし我々のプロジェクトになんらかの特色があるとすれば、それは「多言語の中の日本語」を捉える視点であり、そして日本語の柔構造の中に入り込んでみれば「日本語の中の多言語」のありようを柔軟に理解しようとする姿勢だろう。後者の簡単な例をあげれば、カタカナの外来語には原語の併記が必要になることであり、もっと大きな問題は「漢和辞典」も「仏和辞典」も、外国語の辞書であると同時に広義での国語の辞書でもあるという現象を指す。さらに敷衍すると、フランス語のテクスト処理で可能なことが、日本語のテクストではどうして不可能なのかという、一見自明と思われる点を考え直す視点もあげられよう。例えば、フランス語の辞書に慣れた者としては、日本語のある熟語表現なり語句・成句が日本の文章にいつから登場し始めたのかを知りたいし、語ないし語義の変遷に関する時間軸の設定が一般的な国語辞典になぜないのかわ、つねづね不思議に思ってきた。
 いずれにせよ私には日本語固有の問題に対する知識がまったくないので、日本語の文字については国語学の山口明穂先生にお願いし、全面的に先生のご判断を仰ぐことにした。大変な仕事を先生に押しつけてしまったので、及ばずながらその補佐役を引き受けてきた次第である。

多国語テクスト処理の現状

 本来の多国語テクストの処理については別途に詳しく紹介することにして、要点のみを記しておく。フランスではすでに「フランス語宝鑑」として完結した辞典編纂のために、30年ほど前から電子化してきた文学作品が、今日2千を超え、そこから自由な語の検索が可能になっている。イギリスでは大英図書館が、西洋語に限られてはいるが、ギリシャ語やキリル文字を含む多国語処理による電子図書目録を完成し、従来の図書カード索引の枠組みを画期的に超えた「全文検索」システムを実用化している。イタリアのフィレンツェでは、ラテン語からイタリア語として独立した時代にまで遡り、12、13世紀のイタリア語写本のコンピュータ入力作業を、校訂作業と並行して、30年ほど前から継続して行っており、1千種のテクストをすでに電子化してきた。いずれも国家的な継続的事業として自国語・他国語のテクストの入力作業が行われていることは、言語とくに自国語に対する尊敬の念を示すものであり、また文字文化の未来への基盤として、テクストの校訂と電子化が並行しておこなわれていることには感銘の深いものがある。
 また、台湾で入力された中国「二十五史」の膨大な電子化テクスト(約4千万字)一式を文学部に導入した。中国語のシステムでなければ使えないという制約はあるが、自由自在に語彙の全文検索ができるすばらしいものである。将来の中国研究にとって画期的かつ貴重な研究手段であることはまちがいない。韓国では「朝鮮王朝実録」のハングル文字版がすでに刊行され、漢字版が用意されつつある。

イメージ日本語テクスト電子化の道程

 日本語文献の電子化作業を考えた場合、次のような段階が考えられる。原典を愛好するフィロロジーの立場に固執すれば、原典をできるだけ忠実に再現することがまずは第一条件である。わかりやすいように一例をとると、例えば「平家物語」の貴重な手書き写本があるとする(写本選択の問題はここでは論じず、すでに評価の定まったものとする)。従来のマイクロ・フィルムに代えて、技術的に可能な限り最高の高精細画像によって、写本の電子コピーを作る(第一のテクスト)。しかし、当然ながら画像だけでは文字検索はできないし、文字データの蓄積(索引、使用文字種、等々)にはならない。とはいえ、便利だから、読みやすいからといって現在の規格にある7千弱のJIS規格文字(フォント)の限定された枠内で電子化することは、この段階では論外である。活字の時代には印刷所に無い活字を作らせてまでも、出来る限り忠実な校訂版を作成したはずである。電子文字がないからといって校訂版の水準を下げてよいものか。活字時代の校訂版を参照しつつ、少なくとも活字と同じ程度には規格にない文字のフォントを作って、電子テクスト化する(第二のテクスト)。
 そこから先は、ルビを振ろうが、全文ひらがなに代えようが、わかりやすいテクスト(第三のテクスト)を併記することは、いかようにも可能である。私の提案としては、平家物語全文を朗読する「音声のテクスト」もあってほしいと思う。というのは、画像と校訂版とを画面上で見比べるのはしんどい作業で、私のような門外漢は、むしろ朗読を聞きながら画像を見たいような気がするし、そうでもしなければ素養のない者にはとうてい写本を判読できない。平安時代の発音の再現は不可能かもしれないが、音楽学の成果を採り入れた平家琵琶の音を入れることは可能だろう。かくして、夢が実現すれば、現存する最高の写本を身ながら、「平家物語」のマルチメディア・テクストを楽しむことができるかもしれない。従来は限られた専門家だけが手にすることが出来た写本や絵巻を、たとえ電子画像でしかなくても、興味のある誰でもが楽しむようにしたいし、むしろ中高生に今日手にしうる最高の資料体を通して古典文学に親しんで欲しい。このようにして、技術的な進歩が、安易な効率主義に向かうのではなく、知の開放を促す方向を目指してほしいと願っている。逆に言えば、画像と校訂版とを自由に比較することによって、専門知に支えられた忍耐強い精緻な校訂作業の過程を、誰しもが追体験できるようになるだろう。

文字が先かテクストが先か

 画像があれば校訂版(第二のテクスト)は不要だという人もいるかもしれないが、画像の字をすらすら読めるのは訓練を積んだ専門研究者だけで、研究者によって読み方が異なる場合もあることを見過ごしている俗論にすぎない。文字データの正確な蓄積のためにはこの第二のテクストこそが重要である。ところで、「平家物語」中の規格に無い文字は、いわゆる規格外の「外字」になってしまうが、その種の「外字」の集大成にコードをふって使えるようにしようというのが我々の当初の目標であった。順序としては、本来はこのようなテクスト電子化作業を通じて、外字を収集することが筋道だろう。ある文字が、いつの時代に、どのようなテクストの中で、いかなる文脈で使われたかが、かくして特定されるのである。ところが、コード化されていない外字は常に捨て去られる運命にあるのが実状である。卵が先か、鶏が先かの論であって、我々は先人の集約した資料体(各種の辞書類)によって、おおよその目安で漢字を先に作ることにしたのである。

画像から文字を切り出す方法

 最後にテクスト入力について一言触れておくと、一般的な傾向としては従来のOCRの技術的限界に見切りをつけ、結局人手で入力をせざるをえない情況にある。ただし、大変印象的であったのは、大英図書館で、ある若手の技術者が目録を画像入力し、その画像から直接必要な文字を検索できるように、パターン認識に秀でた、そしてかなりの学習能力を備えた人工知能的ソフトの実用化に取り組んでいた。これが可能であれば、貴重書をテクストとしてではなく画像として保存し、必要な時に求めている語彙の検索ができる大変有益な画期的な技術だと思う。日本語でも可能だろうか。人件費の高い日本では、少なくとも実験してみる価値はありそうである。今後のわれわれの課題でもある。

 最後に、あえて個々の方々のお名前は記さないが、ご協力いただいたすべての方々に深甚なる感謝の念をささげると同時に、なお一層の広範なるご支援をお願いし、このプロジェクトの成果が文字文化の継承と未来に少しでも役立つことを願いつつ、本稿を終える。

1997年10月
(文責 田村 毅)

その2へ


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

連絡先=東京大学文学部仏文研究室
〒113-0033 文京区本郷 7-3-1
電話 代表03-3812-2111 (内線3842)/fax 03-5800-5916
Email=gt@L.u-tokyo.ac.jp