漢字六万四千字のフォントセット公開に向けて


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

その1へ

その2

その3へ

テクストは文字の集合

 同じことがテクストの電子化にもいえよう。新たな媒体としてCD-ROMに電子化された「広辞苑」が大変よく売れているそうである。この中にもかなりの数の「外字」が使われているが、見るだけでは妨げにならないように工夫されており、付属するものとは別の書体のフォント集にしないかぎりその障害に気づいた人は少ないはずである。しかし、頻度が少ないとはいえ「外字」が交信交換不可能なことにはかわりはない。ところが、2万字を超えた「漢和辞典」の電子化になれば、話はべつである。引用するためにワープロにコピーして使ったりすれば、その障害は一目瞭然になるだろう。

文字のない電子図書館?

 機種に依存しないデータの互換性と次世代にも使える恒久性が保証されない限り、膨大な労力を要するテクストの電子化や文献目録のデータベースの構築は壮大なる無駄になりかねない。ちなみに、世の中でもてはやされている「電子図書館」とはなんなのだろう。英語の最新情報が読めたり、新聞の閲覧がインターネットでできるだけで「図書館」といえるのだろうか。どんな貴重な文献が電子化されたテクストとして作成され、蓄積され、公開されているのか、知りたいものである。
 たとえば、明治大正期の夏目漱石や森掌外(「鴎」は不正確)の作品であっても、テクストとして入力するならば、誰しもが手にするわけにはゆかない初版本とか、著者によって決定稿とされたものの、正確かつ忠実に写したテクストであってほしいと思う。当用漢字内の漢字に制限された文庫本を電子化しても、学術的には無駄であり、文庫本を買って読めばいいのだから商業的にもメリットはないと思うが、昨今の傾向はややもすればその手の安易さをもって電子化がおこなわれているきらいがなきにしもあらずで、要するにコンピュータ組版の副産物としての安手の電子文庫本が流行するのかもしれない。
 ところが、漱石でも掌外でも、当時のテクストは旧字体でとうてい現在の規格内7千字では電子化できない。またまた「旧字体でだれが読むのですか」という市場性を重視した反論が聞こえてきそうである。原著者が意図したとおりの最良のテクストを誰にでも公開し、読むことを可能にすることのほかに、電子化する文化的な意義があるのだろうか。当時の用字法のままにルビのふられた旧字体が読みにくければ、並行して現代かなづかいに直した現代版を付ければよいし、音声化すればよいが、それは真正なテクストそのものにとっては二義的なことでしかない。

「漢字は奥が深いですよ」

 さて、日本の文字の電子化、とりわけ漢字を網羅的に収集し、電子化しようとするわれわれの出発点を説明してきたが、以下に昨年から今年にかけて3年間の奮闘の成果の一端を紹介しよう。昨年はもっぱら現在の日本社会で流通している漢字の収集に精力的に取り組んだ。当初はさまざまなところから借りてきた漢字フォントを用いて、網羅的な漢字統一コード表を作成すればよいと考えていたのだが、実は漢字にはさまざまな権利関係が錯綜していて、主にデザイン権とでもいうのか、慣習的に商業的な権利が設定されているそうで、「漢字は奥が深いですよ」という、なぐさめともおどしともとれる忠告が切実に身にしみ、挫折感にとらわれた。

現在流通している漢字の収集

 まずは岩波書店辞典部の協力をえて、「広辞苑」で使われている外字リスト(1700字)を見ることができ、大手印刷会社の協力がえられたところから展望が開け始めた。そして「研究資料として」という限定付きで現在印刷業界で使われている約2万字の文字フォントの提供があった。その頃から、一般に公開するためにはわれわれ自身が漢字フォントを作らなければならないと決意せざるをえなくなった。6万字の漢字を書家に依頼しようとまで思ったが、費用と時間の点で断念した。後になると無料でフォントを提供しようという親切な方々にもお会いしたが、結局はどこかで権利関係の問題が起こりかねないし、6万字から8万字を目指してコード表を作る上でも、つぎはぎだらけの文字よりは統一性のとれた文字のほうがよいにきまっている。幸いにリコーのフォント開発センターの協力が得られたので、フォント制作を依頼することになった。
 つぎにはNTTの電話帳事業部にお願いして、電話帳で使われている人名・地名に用いられた「外字」のリスト(5千字)を提供してもらい、そこで使われている漢字フォントをNECからあくまでも研究資料として借りることができた。日経新聞社からは、新聞で用いられた外字リスト(370字)を見せていただき、中国要人の氏名に用いられたとおぼしき漢字の存在を再認識することになった。
 そのほか、漢和辞典で用いられている標準的な漢字(5万字)、ユニコードに収容されるとおぼしき漢字(2万字)、JIS規格漢字(1万2千字)、日本印刷産業連合会外字リスト(5千字)などを合計すると、結局のところ、約13万字を収集したことになる。むろん重複はある。

漢字データ・ベースの構築

 以上の資料体を整理するための漢字データベースの作成が急務になった。十年ほど前に山口明穂氏が中心になって作ったデータベース約7千字分が、未完成のままであったので、富士通に依頼してデータを変換し、最終的には大日本印刷に修正作業入力をお願いして完成させた。この漢字データベースは、音訓、部首、画数、各種コードとともに引用例が入っている貴重なものであるが、これをベースにして2万字から6万字(あるいは8万字)の漢字データベースの構築を目指すことにした。フォント制作過程での工程管理の意味もあるので、同じくリコーに依頼した。

まずは2万字、そして6万字の漢字を目指して

 今日流通している漢字は2千字ぐらいまでで90%、さらに5千字ぐらいまでで使用頻度の99%を占めるといわれているが、実はその残りの1%を網羅するためには漢字をどれほど用意すればよいのか、よくわからないのが現状だ。印刷業界で用意されている漢字としては約2万字が基準になるようである。ただし、2万字の漢字をどれほどうまく選択したとしても、頻度の分類はもはや不可能であり、また必ず漏れがでる。地名・人名、医学用語や動植物名、そして漢和辞典や百科事典など、漏れがないように漢字を集めると最低でも6万字は必要になり、これに歴史的に日本で作られてきた国字、さらにやっかいな異体字を含めるとなると、ゆうに10万字を超える。これに書体別の特徴を数え上げると倍々になろう。どうしても2万字に限定するならば、医学用語、動植物名、機械工学、あるいは地名・人名など、5千字ぐらいづつの分野別のブロックにわけて、置き換えられるように用意するのも一つの解決策ではあろう。
 しかし、一応の目安としてはあっても、2万字に限定しなければならない技術的な条件はわれわれにはない。学術用としては「漢和辞典」がある以上、既存の漢和辞典に使われているほぼすべての漢字をまずは網羅する必要がある。すでに収集した現在流通している漢字群と比較照合するために、併せて13万字以上のデータ・ベースになったが、重複しているので、精選すれば6万字から8万字ぐらいにはなる。
 漢和辞典もやはり外国語の辞典である。日本で使われてきた肝心な文字が抜け落ちてしまう可能性がある。そこで国文研究室の長島弘明氏に、「大漢和」にない文字の収集を依頼したところ、2000字を超える「国字、異体字、難字」の文字が収集され、出典や読み、画数などを記載した貴重な資料体を構築して下さった。やがては国文学のテクストや目録を電子化する上で、収集された文字が役に立つものと確信している。

GT明朝フォント・セット

 当初、我々にはフォントを作る気はなかった。様々な文字フォントに関する権利関係が錯綜する中で、プロジェクト用のフォントを作らざるをえなかったのが実状である。文字制作はリコー・フォント開発センター(飯田勝彦所長)に一任した。アウトライン・フォントとし、書体は明朝体一種類に限った。一般になじみやすいと言う理由で明朝体にしたが、これは妥協策であって、明朝体漢字に固有の不正確な字形については、いずれは、我々に余力があればだが、山口先生のご希望に即した教科書体に近いものを作って訂正する予定である。このフォント・セットは、パトロンである日本学術振興会のGと東大のTを合わせて、正式には「GT明朝」と呼ぶことにしたが、分かりにくいので通称は「東大明朝」と呼ばれている。
 実際には、ウィンドウズ95であれ、マックであれ、一書体約6500字の枠組みしかないので、64000字は10書体(GT明朝1、2、3・・・)に分けてOSに組み込む。同様にUNICODEにも対応する予定だが、詳細は未定で、漢字用の20000字分だけではなく、コードの枠組みを漢字用に最大限利用できれば便利だと思っている。現在のところ、技術的にはTRONがもっとも安定した日本語漢字の枠組みを提供してくれそうである。

「エレメント」検索による漢字データ・ベース

 そのすべての漢字に音訓、部首、画数、各種コードを入力するのだが、中には読みも出自(どのような資料体からでてきたか)も分からない漢字がある。4000字を超えれば、いうまでもなく私にはほとんどわからない漢字ばかりである。そこで、電子情報ならではの新しい工夫として、読みも部首も画数もわからなくても、漢字を構成する各要素(タテ棒ヨコ線の類)、あるいは要素群(「木」や「竹」の含まれている漢字)で引けるようにした。
 それを「エレメント」検索と名付けた。従来の漢和辞典的な部首・画数検索も当然可能だが、中心は漢字を各要素に段階的に分解した部分(木、月、日、山、あるいはタテ棒、ヨコ棒のレヴェルまで)の組み合わせで検索できるシステムを考えた。部首、扁(へん)、旁(つくり)、画数などの基本的な知識がなくても、該当する漢字が見つかるようにした。要は、部首もよく分からないし、画数は数え間違える私にも引けるようにしたのである。
 当面の入力装置としては、このエレメント検索と、検索された漢字のコピー&ペーストで十分だろう。64000字すべてを常時使うわけではなく、またこのレヴェルでは入力に要求される頻度もさして高いわけではない。

日本語を見る装置(ヴュワー)

 6万字も誰が使うのですか、という批判に近い冷ややかな質問を、プロジェクト発足当初から受けてきた。「使いたい人がいつでも使えるように」と答えることを原則にしてきた。「使う」とは、なにもすべての漢字を「覚え」て、「書く」ことではない。
 日本語文献には、法律・経済用語集もあれば、医学・理工学事典もある。動植物辞典もカタカナだけでは分かりにくい。分野の拡がりばかりではなく、時代も二千年、いや日本文化に移入された中国語文献も考えれば五千年の漢字の歴史がある。それらの文献を原典に近い形で読めるように準備すること、それが「見る装置(ヴュワー)」としての漢字フォント・セットの役割であろう。
 「平家物語」ほど古くなくても、夏目漱石『三四郎』でもよい。初版本のルビ付きのまま入力した原テクストを尊重しつつ電子化することによって、使用されている語や成句の時代性が特定される。分かりやすさを追求した書き換えたテクストは、あくまでも二義的なものにすぎない。せっかく電子化するならば、最良のものにしたいものである。読むだけならば、結局は文庫本が便利だと思うし、触ったり、持つ本としては、美しい活字本に勝るものはない。「それでも初版本は漱石の意図ではなく、編集者や印刷所が勝手に制作したのですよ」という人もいるだろうが、文学事象が作者個人だけの産物ではなく、その時代の読者と、読者との連携を保証するメディア(印刷、編集、出版、流通)の人々との共同作業の産物であることを見過ごし、名を残さなかった活字印刷工への敬意を忘れてはいないだろうか。
 このような原典および原典に近いテクストの電子化と蓄積によって、時間軸と社会的空間の拡がりをもった語の生態が、より精密に明らかになるだろう。

その1へ

その3へ


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

連絡先=東京大学文学部仏文研究室
〒113-0033 文京区本郷 7-3-1
電話 代表03-3812-2111 (内線3842)/fax 03-5800-5916
Email=gt@L.u-tokyo.ac.jp