漢字六万四千字のフォントセット公開に向けて


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

その1

その2へ

 1995年から主として日本語の文字を電子化するプロジェクトを推進してきた。文字文化の継承と未来にとって電子文字の整備は喫緊の課題であり、あえてここでその重要性を強調し、ここにプロジェクトの概要と達成すべき課題とを簡単に紹介しておきたい。
 そもそもがわれわれのプロジェクトは「世界のありとあらゆる文字をコンピュータで処理できるようにしよう」という壮大な企図によるものではあるが、とりあえず、というより緊急かつ身近な課題として日本語の文字、とりわけ漢字の電子化に集中して取り組んできたのである。

グーテンベルグ以来の文字文化の革命

 昨今のコンピュータの急速な進歩と、インターネットによる電子通信の驚異的な普及に伴い、活字活版印刷や写植印刷が電子的印刷技術にとってかわられつつある現在は、いわばグーテンベルグ以来の活字文化の革命のさなかにあるといっても過言ではない。日本語の文字の電子化がなぜ緊急な課題かというと、そのような永年の文字文化を継承すべき新たな媒体としての電子文字の整備が徹底的に遅れているからである。現在のワープロやパソコンに搭載されている日本語の文字は、JIS第1・第2水準の約7千字しかなく、現在準備中のJIS補助漢字5千字を加えても1万2千字にしかならない。そして近い将来に予定されているユニコード対応のシステムでも日本語の文字としては約2万字分の枠組みしか用意されていない情況にある。

イメージ日本語の漢字は何文字あるのか

 それでは今日の日本社会で流通している漢字文字種はいくつあるのか、そして過去において、歴史的に使用されてきた漢字は幾種類あるのか。実はそれがよくわからないのだ。「(諸橋)大漢和辞典」の見出し語(親字)が約5万字、そのほかにも日本で歴史的に作られ使われてきたいわゆる国字、地名、人名に用いられてきた異体字も含めると、漢字だけで8万字にはなり、略語や記号類も含めると、おおよそ約10万字の枠組みを用意する必要があろう。現在ワープロ等で使用されている文字種の10倍以上にはなるが、いわゆる天文学的数字ではなく、今日のコンピュータ技術のめざましい進歩を考えれば、10万字の処理が技術的に困難なわけではない。21世紀に向けて文字を用意する気があるのか否かの問題のようだ。

電子文字の準備がなぜ遅れているのか

 つまり、遅れているのは電子文字の準備であり、その遅れには社会的なさまざまな要因があると思われる。それについてはここでは詳しくは触れないが、純粋に国語学的な理由以外にも、政治・経済・市場力学的な要因があり、あるいは社会学的考証の対象としても興味ある問題ではある。「そんなに多くの漢字を誰が使うのですか」という素朴な効率重視の質問が多かった。これはまた裏返せば、「インターネット通信の時代だから英語を学べ」という、短絡的な発想にも通じる。「使用されている漢字の頻度を考えれば、7千字もあれば十分だ」という考え方の中には、大げさに言えば、自分の姓名が規格の漢字にはない人を抹消しかねない方向性もかいま見られるような気がする。同様な発想で、かつて町名改称が強行され、難解であるとの理由で永年親しまれてきた歴史的な旧町名が味気ない数字に変えられたところもあった。子どもの頃よく乗った都電の沿線の町名には、麻布笄(こうがい)町、狸穴(まみあな)、蛎殻(かきがら)町などがあり、難しい漢字の読みと共に記憶の底に残っており、なつかしい気がする。

文字使用に関する知的怠惰の蔓延

 漢字を網羅しようとするプロジェクトを推進しているので誤解されやすいが、私自身は漢字論者になりうるほどの漢字の知識もなく、むしろ幸いにも漢字から解放された知識の時代に教育をうけ、漢字を少し多く知っているからといってインテリぶった戦前の知識人を軽蔑しつつ育った世代に属する。しかし、新聞紙面に散見される「大学生ら致される」(拉致)、「終えん」(終焉なのか終演なのか)、「かい離」(乖離)、「り病」(罹病)というような「分かち書き」はやはり気味が悪いし、第一に不合理だから気分が悪くなる。その一方でわけのわからないカタカナ語や英字略語は新聞紙上に氾濫しているのだから、教育的配慮とやらは漢字制限に対してだけなのかと疑問に思う。難しい漢字にはルビをふればよい。ところが使用制限外の漢字でも政治家の名前だけは例外らしく、たとえば中国要人の氏名は正確な発音表記のカタカナもないまま紙面に放置されている。よほどルビやふりがなが嫌いとみえる。わかりやすさよりも美的センスなのか、あるいは効率重視なのかと疑いたくなる。ワープロ発達以前に制定された「分かち書き」漢字使用規則を後生大事に奉持し、再検討しようとしない知的怠惰は、誇り高きジャーナリストのサラリーマン化の一現象にすぎないのかもしれないが、規則よりも読者に対する「わかりやすさ」こそ徹底的に追及すべき課題ではないのか。

外字の非効率性

 効率重視の疑問が呈されるたびごとに、「誰が、いつ、どこで使うのかはわかりませんが、使えというのではなく、使いたい人が使いたいときに使えるように、現在および過去において使われてきた漢字を可能な限り収集し、電子文字として用意しておく必要があるのです」と答えることにしている。しかし、できるだけ多くの漢字文字種を電子的に準備することが効率に反することかというと、そうでもなさそうだ。7千字の規格外の文字は「外字」と呼ばれ、外字領域に登録されるが、その手間は一度やったことのある人ならばわかるが、時間のかかることおびただしく、うんざりする。そして通信不可能なだけではなく、異機種間の互換性もないから、ワープロやコンピュータの機種が変われば、またまた同じ手間をかけなければならない。たとえば企業が社員の名前などの外字作成にかける時間を累積すると、日本社会全体では膨大な浪費になろう。また、各自治体では現在、戸籍登録や住民登録の電算化を進めているが、そのための規格外の人名用漢字フォントの作成費用も莫大になると伝え聞いている。統一コードがなければ、ある自治体で作られたフォントは「外字」のままであり、別の自治体のコンピュータとは交信交換不可能になる。つまり、効率的には無駄な労力の積み重ねになりかねない。統一コードや統一化というと情報の中央集権化と誤解されそうなので危険でありこわい。いうまでもなく、われわれの漢字コード表は一提言として、便利であれば、広くうけいれられることを期待しているにすぎないことを、前もってお断りしておく。

情報基盤としての文字

 実業界とはもっとも縁遠いと思われている文学研究にも、市場原理とは異なる効率性がある。近年、図書館情報のコンピュータ化が著しいが、英語が中心をなす理科系の文献データベースの整備(というより実はアメリカからの購入にすぎない)が急速に進んだが、文系とりわけ文学関係の書誌やデータベースは大幅に遅れている。作るのに手間がかかるし、作るための文字がないからだ。たとえば漢籍目録を例に取ると、7千字のJIS規格内の漢字では目録作成が不可能なことは明らかである。いわんや、ギリシャ語、ラテン語、サンスクリット、ロシア語からアラビア語まで文献をもつ文学部の図書の電算化など、文字の整備なしにやろうなどとは無謀である。日本語でも、江戸や鎌倉まで遡らずとも、明治・大正期の文献でさえ正確な目録の電算化は不可能だ。それを無理にやろうとすれば、データとして交信交換不可能な「外字」で強行することになる。そのゆく末は火を見るよりも明らかだと思うが、一般的にその傾向がないわけではない。つまり、作業効率を重視して、可能な限り、かつ無理矢理に、JIS規格内の漢字に「書き換え」てしまうのである。旧字体や無い漢字を不正確な漢字に置き換えてしまったでたらめな書誌目録は、将来使いものにならないどころか、文献学的に正確な作業をやり直す時に、すでにデータがあるからという口実で作業を妨害しかねず、むしろ害悪をなす。真の効率性とは、むしろ遠回りするようでも、電子文字の準備から始めることではないのか、というのがわれわれの出発点であった。

図書目録の試作

 文学部の図書の中でも漢字に関係する「漢籍目録」と「国語学蔵書目録」の電子化を大日本印刷の協力をえて試作してみた。十分に文字が用意されていない現状で、どのように解決するのか興味津々であったが、さすがは技術力にすぐれた日本の印刷会社である。データ入力を担当したベテランの女性のご苦労な仕事の現場も見学させていただいたが、結局は図書目録の通りに忠実に入力していただき、パソコンで読めるように、JIS規格のフォント集合を改編し、目録作成に必要なだけの漢字フォントと記号類に置き換えて、完成していただいた。その特殊なフォント集と一緒でなければデータを見ることはできないので、インターネットですぐに公開というわけにはゆかないが、フォントをインストールした個々のパソコンでは印刷も可能である。現在はそのデータと漢籍の原書との照合作業が行われているところである。

その2へ


TOP|漢字六万四千字のフォントセット公開に向けて|漢字と日本文化GT明朝フォントの製作システムについてGT明朝体漢字の実装

連絡先=東京大学文学部仏文研究室
〒113-0033 文京区本郷 7-3-1
電話 代表03-3812-2111 (内線3842)/fax 03-5800-5916
Email=gt@L.u-tokyo.ac.jp