発表2 「Macintosh多言語環境下の研究技法」 林佳世子
<Macintosh多言語環境>
従来、英語や日本語以外の文字を使う必要のある人々がマッキントッシュをよく使ってきたのは、コンピュータ上で文字を扱う方法が非常に柔軟で、特別な知識がなくともフォントとキーボード配列ファイルを自作でき、どのような文字でもたいがい表示・印刷することができたためでした。私自身はコンピュータそのものには全くの素人ですが、トルコ語を使いたい、転写用の特殊なローマ字を使いたい、アラビア文字を使いたい、さらには、オスマン・トルコ語やウイグル語用の文字も出したい・・というような事情があり、必要に迫られて調べてみますと、マッキントッシュなら何とかなる、ということで、自己流にマッキントッシュを使ってきた、という感じです。
最近になってようやく、ウィンドウズでも一国の「国語」なら日本語環境の上で使えるようになってきましたから、それを利用することも可能ですが、ことフォントに関する柔軟さでいうとマッキントッシュの魅力は、依然捨てがたいように思います。
MacOS9から採用されたフォントの新形式、ユニコードの普及などの流れのなかで、マッキントッシュのフォント操作の単純さ・柔軟性がこのまま維持されるかどうかわかりませんが、我々のように「特殊」なニーズを抱えた身としては、この柔軟さが維持されることを祈っている、というのが正直なところです。ウィンドウズの世界で想定されている多言語というのは、「国語」レベルの言語や文字であって、我々が文字として扱いたい特殊な「転写文字」や、写本にみられる欠損文字などは含まれないからです。町で売られている機械にそれらが標準で装備される必要は全くありませんが、我々の工夫でそれらが使えるようになる道は残しておいてもらわないと困る、と思うのです。またそれらが、「絵」や「記号」としてでなく、「文字」として扱える点も重要です。なぜなら、自由に検索やソートをするには、特定のコードをもった「文字」であることが必須条件だからです。これらの点は、かねてよりマッキントッシュではおおむね実現されており、特別な知識がなくとも一工夫加えることが可能でした(それが原因で、汎用性や安定度を欠いていたともいえるのでしょうが)。その内容を簡単にご紹介したいと思います。
<多言語への対応>
マッキントッシュで多言語を扱う際には、
(1)フォント・レベルで解決するもの、
(2)スクリプト・システムを組み込むことで対応するもの、
の2つの場合があります。
ローマ字以外の文字を使う言語の大半は、(2)の形で対応されます。現在売られているMacOSのシステムCDには、次のスクリプト・システム組み込み用のLanguage
Kit が添付されています。すなわち、Arabic
& Persian、Cyrillic & Eastern European
Languages、Hebrew、Indian Languages、Japanese、Chinese、Korean
の各Language Kitです。これらを組み込むことによって、それぞれの言語の文字が使えるようになります。(追加インストールの方法は、新プロ6班のホームページをご覧ください)。
また、それぞれのスクリプト・システムに完全に対応したアプリケーションソフトを使えば、単に文字の表示・印刷だけでなく、検索・ソートもできることになっています。
ただ、我々の悩みは、日本で売られているソフトのなかに、こうした「特殊な」スクリプト・システムに対応したソフトが少ないことです。ワープロでいえば、完全に対応しているのは、Nisus Writer (マーキュリー社)くらいでしょうか。Nisus
Writer を使えば、右から左の向きでの入力や、文字列のアラビア文字の語順によるソートなども可能です。しかし売れ筋のワープロや表計算、データベースソフトのほとんどが「特殊な」スクリプト・システムに対応していないため、アラビア語システムを組み込んでも、実際には使えないというのは残念なことです。
なお、ギリシア語だけはLanguage Kitがどういうわけか商品化されていません。ただしダウンロードできるホームページがあるようです。
一方、ローマ字を用いる言語の場合(1バイト文字)は、おおむねフォントを新たに加えるだけの作業で対応可能で、トルコ語などはこのケースにあたります。また、ローマ字に点や線を加えた転写文字セットなども、256文字を1セットとして作成し、それをフォント・フォルダーに加えることで使うことができます。フォントの作成には、フォント作成用ソフトを使います。Language
Kit で組み込まれるそれぞれのスクリプト・システム上で動くフォントも、アラビア文字などの1バイト文字(いわゆる、「複雑な1バイト文字」)に限れば、フォント作成ソフトを使って、自作可能です。以下では、フォント作成の事例を紹介したいと思います。
<フォント作成について>
フォント作成には、私はFontgrapher(マクロメディア社)を使っています。マック、ウィンドウズ双方のTrue
TypeやPost Script フォントを作成できますので、単に表示させるだけでなく、DTP
に堪えるフォントをつくることができます。1つのフォントに含まれる文字は256文字です。ディリート・キーやスペース・キーなどいくつか使えない枠がありますが、それ以外の枠には自由に文字を置くことができます。
たとえばトルコ語の場合、私はTurkce Times というフォントをつくって、それを指定して使っています。このフォントは、トルコ語システム用のフォントと同じ文字配列にしてあるので、トルコ語システムで作成されたファイルやトルコから発信されたホームページを読むのに使うことができます。
また、転写文字セットとしては、Mid East Times を公開しています。もともとは、M-East
Timesという名前で一部に流布していたものですが、最近、森島聡さん(東京外国語大学)の協力で改良し、Mid
East Timesとフォント名も変わりました。きれいなイタリックやボールドもフォント変更なしで出せるようになりましたので、6班のホームページからダウンロードしてお試しいただければと思います。現在はマック版だけですが、ウインドウズ版も作成中です。ただウインドウズの方では、Symbol
扱いになってしまうため文字配列がマックと同じにはできないようです(このため、現在はフォントの「互換」ができません。)私自身はウィンドウズ初心者なものですから、ウィンドウズ・ユーザーの方にいろいろ教えていただけたらと思っています。
先ほど述べましたように、1つのフォントで256文字が扱えるわけですが、キーボードのキーは限られているわけで、それを補うためマッキントッシュではオプション・キーとシフト・プラス・オプションキーで英語用文字以外を表示する仕組みになっています。しかし、アプリケーションソフトによってはオプション・キーがつかえない場合もありますし、また、それらを押しながら文字を出すのは面倒ですから、よく使う文字をどこかに割り当てる(たとえば、トルコ語の場合、トルコ語で不要なQWX
の位置に特殊文字を割り当てる、など)という必要が生まれます。
こうした作業は、「キーボード配列」ファイルを作るという作業になります。これは、Res Edit (フリーウエア)などのソフトを使って作成することができ、システムにこのファイルを加えることによって、新しいキーボード配列を追加することができます。たとえば、Mid
East Times フォントは複数の転写システムの文字を網羅していますが、ユーザー自身がよく使う転写システム用のフォントを、出しやすい位置に配置したキーボード配列ファイルを追加することによって、作業効率はかなり向上するものと思います。
フォントの文字コードは、256文字中の何番目にあるかによって決まってきますから、自作されたフォントの場合も、1つずつのコードをもつことになります。見かけ上は異なる形の文字でもそれぞれのフォントのなかで同じ順番にあれば、同じコードをもちます。それぞれの文字のコードがわかっていれば、フォント間の置換プログラムを作成することも、並び替えのプログラムを作ることも可能になります。最初にのべました「文字として扱う必要性」をいうのは、この点に関わってくることです。
同じやり方で、アラビア文字を扱うこともできます。アラビア語のシステムでは、前後の関係で文字の形が語頭形、語中形、語末形、独立形のいずれかが選ばれる異字形自動選択が行われます。表示の上での4つの形への振り分けはアラビア語システムが自動的に行い、入力された文字そのものは独立形がもっているコードを背負います。ですから、アラビア文字を入力し、それをローマ字フォントにかえるとアラビア文字と同じコードをもって英文字がでてくることになります(いわゆる、文字化けです。)しかし、このルールさえわかっていれば、文字は1対1で対応しているわけですから、ローマ字からアラビア文字への置換やその逆が可能になるわけです。
アラビア文字の場合も新たなフォントを作ることができます。オスマン・トルコ語の場合のように、アラビア語システム用のフォントではでない文字を含む言語があるからです。たとえば、後続しないhe、izfe記号などがオスマン・トルコ語用に特化したフォントです。また数字の形もアラビア語用フォントとペルシャ語用フォントで違いますから、それを入れ替える必要が生じる場合もあります。ローマ字同様、Fontgrapher
などでアラビア語システム用のフォントを作成することが可能です。ここで注意しなければならないのは、マッキントッシュ用の各フォントにはIDがあり、そのIDによりどのスクリプト・システム用のフォントかが判断されるという点です。たとえばアラビア語システム用のフォントは、17920と18431の間のID
を与えられています。自分でフォントを作る際にもこの割り当てに従う必要があります(16ページの図参照)。
同じように作ったものにウイグル語用フォントのUrumchi があります。中国新彊ウイグル自治区でつかわれているアラビア文字のウイグル語、カザフ語の文字が出せます。現代ウイグル語の正書法にはアラビア語にない多数の母音文字が追加されており、アラビア語の文字とは大きく異なります。これらをアラビア語用のフォントの仕組み、すなわちアラビア語システムが自動的に行う異字形自動選択にあわせて配置していけば(そのため自由度が低いのですが)、自作フォントも作ることができます。他の言語の異字形自動選択にあわせて文字を配置するというのはめちゃくちゃな話ですが、ウイグル語システムがない現状では致し方ないところです。
<カタログの総合化>
ここまで、マッキントッシュの多言語環境について紹介しました。そしてこの環境の下で東洋文庫・および新プロ6班では、4D(4th Dimension)というソフトを使って、多言語が混在するデータベースの構築に取り組んできました。そのうちアラビア語は2年前にすでにCD-ROMで公開し、その後も改定を進めてきました。2000年度ヴァージョンのCD-ROMもまもなく配布される予定です。さらにインターネット上でのデータベース公開にも昨年から着手しました。アラビア語システムの組み込まれたマックさえあれば、東洋文庫所蔵のアラビア語・ペルシア語図書がインターネット上で検索できます(なお、ブラウザとしては、無料でダウンロードできるiCab
というブラウザをご使用ください。また東洋文庫のサイトからあらかじめArabic
Query Tool をダウンロードしておく必要があります)。ウインドウズの方も、Windows2000
のもとでのアラビア語環境が整うころまでには、データの提供を開始したいと思います。
6班では、この東洋文庫のデータを1つの柱にして、日本国内の諸機関に所蔵されているアラビア文字文献の総合データベースをつくることができないかと考えています。その第一歩として、現在、東京大学東洋文化研究所、中近東文化センター、東京外国語大学総合図書館の3機関に東洋文庫のデータを提供し、重複した本の入力の手間をはぶき、同時に総合データベースを作成する、というプロジェクトを始めています。各機関で重複している書籍は少なくないですから、整理・入力の手間はこれによりかなり軽減されるのではないかと期待しています。
この4機関だけでなく、もし全国のアラビア文字書籍を所蔵する図書館のご協力が得られれば、アラビア文字文献のユニオンカタログを作成することができます。そしてそれがインターネット上で公開されれば、利用者にとっては大きな助けになるものと思います。和書・洋書に関しては、学術情報センターがNacsis
Cat という形で大々的に行っていますが、そのアラビア語版というわけです。正確に言うと、アラビア語だけに限定せず、ペルシア語、ウルドゥー語なども一緒にまとめる方向です。これを、三浦徹さんの命名で「アラビア語串刺し検索」と呼んでいますが、理想としては1回の検索で諸図書館の検索が一度にできるようになるわけです。そのことのメリットは強調するまでもないと思います。基本となるデータの質の向上、データとりまとめの方法、管理責任の明確化など、実現にむけてまだまだ課題は多いのですが、まずは第一歩をふみだそうという段階です。京都大学にもぜひ参加・ご協力をお願いしたいと思います。
保坂論文へ
|