バルト・フィン諸語 [ 地図 ] のうち,フィンランド語 (標準語) とエストニア語 (標準語) には,すでに本格的な電子化されたテキストの蓄積があり,コーパスとして利用できる。
他のバルト・フィン諸語はいずれも危機言語のカテゴリにはいるが,電子化された言語資料は事実上皆無である。
以下の6つの言語 (ないしは方言) について,エストニアのタルト大学とタリン教育大学の言語学者の協力を仰いで,磁気テープに録音され,エストニア国内に蓄積されている音声資料を,デジタル化してCDに収録,CDに収録された言語資料を音声記号で文字転写し,コンピュータ入力する作業を1999年11月~2001年3月に行った。
| ボート語 (約10時間*) | イジョール語 (約10時間) |
| ベプス語 (約3時間) | カレリア語ジョルジャ方言 (約10時間) |
| エストニア語セット方言 (約10時間) | エストニア語ヴォル方言 (約10時間) |
| *文字転写され入力されたテキストを収録した録音資料の長さ。 | |
言語資料の文字転写は,ウラル言語学で伝統的に用いられている音声記号 (ウラル音声字母; Uralic Phonetic Alphabet, UPA) を用いて行ったが,当時は UPA 音声記号がまだ Unicode に登録されていなかったため,音声記号を Latin-1 文字の組み合わせに置き換えて入力された。
UPA 音声記号が Unicode に登録された 2002年12月を機に,UPA 音声記号を収録した Unicode フォントを作成するプロジェクトが始まり,現在 (2003年5月末)は,フォントのβ版を使って,ASCII 文字で入力されたテキストの Unicode への一括変換の試みを行っている。