ビルマ語(ミャンマー語)をWindowsで~Unicode以前

IT, ビルマ語(ミャンマー語), ミャンマー絡み

ユニコード(Unicode)とビルマ語の話を書こうと思ったら、Unicode以前の話も書かないとわかりづらいということで、前半と後半に分けることにした。前半は、Unicode以前、後半はUnicodeの話だ。もしかしたら私の無知や勘違いがあるかもしれないので、間違いがあったらご指摘を。

Windows95や98の時代は日本語Windowsでビルマ語を表記するのは大変だった。特に2階建て文字のような特殊文字を表示するのが難しかった。当時、文字は1バイト(8ビット)容量の中で扱われていた。8ビットだから256種類だ。256種のうち、前半はアスキー(ASCII)文字と言われる標準的なアルファべトと記号の範囲で、後半は各言語の独自の規格の部分になった。タイ語やアラビア語、日本語の半角カタカナなどがこの後半部に入れられた。なお、日本語や中国語の膨大な数の漢字は、2バイトコードという別システムになっていた。前半のアスキー文字の部分は世界中のパソコンで共通、後半部は各言語で規格が違っていた。タイ語の場合はこの後半部に必要な文字が全部入っていた。日本語の半角カナもこの後半部にあった。前半部のアスキー文字は世界中のパソコンでそのまま正しく入力できるようになっていたが、後半部の文字に関しては各国で独自仕様になっていたため、各国語のWindowsを使わないとその国の言語を表示するのが難しかった。たとえば、コピーライト記号「©」は当時の日本語Windowsでは表記できなかった。強制的に「ゥ」になっていたのだ。

基本英文字(基本256文字)
基本英文字(基本256文字)

日本語(基本256文字)
日本語(基本256文字)
ビルマ語の場合は、前半部のアスキー文字のところにビルマ文字を当てていた。基本文字は昔からあったビルマ語タイプライターの位置をそのまま当てはめたものが多い。基本文字は前半部に入ったが、特殊文字はこの範囲には入らなかったので後半部に入った。日本語Windowsの場合、後半部は強制的に日本語規格で文字を扱おうとするソフトが多かったので、後半に入ったビルマ語特殊文字の入力や表示が難しかった。また、文字コードに関する国家規格がなかったため、後半部に入れた特殊文字の場所は各フォント製作者が勝手に決めてしまった。各フォントで微妙に違う文字が表示されうるのは、これが原因だ。

ビルマ語(フォント:CENORMAL)
ビルマ語(フォント:CENORMAL)(基本256文字)

ビルマ語(フォント:WinInnwa)
ビルマ語(フォント:WinInnwa)(基本256文字)
上記は2種類のビルマ語フォントの文字コード表であるが、同じビルマ語でありながら文字位置がかなり違う。特に後半部はまったく違う。それと、当時の日本語Windows95や98だと後半部の特殊文字は正しく表記するのが難しかった。ただし、英語OSの場合は、この特殊文字も問題なく入力、表示ができていた。というのが、Unicode化する前のビルマ語入力の状況だった。

ただ、私の場合はそんなことよりも、ビルマ語文字の読み書きがほんの少ししかできないという根本的問題があるのだが・・・