• ユニコード(Unicode)とビルマ語の話を書こうと思ったら、Unicode以前の話も書かないとわかりづらいということで、前半と後半に分けることにした。前半は、Unicode以前、後半はUnicodeの話だ。もしかしたら私の無知や勘違いがあるかもしれないので、間違いがあったらご指摘を。

    Windows95や98の時代は日本語Windowsでビルマ語を表記するのは大変だった。特に2階建て文字のような特殊文字を表示するのが難しかった。当時、文字は1バイト(8ビット)容量の中で扱われていた。8ビットだから256種類だ。256種のうち、前半はアスキー(ASCII)文字と言われる標準的なアルファべトと記号の範囲で、後半は各言語の独自の規格の部分になった。タイ語やアラビア語、日本語の半角カタカナなどがこの後半部に入れられた。なお、日本語や中国語の膨大な数の漢字は、2バイトコードという別システムになっていた。前半のアスキー文字の部分は世界中のパソコンで共通、後半部は各言語で規格が違っていた。タイ語の場合はこの後半部に必要な文字が全部入っていた。日本語の半角カナもこの後半部にあった。前半部のアスキー文字は世界中のパソコンでそのまま正しく入力できるようになっていたが、後半部の文字に関しては各国で独自仕様になっていたため、各国語のWindowsを使わないとその国の言語を表示するのが難しかった。たとえば、コピーライト記号「潤・vは当時の日本語Windowsでは表記できなかった。強制的に「ゥ」になっていたのだ。

    基本英文字(基本256文字)

    基本英文字(基本256文字)

    日本語(基本256文字)

    日本語(基本256文字)

    ビルマ語の場合は、前半部のアスキー文字のところにビルマ文字を当てた。基本文字は昔からあったビルマ語タイプライターの位置をそのまま当てはめたものが多い。基本文字は前半部に入ったが、特殊文字はこの範囲には入らなかったので後半部に入った。日本語Windowsの場合、後半部は強制的に日本語規格で文字を扱おうとするソフトが多かったので、後半に入ったビルマ語特殊文字の入力や表示が難しかった。また、文字コードに関する国家規格がなかったため、後半部に入れた特殊文字の場所は各フォント製作者が勝手に決めてしまった。各フォントで微妙に違う文字が表示されうるのは、これが原因だ。

    ビルマ語(フォント:CENORMAL)

    ビルマ語(フォント:CENORMAL)(基本256文字)

    ビルマ語(フォント:WinInnwa)

    ビルマ語(フォント:WinInnwa)(基本256文字)

    上記は2種類のビルマ語フォントの文字コード表であるが、同じビルマ語でありながら文字位置がかなり違う。特に後半部はまったく違う。それと、当時の日本語Windows95や98だと後半部の特殊文字は正しく表記するのが難しかった。ただし、英語OSの場合は、この特殊文字も問題なく入力、表示ができていた。というのが、Unicode化する前のビルマ語入力の状況だった。

    ただ、私の場合はそんなことよりも、ビルマ語文字の読み書きがほんの少ししかできないという根本的問題があるのだが・・・

  • ビルマ語のWord入力で相談を受けた。特定のビルマ語文字がWordで書けないという。Wordとビルマ語については3回目の相談メールだった。

    1回目は、2階建て文字のような特殊文字が打てないという連絡だった。特殊文字については、以前の日本語Windowsは半角カタカナと文字コードがバッティングするため、ビルマ語の一部文字が表記できなかったということがあった。最近はユニコード化されたためか、この問題は起こらない。今回の問題は、キーボードでは入力できない位置の文字だったので、文字コード表を使って入力してもらうようにした。

    2回目は、ダードゥエの文字(3に似た文字)が入らないというSOSだった。私もやってみたがだめだった。でも、ワードパッドだと入る。こりゃWordお得意の「余計なお世話」か? このダードゥエのキーはシングルクォーテーションの場所だ。ネットで探すと、「Wordは半角のシングルクォーテーションを自動的に全角に変換する」とあるではないか! 知らなかった、、、のは私だけか?結局、オートコレクト設定の中の「シングルクォーテーションの半角を全角に変更する」のチェックを外すことで、入力できるようになった。ついでに、他のやばそうな自動変更もいくつか外すことにした。

    3回目が今日(もう昨日になった)だ。ビルマ語での重さの単位、ペイタの文字が入らないという。私のWordでも同じ症状だ。う~ん、この間オートコレクトは外したのになぜだ? この文字は¥の場所にある文字だ。欧文キーボードだとバックスラッシュだ。バックスラッシュを自動的に¥に変えているのだ。バックスラッシュと¥は、ディレクトリの区切り文字に使う特別な文字なので、昔は自動的に変わるのが普通だった。でも、ユニコードの今でも自動的に変わるのはなぜか? またワードパッドでやってみた。あれっ、ちゃんと入力できる。調べることしばし。やはりWordの余計なお世話だった。オプション設定の互換性のところに、「バックスラッシュを円記号(¥)に変換する」というやつだった。ついでに、余計なお世話っぽい設定を徹底的に外すことにした。

    ビルマ語の文章を書くことなどできない私だが、今回の相談のおかげでWordがずいぶんと素直なWordになった。

過去記事

サイト内検索

 
WP_Modern_Notepad