結合文字とは、前の文字と結合して1文字を構成することのできる文字である。
概要
日本語について言えば、濁点「゛」・半濁点「゜」がこれにあたる。なお、説明のため左記では結合文字を用いていない。結合文字を用いるとそれぞれ濁点「゙」・半濁点「゚」となり、環境によっては前の文字と結合したり、後ろの文字に重なったりして分かりにくくなるからである。
欧文では、フランス語のアクサンシルコンフレクス「^」やドイツ語のウムラオト「¨」などが該当し、ダイアクリティカルマークと呼ばれる(左記でも結合文字不使用)。
漢字などに用いる異体字セレクタも結合文字に分類される。
合成済み文字
Unicodeでは通常使用される結合文字との組み合わせは既に合成済み文字として登録されている。
従って日常の使用において結合文字を使用することはほとんどない。しかし、結合文字を用いた文字は、文字数は1文字と数えるが2文字分のデータ量があり、滅多に出てこないからといって対応を怠ると思わぬ落とし穴にはまる可能性がある。
一方で結合文字の仕組みにより合成済み文字として定義されていない「あ゙」のような文字を表現することも可能になる。ところで、ニコニコ大百科読者の中に上記が「あ」に濁点が打たれた1文字に見えない人はいるだろうか。いたら、この掲示板で見え方と、OS・ブラウザの種類・バージョン、ブラウザのSan-Serif デフォルトフォントの設定について教えて欲しい。
正規化
「が」と「が」(記事作成時、HTMLソースコード上で左は「が」、右は「が」と入力している)はUnicode上で等価なものと定義されている。HTML16進数表現では左が「が」、右が「が」と異なるものの、対応しているエディタに貼り付けて検索すれば相互に同じ文字列として一致する。
等価なものに2種類の表現が存在しうる時に表現方法を一つに統一する方法を正規化(正規化という単語には他分野で別の用法もある)と呼ぶ。エディタなどで検索して一致するのは正規化のおかげといえる。
→ 正規化
関連項目
関連リンク
- Unicode文字ツール: 結合文字の有無確認に有効
- 1
- 0pt