Unicodeとは (ユニコードとは) [単語記事]

Unicodeとは、文字コードの規格の一つである。特定の言語によらず広く文字を扱い、そのエンコーディング方法を定義する。

概要

Unicodeは、Unicodeコンソーシアムが定める国際的な文字コードの規格であり、符号化文字集合と文字エンコーディングを定めている。

扱う文字は、世界中の主な言語の主な文字をカバーしており、現在は使われていない過去の言語の文字や様々な記号、制御文字も扱う。扱う文字の数は13万を越える。

Unicodeを用いることで異なる文字集合、文字エンコーディングを同時に取り扱う煩わしさを排除できる。Unicodeは主に国際化対応が必要なソフトウェア、規格、プログラミング言語で標準的に用いられる。例えばHTMLなどインターネット関係の仕様、主要なOS、Java、.NET Frameworkなどで使われている。

Unicodeは、ISO/IEC 10646と非常に密接な関係にある。元々は統一的な文字コードの規格として別々に誕生したものだが、1991年に統合されており、文字の追加などは同時に行われる。

Unicodeの符号化文字集合はISO/IEC 10646で定める符号化文字集合と一致している。

Unicode(バージョン2.0以降)では2バイトで表せる範囲(65,536個)のコードポイントの集まりを面(Plane)と呼んでいて、0から16までの全部で17の面から構成される。一番最初の面は基本多言語面(Basic Multiling ual Plane, BMP)と呼ばれ、基本ラテン、平仮名、片仮名、基本的な漢字を含む。第2面は補助漢字面と呼ばれBMPに含まれない漢字が置かれている。

面はブロックと呼ばれる関連性の強い文字を集めた部分集合に分割される。日本でお馴染みの文字があるブロックは基本ラテン(0020-007F)、平仮名(3000-309F)、片仮名(30A0-30FF)、CJK統合漢字(4E0 0-9 FFF)、半角形/全角形(FF00-FFEF)などである。

UTF-7 - 7ビットエンコーディング。可変長式。現在は「修正UTF-7」が用いられる。
UTF-8 - 8ビットエンコーディング。可変長式。World Wide Webでのエンコーディングのデファクトスタンダードであり、Unicodeの文字エンコーディングとして最もメジャーである。
UTF-16 - 16ビットエンコーディング。可変長式。ビッグエンディアンとリトルエンディアンがある。Unicode 1.0で制定された一番初めのエンコーディング方式(の後継)であり、この方式を単に「Unicode」と呼ぶソフトウェアが今も残っていたりする。
UTF-32 - 32ビット固定長エンコーディング。こちらもビッグエンディアンとリトルエンディアンがある。

UCS-2 - 2バイト以内で表せる文字集合で、基本多言語面(第0面)と同等と言える
UCS-4 - 4バイト(厳密には31b it)以内で表せる文字集合で、追加面(第1面～第16面)がここに含まれる。現在はUTF-16で扱えない文字コードは使用しない事になっており、21b itで全ての文字を表せる。