ニコニコ大百科

Unicode

Unicodeとは、文字コードの規格の一つである。特定の言によらず広く文字を扱い、そのエンコディング方法を定義する。

概要

Uncodeは、Unicodeコンソーシアムが定める際的な文字コードの規格であり、符号化文字集合文字エンコディングを定めている。

扱う文字は、世界中のな言文字カバーしており、現在は使われていない過去の言文字やさまざまな記号、制御文字も扱う。扱う文字の数は100万を越える。

Unicodeを用いることで異なる文字集合文字エンコディングを同時に取り扱う煩わしさを排除できる。Unicode際化対応が必要なソフトウェア、規格、プログラミング言語で標準的に用いられる。たとえばHTMLなどインターネット関係の仕様要なOSJava.NET Frameworkなどで使われている。

Unicodeは、ISO/IEC 10646と非常に密接な関係にある。もともとは統一的な文字コードの規格としてばらばらに誕生したものだが、1991年に統合されており、文字の追加などは同時に行われる。

符号化文字集合

Unicodeの符号化文字集合ISO/IEC 10646で定める符号化文字集合と一致している。

Unicodeでは2バイトで表せる範囲(65,536)のコードポイントの集まりを面(Plane)と呼んでいて、0から16までの全部で17の面から構成される。一番最初の面は基本多面(Basic Multilingual Plane,BMP)と呼ばれ、基本ラテン平仮名片仮名、基本的な漢字を含む。第02面は補助漢字面と呼ばれBMPに含まれない漢字が置かれている。

面はブロックと呼ばれる関連性の強い文字を集めた部分集合分割される。日本でおなじみの文字があるブロックは基本ラテン(U+0020 - 007F)、ひらがな(U+3000 - 309F)、かたかな(U+30A0 - 30FF)、CJK統合漢字(U+4E00 - U+9FFF)、半形/全角形(U+FF00-U+FFEF)などである。

Unicode6.0からは携帯電話絵文字も収録された。(参考:Wikipedia:Unicode6.0の携帯電話の絵文字の一覧)

文字エンコーディング

アスキーアート・顔文字

Unicodeは、JIS X 0208に定められた文字集合よりもはるかに多くの文字を含み、多くの新たな系統のアスキーアート顔文字が生まれた。たとえば以下のような顔文字が作られた。

関連動画

関連商品

関連サイト

関連項目

Sponsored

この記事について

ツイート このエントリーをはてなブックマークに追加
「Unicode」で検索