Unicodeとは、文字コードの規格の一つである。特定の言語によらず広く文字を扱い、そのエンコーディング方法を定義する。
概要
Uncodeは、Unicodeコンソーシアムが定める国際的な文字コードの規格であり、符号化文字集合と文字エンコーディングを定めている。
扱う文字は、世界中の主な言語の主な文字をカバーしており、現在は使われていない過去の言語の文字やさまざまな記号、制御文字も扱う。扱う文字の数は100万を越える。
Unicodeを用いることで異なる文字集合、文字エンコーディングを同時に取り扱う煩わしさを排除できる。Unicodeは主に国際化対応が必要なソフトウェア、規格、プログラミング言語で標準的に用いられる。たとえばHTMLなどインターネット関係の仕様、主要なOS、Java、.NET Frameworkなどで使われている。
Unicodeは、ISO/IEC 10646と非常に密接な関係にある。もともとは統一的な文字コードの規格としてばらばらに誕生したものだが、1991年に統合されており、文字の追加などは同時に行われる。
符号化文字集合
Unicodeの符号化文字集合はISO/IEC 10646で定める符号化文字集合と一致している。
Unicodeでは2バイトで表せる範囲(65,536)のコードポイントの集まりを面(Plane)と呼んでいて、0から16までの全部で17の面から構成される。一番最初の面は基本言語面(Basic Multilingual Plane,BMP)と呼ばれ、基本ラテン、平仮名、片仮名、基本的な漢字を含む。第02面は補助漢字面と呼ばれBMPに含まれない漢字が置かれている。
面はブロックと呼ばれる関連性の強い文字を集めた部分集合に分割される。日本でおなじみの文字があるブロックは基本ラテン(U+0020 - 007F)、ひらがな(U+3000 - 309F)、かたかな(U+30A0 - 30FF)、CJK統合漢字(U+4E00 - U+9FFF)、半角形/全角形(U+FF00-U+FFEF)などである。
Unicode6.0からは携帯電話の絵文字も収録された。(参考:Wikipedia:Unicode6.0の携帯電話の絵文字の一覧
)
文字エンコーディング
- UTF-7 - 7ビットエンコーディング。可変長式。ほとんど用いられない。
- UTF-8 - 8ビットエンコーディング。可変長式。World Wide Webでのエンコーディングのデファクトスタンダードであり、Unicodeの文字エンコーディングとしてもっともメジャーである。
- UTF-16 - 16ビットエンコーディング。可変長式(基本言語面については固定幅)。ビッグエンディアン式とリトルエンディアン式がある。
- UTF-32 - 32ビットエンコーディング。完全固定幅。
- UCS-2 - Unicodeの基本言語面をそのまま16ビットエンコーディングとする
アスキーアート・顔文字
Unicodeは、JIS X 0208に定められた文字集合よりもはるかに多くの文字を含み、多くの新たな系統のアスキーアート・顔文字が生まれた。たとえば以下のような顔文字が作られた。
関連動画
関連商品
関連サイト
関連項目
- 文字エンコーディング
http://dic.nicomoba.jp/k/a/unicode


ページ番号: 4302199
リビジョン番号: 1445111
読み:ユニコード
初版作成日: 10/03/07 18:58 ◆ 最終更新日: 12/02/19 15:33
編集内容についての説明/コメント: 関連商品にユニコード戦記追加とちょっとだけ絵文字について追記。
記事編集 / 編集履歴を閲覧 / Twitterで紹介





JASRAC許諾番号: 9011622001Y31015
ヘッダー:固定
ヘッダー:追従