Unicode単語

ユニコード
  • 11
  • 0pt
掲示板へ

Unicodeとは、文字コードの規格の一つである。特定の言によらず広く文字を扱い、そのエンコディング方法を定義する。

概要

Unicodeは、Unicodeコンソーシアムが定める際的な文字コードの規格であり、符号化文字集合文字エンコディングを定めている。

扱う文字は、世界中のな言文字カバーしており、現在は使われていない過去の言文字や様々な記号、制御文字も扱う。扱う文字の数は13万を越える。

Unicodeを用いることで異なる文字集合文字エンコディングを同時に取り扱う煩わしさを排除できる。Unicodeは際化対応が必要なソフトウェア、規格、プログラミング言語で標準的に用いられる。例えばHTMLなどインターネット関係の仕様要なOSJava.NET Frameworkなどで使われている。

Unicodeは、ISO/IEC 10646と非常に密接な関係にある。元々は統一的な文字コードの規格としてばらばらに誕生したものだが、1991年に統合されており、文字の追加などは同時に行われる。

符号化文字集合

Unicodeの符号化文字集合ISO/IEC 10646で定める符号化文字集合と一致している。

Unicodeでは2バイトで表せる範囲(65,536個)のコードポイントの集まりを面(Plane)と呼んでいて、0から16までの全部で17の面から構成される。一番最初の面は基本多面(Basic Multilingual Plane, BMP)と呼ばれ、基本ラテン平仮名片仮名、基本的な漢字を含む。第2面は補助漢字面と呼ばれBMPに含まれない漢字が置かれている。

面はブロックと呼ばれる関連性の強い文字を集めた部分集合分割される。日本でお染みの文字があるブロックは基本ラテン(0020-007F)、平仮名(3000-309F)、片仮名(30A0-30FF)、CJK統合漢字(4E00-9FFF)、半角形/全角形(FF00-FFEF)などである。

Unicode6.0からは携帯電話絵文字も収録された。(参考:Unicode6.0の携帯電話の絵文字の一覧 - Wikipediaexit)

文字エンコーディング

文字集合

アスキーアート・顔文字

Unicodeは、JIS X 0208に定められた文字集合よりもかに多くの文字を含み、多くの新たな系統のアスキーアート顔文字が生まれた。例えば以下のような顔文字が作られた。

符号位置の一覧

Unicodeに収録されている全ての文字等を表にめた。各ページファイルサイズが大きいので注意。

  1. Unicode一覧(0000-4DF0) - 第0面/基本多面。「基本ラテン文字」~「易経記号
  2. Unicode一覧(4E00-9FFF) - 第0面/基本多面。「CJK統合漢字
  3. Unicode一覧(A000-FFFF) - 第0面/基本多面。「彝文字」~「特殊用途文字
  4. Unicode一覧(10000-16FFF) - 第1面/追加多言面。「線文字B音節文字」~「漢字記号及び句読点
  5. Unicode一覧(17000-1FFFF) - 第1面/追加多言面。「西文字」~「記号及び絵記号A」
  6. Unicode一覧(20000-23FFF) - 第2面/追加漢字面。「CJK統合漢字B」 (3分割してある)
  7. Unicode一覧(24000-27FFF) - 同上3分割の2。
  8. Unicode一覧(28000-2A6FF) - 同上3分割の3。
  9. Unicode一覧(2A700-2FFFF) - 第2面/追加漢字面。「CJK統合漢字C」~「CJK互換漢字補助」
  10. 30000-DFFFFは未割り当て、但し「??FFFE」「??FFFF」は非文字。うち第3面は第三漢字面として「CJK統合漢字G」や小篆、甲文字等を収録予定→ Roadmap to the TIPexit
  11. Unicode一覧(E0000以降) - 第14面/追加特殊用途面。「タグ」、「字形選択子補助」; 第15面~第16面/私用面。「補助私用領域A」、「補助私用領域B」

関連動画

関連商品

関連サイト

関連項目

【スポンサーリンク】

  • 11
  • 0pt
スマホ版URL:
https://dic.nicovideo.jp/t/a/unicode

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

Unicode

62 ななしのよっしん
2017/09/18(月) 02:38:00 ID: 0RJLqz/JwF
いや、存在しない記事なのかこれ
確かに
63 ななしのよっしん
2017/09/18(月) 03:00:43 ID: BmmqfrIeNB
中にききたくなかった
こわ
64 ななしのよっしん
2018/03/07(水) 02:54:51 ID: O9azhLBWUe
質問なんだけど、
http://www.unicode.org/L2/L2015/15328-tally-marks.pdfexit
この文書↑の
Properties っていう項にある
1D380;TALLY DIGIT ONE;No;0;L;;;;1;N;;;;;
↑こういう書式って何て呼ばれてるの?
この全文字るこの書式欲しいんだけどまず検索する言葉が分からんw
65 ななしのよっしん
2018/05/04(金) 00:08:21 ID: 3/euz3MSwo
Wikipediaの記事にある様な、Unicode文字一覧って需要あるかな?
ブロック毎に表を分けたり、文字ニコ百記事へのリンクるとか、やり様はあるかなあ、とは思ってるんだけど。
66 ななしのよっしん
2018/09/02(日) 18:40:19 ID: r1FnvPwQLF
㍬᠌
67 ななしのよっしん
2019/01/16(水) 02:17:30 ID: CPeBTKQUUp
㌄㍖現象って記事があった
68 ななしのよっしん
2019/03/19(火) 17:56:33 ID: 3/euz3MSwo
元号の合字向けにU+32FFが割当てられる予定。
http://blog.unicode.org/2018/09/new-japanese-era.htmlexit
69 ななしのよっしん
2019/03/21(木) 11:50:39 ID: wucEFXYfCv
        
70 ななしのよっしん
2019/09/24(火) 12:50:40 ID: I39qdOVHAV
空白属性(Zカテゴリ)がない空白文字もどき

U+115F Lo HANGUL CHOSEONG FILLER
U+1160 Lo HANGUL JUNGSEONG FILLER
⠀ U+2800 So BRAILLE PATTERN BLANK
U+3164 Lo HANGUL FILLER
U+FFA0 Lo HALFWIDTH HANGUL FILLER

こういうのを使えばSNSユーザー名を空白にできたりする
71 ななしのよっしん
2020/12/31(木) 13:11:15 ID: t09NPC9Wm1
>>64
UnicodeData.txtフォーマットのことですかね。
とりあえず読み方はだいたい
https://unicode.org/reports/tr44/exit
に書いてあります。あと漢字のあたりは特に書いてないのでそのあたりはご注意を。

急上昇ワード改

おすすめトレンド