12
<<
<
>
>>
1/1
1 ななしのよっしん
2021/11/06(土) 09:31:25 ID: p/bLa46eK1
2 ななしのよっしん
2021/11/06(土) 09:56:15 ID: p6tbD0S7Rz
今となっては「どうして最初からUTF-8にならなかったんだ」という話なんだけど、制定当初のメモリ事情を考えると仕方ない話よな……
3 ななしのよっしん
2021/11/06(土) 10:55:38 ID: jvC7VceLKF
>>1
気づいて下さりありがとうございます。
ただ、「粗品」よりもニコニコ大百科:グラフ機能の方が1年以上先行して公開されているので、「粗品」のパクりみたいに言われるのは個人的にはいささか心外ではあります。
>>2
Unicode1.0の時に、2バイトで全ての文字を網羅できると楽観視したあたりから計算が狂い始めたっぽい。ASCIIの時代にこれを考えるのは無理ゲー。
4 ななしのよっしん
2021/11/06(土) 11:16:20 ID: Xq5Ixk4zKO
そもそもNEC特殊文字・IBM拡張文字・NEC選定IBM拡張文字なんてできたのはなぜだったかって話だしね
統一仕様が策定しやすいだけでもいい世の中になったもんだ
5 ななしのよっしん
2021/11/06(土) 12:27:44 ID: p6tbD0S7Rz
「縺」「繧」「繝」の3記事にリンク貼ってもいいかもしれない
>>3
「サロゲートペア」の記事でその辺りの経緯を駄弁ってみました。UTF-8はせっかく31ビットまで定義されていたわけで、21ビットという足枷なしに活躍させてあげたいんですけどね……
6 ななしのよっしん
2021/11/06(土) 14:09:14 ID: jvC7VceLKF
>>5
UTF-16の記事で書こうとしていたら被った…
とりあえず投稿しておいたので、統廃合についてはUnicodeの記事も含めて後日検討します。
7 ななしのよっしん
2021/11/07(日) 09:55:31 ID: p6tbD0S7Rz
1バイト単位での可視化の方法としてなるほどなぁと
https://
8 ななしのよっしん
2021/12/14(火) 13:49:56 ID: qmi43fY4Ds
UTF-8で統一すべき。そうじゃなくても少なくともUnicode。
日本語のSJISとか、中韓台の文字コードとか無くしていくべき。
9 ななしのよっしん
2021/12/17(金) 04:43:41 ID: d9Wa3EU+fb
>日本語のSJISとか、中韓台の文字コードとか無くしていくべき。
CJK統合漢字「おっそうだな」
……ってのは置いといて、UTF-8と関連する文字コードの話についてはこの記事がめちゃくちゃ面白い↓
C++標準化委員会、ついに文字とは何かを理解する: char8_t
https://
文字コードっつーかこの世の文字そのものがめちゃくちゃ複雑なので、
現在では最大公約数的にUTF-8が最適解だよねってことになってるけど
そこまではほんと紆余曲折の苦労があった(今もある)
10 ななしのよっしん
2021/12/17(金) 09:26:22 ID: p6tbD0S7Rz
UTF-8は「2バイト目以降を独立したコードポイントに置いている」のが大きな利点かつ大発明であって、EUC-JPで「“海”(b3a4) を検索すると“ここ”(a4b3 a4b3) がヒットする」みたいな現象を回避できたんだが、国旗絵文字やZWJ結合絵文字でその現象が再び発生してしまったのをなんとかしてほしい
人は過去から学ばないのか
11 ななしのよっしん
2021/12/21(火) 07:49:55 ID: 0Q1hCrxjkm
Windows10ではメモ帳がデフォルトでUTF-8になったんですね https://
記事の円グラフですが、これだけ項目が多いと棒グラフで描いた方が見やすいと思います。
12 ななしのよっしん
2025/05/04(日) 17:42:50 ID: IwaverxJ4s
UTF-8のおかげで文字化けとか機種依存文字なんてほぼ気にしなくてよくなってるのに
(こちらが打った結果を見られないECサイトの入力や投稿フォームとかで使うのはやめといた方がいいと思うけど)
相変わらず格ゲー界隈はテンキー表記を使い続けてるし、
Wiki利用者とかも機種依存文字使っちゃダメって誤解してる人がいっぱいいるんだよな
<<
<
>
>>
1/1
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。