📜

レガシーエンコーディング・サバイバルガイド: ASCIIからGB18030まで

20以上のエンコーディングの実践的概要。エンコーディングの関係性と識別方法。

エンコーディングの系譜

Unicode 以前は、各言語に固有のエンコーディングが必要でした。その結果、同じ問題を異なる方法で解決する規格が乱立しました:

このツールは20以上のレガシーエンコーディングのバイト列を同時に表示し、同じ文字がシステムごとにどう表現されるか比較できます。

シングルバイト・エンコーディングは各バイト (0x00-0xFF) を1文字にマップします。下半分 (0x00-0x7F) は ASCII 共通ですが、上半分 (0x80-0xFF) は異なります:

WHATWG は iso-8859-1 を windows-1252 として扱います。ISO 8859-1 で C1 制御文字の 0x80-0x9F が、Windows-1252 ではタイポグラフィ文字（€, ", —）になります。

CJK 言語は数千の文字が必要なため、マルチバイト・エンコーディングを使用します:

同じ CJK 文字でもエンコーディングごとに全く異なるバイト列になります。このツールで並べて比較できます。

このツールは2つの方法で各文字に関連するエンコーディングを自動検出します:

CJK 文字: Unihan IRG ソースデータベース（88,000字以上）で各国規格への収録状況を確認。単純なエンコード可否チェックより正確です。

その他のスクリプト: 各グループの最も広いエンコーディング（西欧は Windows-1252、キリルは Windows-1251 等）でのエンコード可否を確認。

Shift_JIS と CP932 の正確な技術的違いをバイトレベルで解説。

7つの JIS-Unicode マッピング不一致の完全リファレンス。インタラクティブな切り替えで両方を確認。