🇺🇳

Han Unification: Unicodeが10万字の漢字を統合した方法

日中台韓の漢字がどのように統合されたか。IRGソースフラグで各文字の出自を確認。

問題: 同じ起源、異なる字形

漢字は4つの主要な文字体系で使用されています: 中国語（簡体字・繁体字）、日本語、韓国語、そしてベトナム語（歴史的）。数世紀を経て、同じ文字が各地域で異なる字形に発展しました。

例えば「骨」という文字: 日本では中国語の字形とわずかに異なる画構造で書かれます。Unicode は同じコードポイントを割り当てるべきでしょうか、それとも別々にすべきでしょうか?

Unicode コンソーシアムは Han Unification（漢字統合）を選択しました: 同じ起源と意味を共有する文字は、地域間でグリフが異なっていても単一のコードポイントに割り当てられます。どの視覚形式でレンダリングされるかはフォントと言語タグによって決まります。

概念	例	コードポイント
統合された	繋（JP）vs 繋（CN）	同一: U+7E4B
統合されない	渡 vs 度	別々: U+6E21 vs U+5EA6

統合された文字を検査する

ソース分離規則

漢字統合を統治する中核原則がソース分離規則（Source Separation Rule）です: 2つの文字がいずれかのソース規格（中国、日本、韓国、台湾等の国家文字集合）で別々のコードポイントとしてエンコードされていた場合、Unicode でも別々のままでなければなりません。

逆に、IRG（Ideographic Rapporteur Group、表意文字小委員会）が「同じ位置」と判断した文字が複数のソース規格に現れる場合、1つのコードポイントに統合されます。

統合された各文字にはソース参照（IRG ソースフラグ）が付与され、どの国家規格がそれを含むか記録されています:

ソース接頭辞	規格	国/地域
G	GB 2312 / GB 18030 等	中国（大陸）
J	JIS X 0208 / JIS X 0213	日本
K	KS X 1001 / KS X 1002	韓国
T	CNS 11643	台湾
V	TCVN	ベトナム
H	HKSCS	香港

このツールはすべての CJK 文字の IRG ソースフラグを表示し、各コードポイントにどの規格が寄与したかを追跡できます。

漢字の IRG ソースを確認する

IRG ソースフラグの読み方

このツールで CJK 文字を検査すると、G0-3A3A J0-3441 T1-4E5B K0-7956 のようなソースデータが表示されることがあります。読み方は以下の通りです:

フラグ	意味
G0-3A3A	GB 2312 26区26点（中国ソース）
J0-3441	JIS X 0208 20区33点（日本ソース）
T1-4E5B	CNS 11643 第1面 46区59点（台湾ソース）
K0-7956	KS X 1001 89区70点（韓国ソース）

文字の後の数字は規格のレベルを示します: G0 = GB 2312（レベル0）、G1 = GB 12345、J0 = JIS X 0208、J1 = JIS X 0212 など。

4つの主要地域すべて（G, J, K, T）のソースを持つ文字は強く統合されています — 4つの国家規格がこれを1つの文字と認めたことを意味します。1つのソースのみ（例: J のみ）の文字は日本固有の可能性があります。

CJK 拡張 A から I まで

元の CJK 統合漢字ブロック（U+4E00–U+9FFF）は最も一般的な国家規格から 20,992 文字を収録しています。しかしこれでは全く足りませんでした。Unicode は数十年にわたり拡張を追加してきました:

ブロック	範囲	文字数	年	備考
CJK 統合漢字	U+4E00–9FFF	20,992	1993	基本集合（GB, JIS, KS, CNS）
拡張A	U+3400–4DBF	6,592	1999	CNS, JIS X 0213 の稀少文字
拡張B	U+20000–2A6DF	42,720	2001	歴史的・異体・稀少文字
拡張C	U+2A700–2B73F	4,154	2009	追加の稀少文字
拡張D	U+2B740–2B81F	222	2010	緊急追加
拡張E	U+2B820–2CEAF	5,762	2015	継続的拡張
拡張F	U+2CEB0–2EBEF	7,473	2017	さらなる追加
拡張G	U+30000–3134F	4,939	2020	甲骨文字を含む
拡張H	U+31350–323AF	4,192	2022	継続的拡張
拡張I	U+2EBF0–2F7FF	622	2023	人名用漢字

拡張B 以降は補助表意文字面（SIP）に配置され、UTF-16 ではサロゲートペアが必要です。つまり JavaScript では "𠀀".length は 1 ではなく 2 を返します。

論争

漢字統合は Unicode で最も議論の多い決定の一つであり続けています。批判側の主張:

区別の喪失: 日本語と中国語の読者は同じコードポイントに対して異なる画形を期待する場合があります。lang 属性とフォントに頼る方式は脆弱です。
フォント依存: 正しい言語タグがなければ、CJK 文字が「間違った」地域形式でレンダリングされ、読者を混乱させてしまいます。
哲学的異議: 地域変種は十分に分岐しており、単なるグリフ変種ではなく別個の文字であると主張する学者もいます。

擁護側の反論:

先例: ラテン文字の ‘a’ もフォントによって異なる形で描画されますが（セリフ vs サンセリフ）、別のコードポイントは与えられていません。地域的な CJK グリフ変種も同様です。
実用性: 統合なしでは CJK ブロックは 3〜4 倍の大きさになり、相互運用性が困難になります。
IVS という安全弁: 異体字シーケンス（IVS）により、必要時には正確なグリフ形式を指定できます。

CJK 互換漢字: 例外

統合の哲学にもかかわらず、Unicode には CJK 互換漢字ブロック（U+F900–U+FAFF）に重複した CJK 文字が含まれています。これらは同じ文字を2度エンコードしたソース規格との往復互換性のために存在します。

例えば U+F91D（隷）は U+96B7（隷）を複製する CJK 互換漢字です。NFC 正規化では互換漢字は統合形式にマッピングされます:

// CJK 互換漢字 → 統合形式
"\uF91D".normalize("NFC")
// → "隷" (U+96B7)

// 文字が互換ブロックにあるか確認:
const cp = "隷".codePointAt(0); // U+F91D
const isCompat = cp >= 0xF900 && cp <= 0xFAFF;

CJK 互換漢字は 472 文字あります。大半は韓国の KS X 1001 規格がいくつかの変種形式を個別にエンコードしていたため、ソース分離規則に従って保持されたものです。

互換漢字を NFC と比較する

✍️