Learn UnicodeUnicode を学ぶ
Interactive guides with live examples. Each article links to the Unicode Viewer tool so you can explore the concepts hands-on.インタラクティブなガイド。各記事から Unicode Viewer ツールに連携して、実際に手を動かしながら学べます。
Fundamentals基礎
Characters Are a Lie: Understanding Grapheme Clusters「1文字」は嘘: 書記素クラスタを理解する
Why string.length gives wrong answers, what grapheme clusters really are, and how Intl.Segmenter fixes everything.string.length が嘘をつく理由、書記素クラスタの正体、そして Intl.Segmenter による解決。
UTF-8 Byte by Byte: How Characters Become BytesUTF-8 バイト解剖: 文字がバイトになるまで
A visual, byte-level walkthrough of UTF-8 encoding showing exactly how code points map to 1-4 bytes.UTF-8 エンコーディングのバイトレベル解説。コードポイントが1〜4バイトにマップされる仕組み。
Unicode Normalization: NFC, NFD, NFKC, NFKD DemystifiedUnicode正規化完全ガイド: NFC/NFD/NFKC/NFKD の違い
Why the same-looking text can have different bytes, when each normalization form matters, and how to see the differences visually.同じに見えるテキストがなぜ異なるバイト列になるのか。4つの正規化形式の使い分けを視覚的に解説。
Surrogate Pairs: Why JavaScript Strings Break on Emojiサロゲートペア: なぜJavaScriptは絵文字で壊れるのか
How UTF-16 surrogate pairs work, why they affect JavaScript/Java/C#, and how to handle them correctly.UTF-16 サロゲートペアの仕組み。JavaScript/Java/C# で問題になる理由と正しい対処法。
Encoding & Legacyエンコーディング
Shift_JIS vs CP932: The Encoding Everyone ConfusesShift_JIS と CP932 の違い: 誰もが混同するエンコーディング
The precise technical differences between Shift_JIS and CP932 (Windows-31J), with byte-level evidence.Shift_JIS と CP932 の正確な技術的違いをバイトレベルで解説。
The Wave Dash Problem: 〜 vs ~ and 7 Other Mapping Conflicts波ダッシュ問題の全貌: 〜 vs ~ と7つのマッピング不一致
Complete reference on the 7 JIS-Unicode mapping discrepancies with an interactive toggle to see both variants.7つの JIS-Unicode マッピング不一致の完全リファレンス。インタラクティブな切り替えで両方を確認。
Legacy Encoding Survival Guide: From ASCII to GB18030レガシーエンコーディング・サバイバルガイド: ASCIIからGB18030まで
A practical overview of 20+ character encodings across languages, how they relate, and how to identify them.20以上のエンコーディングの実践的概要。エンコーディングの関係性と識別方法。
CJKCJK
Han Unification: How Unicode Merged 100,000 CJK CharactersHan Unification: Unicodeが10万字の漢字を統合した方法
How the IRG decided which characters from Japan, China, Taiwan, and Korea are 'the same,' with a tool to check any character's source.日中台韓の漢字がどのように統合されたか。IRGソースフラグで各文字の出自を確認。
IVS: How Unicode Represents 47 Versions of the Same KanjiIVS 完全解説: 同じ漢字の47通りの字形を表示する
Understanding Ideographic Variation Sequences and Standardized Variation Sequences, with live font rendering of all registered variants.異体字セレクタ(IVS/SVS)の仕組み。登録された全バリアントをフォントで実際に表示。
JIS Levels and Kuten Codes: Japan's Character Classification SystemJIS水準と区点コード: 日本の文字分類体系を読み解く
How Japan classifies kanji into 4 levels across JIS X 0208 and JIS X 0213, with kuten positional codes.JIS X 0208/0213 に基づく第一〜第四水準の分類と区点コードの読み方。
Security & Edge Casesセキュリティ
Unicode Homoglyph Attacks: When Characters Lie About Who They AreUnicodeホモグリフ攻撃: 見た目は同じ、中身は別物
How visually identical characters from different scripts enable phishing and spoofing, and how to detect them.異なるスクリプトの視覚的に同一な文字がフィッシングを可能にする仕組みと検出方法。
Invisible Characters: Zero-Width Spaces, Bidi Overrides, and Hidden Text不可視文字の世界: ゼロ幅スペース、Bidi制御、隠しテキスト
A catalog of invisible Unicode characters that can break or hide in text, with the tool to reveal them.テキストに潜む不可視文字のカタログ。ツールで正体を暴く。
Emoji Under the Hood: ZWJ Sequences, Skin Tones, and Flag Math絵文字の解剖学: ZWJシーケンス、肌色修飾子、国旗の仕組み
How complex emoji are built from multiple code points using ZWJ, variation selectors, and regional indicators.ZWJ、異体字セレクタ、地域インジケータを使った複合絵文字の構造。
WHATWG vs Unicode.org: Why Browsers and Standards Disagree on EncodingWHATWG vs Unicode.org: ブラウザと規格がエンコーディングで食い違う理由
A cross-encoding survey of mapping discrepancies between web standards and official Unicode/national standards.WHATWG と Unicode.org/各国規格のマッピング相違を横断的に調査。