概述

代理項（Surrogate），是一種僅在 UTF-16 中用來表示補充字符的方法。在 UTF-16 中，爲補充字符分配兩個 16 位的 Unicode 代碼單元：

這兩個代碼單元組合在一起，就被稱爲代理項對。

釋義

關於代理項的概念，通俗來講，就是爲補充字符找兩個“代理人”。由於補充字符體格壯碩，到了 UTF-16 這個地方就需要佔用兩個 16 位的座位。爲了避免因“佔座糾紛”導致意外發生，就需要爲補充字符找來兩個“代理人”，代替他來佔用兩個座位，這樣就能皆大歡喜了。

代理項僅在 UTF-16 中用來表示補充字符，是指：

以下內容來自 Java API 文檔：³

char 數據類型以及 Character 對象封裝的值，都是基於最初的 Unicode 規範，該規範將字符定義爲固定寬度的 16 位實體。隨着 Unicode 標準的不斷更新，超過 16 位的字符已被允許表示。合法代碼點的範圍已擴展到 U+10FFFF。

在 char 數組、String 類和 StringBuffer 類中，都採用 UTF-16 來表示字符。在這種表示法中，補充字符被表示爲一對 char 值，第一個來自高代理項區間（uD800 - uDBFF），第二個來自低代理項區間（uDC00 - uDFFF）。

因此，char 值可表示 BMP 代碼點、代理項代碼點或 UTF-16 編碼的代碼單元。而所有的 Unicode 代碼點，包括補充代碼點，則用 int 值來表示。int 值中的低 21 位用來表示 Unicode 代碼點，而高 11 位必須爲零。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.