HTML與javascript常碰到的編碼問題－Web Design

日常既網頁設計工作中，我地會經常的與HTML、javascript、css等語言打交道，同一門真正既語言一樣，電腦語言也有佢既字母表、語法、詞法、編碼方式等，係呢度我簡單ｄ講下前端HTML同javascript日常工作中成日見到既編碼問題。

電腦裏，我地儲存既資訊都係用二進製碼表示。我們認識既、螢幕上顯示既英文、漢字等符號和儲存用既二進製代碼的互相轉換，就係編碼。

有兩個基本概念需要說明，charset 同 character encoding：

charset ，字符集，亦就係某個符號同某個數字映射關係既一個表，也就是它決定左107 係koubei 既 ‘a’，21475 係口碑的“口”，不同既表有不同既映射關係，如 ascii，gb2312，Unicode. 通過呢ｄ數字同字符既映射表，我地可以把一個二進製表示既數字轉換成某個字符。
chracter encoding ，編碼方式。例如，同是對於應“口”既 21475 呢個數，我地係用 \u5k3e3 表示呢，定係用 %E5%8F%A3 黎表示呢？咁就係由 character encoding 黎決定。

對於 ‘koubei.com’ 咁既字符串黎講，係美國人既常用字符，佢地就制定左一個叫做ASCII 既字符集，全叫做 american standard code of information interchange 美國標準資訊交換碼，用0 127呢128個數字，（2的7次方，0×00-0×7f) 代表左123abc咁既常用128個字符。一共係 7 bits，再加上第一個係符號位，要用黎去補碼反碼表示負數什麼，一共8 bits 構成一個 byte。當年美國人就係小氣左ｄ，如果一開始就設計成一個 byte 係16 bits、32 bits，世界上會少左好多問題，不過當時，估計佢地覺得 8 bits 就夠勒，可以表示128個不同的既字符！

介於電腦這玩意兒係美國人搞出來既，所以佢地自己省事，將自家用既符號都編碼好，用得挺爽架。但當電腦開始國際化既時候，問題出黎勒，拎中國舉例吧，漢字就有幾萬字，點搞丫？

依家有既 8 bits 一個 byte 的系統係基礎，唔可以破壞，唔可以改到 16 bits之類，否則改動太大，只能走另一條路：用多個 ascii 既字符去表示一個其他字符，亦就係 MBCS ( Multi-Byte Character System，多位元組字符系統)。
有左呢個 MBCS概念，我地可以表示更多字符勒，比如我地用 2 個 ascii 字符，就有 16 bits, 理論上有 2 既 16 次方 65536 個字符。但呢ｄ編碼點分配到字符上呢？比如口碑的”口”的 Unicode 編碼就是 21475，誰決定的呢？字符集，也就是剛剛介紹的charset。ascii就是最基礎的一個字符集，在此之上，我們有類似於 gb2312， big5這樣針對簡體中文和繁體中文的MBCS的字符集等等。終於有個叫 Unicode Consortium 的機構，決定做一個囊括所有字符在內的字符集（UCS, Universal Character Set）和對應編碼方式的標準，即 Unicode。從1991年開始，它發布了第一版 Unicode 國際標準，ISBN 0-321-18578-1 ，國際標準化組織 ISO 也參與了這個的定製，ISO/IEC 10646 : the Universal Character Set。總之，Unicode 是個基本覆蓋了所有已經存在的地球上的符號的字符標準了，現在正在被越來越廣泛的使用，ECMA 標準也規定，javascript語言的內部字符使用 Unicode 標準（這意味著，javascript的變量名、函數名等是允許中文的！）。

對於身在中國既開發者來說，可能碰到比較多的問題就是 gbk, gb2312, utf-8 之間轉換之類的問題了。嚴格的說這個說法不是很準確，gbk，gb2312是字符集 (charset)，而 utf-8 是一種編碼方式 (character encoding) ，是 Unicode 標準中 UCS 字符集的一種編碼方式，因為使用 Unicode 字符集的網頁主要用UTF-8編碼，所以大家常常就把它們並列了，其實是不準確的。網頁設計網頁設計網頁設計

有了 Unicode 後，至少人類文明沒有碰到外星人之前，這是一把萬能鑰匙了，都用它吧。而現在使用最廣泛 Unicode 的編碼方式就是 UTF-8 (8-bit UCS/Unicode Transformation Format) 了，它有幾個特別好的地方：

編碼 UCS 字符集，全世界通用
是一種變長編碼方式（variable-length character encoding），兼容 ascii

第二點是個很大的優點，它使得以前使用純 ascii 編碼的系統兼容，而且不會增加額外的存儲量（假設定長的編碼方式，規定每個字符由2個 bytes 組成，那麼這時候 ascii 字符佔用的存儲空間將增大一倍）。

要把 UTF-8 說清楚，引入一個表會更方便了:

U-00000000 U-0000007F:    0xxxxxxx
U-00000080 U-000007FF:    110xxxxx 10xxxxxx
U-00000800 U-0000FFFF:    1110xxxx 10xxxxxx 10xxxxxx
U-00010000 U-001FFFFF:    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 U-03FFFFFF:    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 U-7FFFFFFF:    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

要看懂這個表呢，我們看前兩行就夠了

U-00000000 U-0000007F:
0xxxxxxx 第一行是這樣的，意思是說，如果你發現一個utf-8編碼的 byte 的二進製碼是0xxxxxxx，是0開頭的，即十進製的0-127之間，那麼他就是單獨的這一 byte 代表一個字符，而且是擁有和 ascii 碼完全一樣的含義。其他所有的 utf8 編碼的二進製值都是用1開頭的1xxxxxxx，大於127的，而且都需要至少2 bytes才能代表一個符號。所以一個位元組的第一位是一個開關，代表這個字符是不是一個 ascii 碼。這個就是剛才談到的兼容性，從英文定義上看，就是utf8編碼的兩個屬性：

UCS characters U+0000 to U+007F (ASCII) are encoded simply as bytes 0×00 to 0×7F (ASCII compatibility). This means that files and strings which contain only 7-bit ASCII characters have the same encoding under both ASCII and UTF-8.
All UCS characters >U+007F are encoded as a sequence of several bytes, each of which has the most significant bit set. Therefore, no ASCII byte (0×00-0×7F) can appear as part of any other character.

然後我們看看第二行：

U-00000080 U-000007FF: 110xxxxx 10xxxxxx
先看第一個位元組：110xxxxx，它的含義是，我不是一個 ascii 碼（因為第一位不為0），我是一個多 bytes 字符的第一個 byte （第二位為1），我參與表示的這個字符是由2個 bytes 組成的（第三位為0），從第四位開始，就是字符的資訊儲存的位置。
再看第二個位元組：10xxxxxx，它的含義是：我不是一個 ascii 碼（因為第一位不為0），我不是一個多 bytes 字符的第一個 byte （第二位為0），第三位開始是字符的資訊儲存的位置。

從這個例子中可以總結出來，utf-8編碼方式中，在一長串連續的二進製 byte 碼中，可能由2個至6個 bytes 來表示一個符號，那麼相比較於用一個 byte 表示符號的 ascii 碼，我們需要空間來儲存兩個額外資訊：一，這個符號開始位置，一個“starter”的位置，用生物學上的話來說，就是蛋白質翻譯時候起始密碼子AUG的位置了；二，這個符號使用的 bytes 數（其實如果每個符號都有 starter，這個長度是可以不提供的，但是提供長度資訊增加了在部分 bytes 丟失時的容錯能力）。解決方案是：用一個 byte 的第二位是否是1來代表這一 byte 是否是一個字符的起始 byte （因為一個 byte 裡面的第一位剛才已經被使用了，0表示ascii碼，1表示非ascii )，即，一個多位元組符號的第一個bytes一定是 11xxxxxx，一個192到255之間的二進製數。接下來，從第三位開始，提供長度資訊，第三位是0表示這個符號是2位元組的，第三位開始每多一個1，字符佔用的 bytes 數加一。utf-8 最多定義到了 6 位元組字符，需要比 110xxxxx 這樣的表示2位元組的starter多 4 個 1，所以這個starter就是 1111110x，如上表所示。
再看看英文定義的標準吧，表達的同樣的意思：

The first byte of a multibyte sequence that represents a non-ASCII character is always in the range 0xC0 to 0xFD and it indicates how many bytes follow for this character. All further bytes in a multibyte sequence are in the range 0×80 to 0xBF. This allows easy resynchronization and makes the encoding stateless and robust against missing bytes.

真正的資訊位（即，真正的charset字符集中的數字資訊），是直接用二進製的方式，依順序放在上面這個表的’x'上的。用我們中國程式員接觸最多的漢字來說吧，它們的編碼區間是在 U-00000800 U-0000FFFF 之間的，從上面的表中可以查到，這個區間的 utf-8 編碼是用三個位元組來表示的（這就是 utf-8 編碼的漢字會比每個字符佔用2 bytes的 EUC-CN 編碼的 gb2312 字符集的漢字使用更多儲存空間的原因），還是用口碑的”口”字舉例吧，口字在 Unicode 中的編號是這樣的：
口: 21475 == 0×53e3 == 二進製 101001111100011

在 javascript 中，run這段代碼（使用 firebug 的 console，或者編輯一個HTML將下列代碼插入一對 script 標籤之間）：

alert(’\u53e3′); //get ‘口’
alert(escape(’口’)); // get ‘%u53E3′
alert(String.fromCharCode(’21475′)); // get ‘口’
alert(’口’.charCodeAt(0)); // get ’21475‘
alert(encodeURI(’口’)); //get ‘%E5%8F%A3′

可以看到，string直接量可以用\u+十六進製 Unicode 碼的形式得到字符 ‘口’，而fromCharCode 方法接受 10 進製的 Unicode 碼，得到字符 ‘口’。

其中第二個alert得到的是 ‘%u7545′ , 這是一種不標準的Unicode編碼，是屬於 URI 的 Percent encoding 一部分，但這種使用方法已經正式被 W3C 拒絕了，任何一個 RFC中都沒有這個標準，ECMA-262 標準中規定了 escape 的這種行為，估計也是暫時的。
比較有意思的是第五次alert得到的 ‘%E5%8F%A3′ 這是什麼呢？怎麼得到的呢？

這就是在URI上用的比較多的 Percent encoding，百分號編碼，RFC 3986 標準中規定的