關于漢字編碼字符集有多種,它們大體可以分成兩類:一類是以漢字字匯作為主體的漢字編碼字符集,另一類是不僅包含漢字字匯而且包含世界各國和地區使用的主要文字符號的多文種編碼字符集。前一類大多依據ISO/IEC 2022所定義的體系結構,后一類則采用UCS/Unicode所定義的體系結構。在我國,同樣依據這兩種結構有相應的漢字編碼字符集的國內標準,且在不斷的擴充、完善。在介紹漢字編碼字符集前,下表0給出了漢字編碼字符集標準中的相關術語與定義,如:字符、字匯、控制字符、圖形字符(注意:漢字屬于圖形字符)等,以幫助其理解。
表 0:漢字編碼字符集標準中的相關術語與定義
一、以漢字字匯作為主體的漢字編碼字符集
ISO/IEC 2022定義的編碼字符集體系結構,基于單字節的256個碼位的代碼空間。扣除控制字符占用的64個碼位,圖形字符可使用的代碼空間就比較狹小。因此,它規定了一個了七位代碼擴充到八位代碼的擴充方法,以供字符編碼可采用單字節、雙字節乃至四字節進行編碼。漢字是大字符集,每個漢字至少需要用2個字節來表示。中、日、韓等國家和地區,對使用的漢字分別進行編碼,它們的字匯、字級和字序各不相同。此類漢字編碼字符集在東亞地區,尤其是中、日、韓,最主要的有如下幾種。
1、GB/T 2312-1980《信息交換用漢字編碼字符集·基本集》
這是1981年我國頒布的第一個漢字編碼國家標準,該標準采用雙字節的編碼方式,選出6763個常用漢字字符和682個非漢字字符,為每個字符規定了標準代碼。其中一級常用漢字3755個,二級常用漢字3008個。
欲詳細了解GB 2312-1980所規范的漢字編碼字符集的請進入。
2、關于我國信息交換用漢字編碼字符集的輔助集
GB/T 2312-1980基本集編碼的包括漢字的字符集過少,無法滿足我國各行各業漢字信息交換的使用,于是,我國又陸續發布了7個信息交換用漢字編碼字符相關輔助集的標準,包括:第一輔助集(GB/T 12345-90)、第二輔助集(GB/T 7589-1987)、第三輔助集(GB/T 13131-1991)、第四輔助集(GB/T 7590-1987)、第五輔助集(GB/T 13132-1991)、第七輔助集(GB/T 16500-1998)和第八輔助集(SJ/T 11239-2001),但無第六輔助集。以擴充更多漢字及字符的編碼,或適應于不同應用的場景的漢字編碼(如繁體字、地理信息字符等)。這些標準大多仍然有效,少部分已失效。下表1-2匯總了這些標準的基本情況,包括標準的編號與名稱、標準的發布/實施/廢止的時間、相應輔助集與基本集的關系、相應輔助集編碼漢字的用途與數量等情況。
表 1-2:關于漢字編碼字符集相關輔助集標準情況
欲詳細了解我國信息交換用漢字編碼字符集輔助集介紹的請進入。
3、《漢字內碼擴展規范》(GBK)
這是我國1995年頒布的漢字編碼的一個指導性規范,它雖然不是國家標準,但與國家標準具有等效作用。這是由于在我國,對于漢字等圖形字符的編碼,當時既有基本集,又有多個輔助集,使大家執行的標準相對較多而帶來一定的麻煩。于是在1995年底,當時的電子工業部與國家質量監督總局聯合發布了《漢字內碼擴展規范》(GBK),它與國家標準GB/T 2312-1980信息處理交換碼所對應的事實上的內碼標準兼容,共有21003個漢字和883個圖形符號,且在字匯一級同時又支持ISO/IEC 10646-1中的全部中日韓統一漢字(CJK)共20902個。
欲詳細了解GBK所規范的漢字編碼字符集情況的請進入。
4、GB/T 25741《信息技術 漢字編碼字符集 漢字部首序和筆順序》
在2010年,參照國家語言工作委員會的《漢字部首表(2009年)》和《GB 13000.1字符集漢字部首歸部規范(2009年)》,國家標準GB/T 25741規定了GB 18030-2005中雙字節編碼漢字和漢字部件、四字節編碼部分漢字共27 533個漢字的排序,包括部首序和筆順序。適用于文字處理軟件或數據庫軟件的數據項、文件名、任命、地名、書目、大型數據倉庫中客戶和產品目錄等的排序;也適用于漢字編碼字符集之中相應漢字的排序(部首序和筆順序)。
欲詳細了解GB/T 25741標準的請進入。
5、CNS 11643《臺灣地區標準漢字字符集》
其全稱為《通用漢字交換碼》。共收入漢字13 053個(不使用簡化漢字)。與CNS 11643-1992對應的內碼為Big 5碼(俗稱“大五碼”),通常都用Big 5泛指二者。Big 5碼與GB 2312的內碼不兼容,需要進行轉換才能正確地顯示與打印漢字。
6、JIS X 0208《日本工業標準漢字字符集》
其全稱為《情報交換用漢字符號系》。共收入漢字6355個。其中一級字(即第一水準)2965個,按假名順序排列;二級字(即第二水準)3390個,按部首、筆畫數排列。
7、KSC 5601《韓國國家標準漢字字符集》
其全稱為《情報交換用字符集》。共收入漢字4888個,其中有268個同音重見字,按韓文讀音排序;還有韓文數千個。
二、包含漢字字匯的多文種編碼字符集
不同國家和地區對使用的字符集分別進行編碼會產生許多問題。例如,編碼系統會互相沖突,兩種編碼字符集可能使用相同的代碼代表兩個不同的字符,或使用不同的代碼代表相同的字符;任何一臺計算機(特別是服務器)都需要支持許多不同的編碼字符集;數據在不同的系統之間交換時,總會有損壞的危險。
解決上述問題的方案是采用統一編碼,即不論什么計算平臺,不論什么程序語言,世界各國和地區使用的所有文字符號都采用一個惟一的代碼。UCS(通用多八位編碼字符集)和Unicode定義的字符集編碼體系結構就是為此目標而開發的。UCS和Unicode兩者完全兼容,其體系結構基于所謂“多八位”編碼(4字節或2字節)。目前在工業上實現的均為雙字節的UCS-2形式,即所有字符都集中在一個平面(共65536個碼位)內。UCS/Unicode編碼的體系結構的特點體現于下表2-0中。
表 2-0:UCS/Unicode編碼的體系結構的特點
以UCS/Unicode作為體系結構的包含漢字字匯的多文種編碼字符集有如下幾種,包括國際標準和與之兼容的國家標準:
1、ISO/IEC 10646(UCS)/Unicode
ISO/EEC 10646(UCS)/Unicode編碼字符集中的漢字,是遵守中、日、韓(CJK)漢字認同甄別規則而得到的,包括CJK漢字(20902個)、CJK擴充A(6582個)和CJK擴充B(42 778個),后續又擴充到CJK擴充C、D、E、F的共達17672個漢字。它們源自中國及其臺灣地區、日本、韓國的13個字符集,它涵蓋所介紹漢字編碼標準之全部。
欲詳細了解ISO/IEC 10646的通用多八位編碼字符集(UCS)介紹的請進入。
欲詳細了解Unicode編碼字符集介紹的請進入。
2、GB 13000《信息技術 通用多八位編碼字符集(UCS)》
GB 13000是等效采用(IDT)ISO/IEC 10646(UCS)的中國國家標準版本。它首版發布于1993年,即GB 13000-1993《信息技術 通用多八位編碼字符集(UCS)第1部分:體系結構與基本多文種平面》,.IDT于ISO/IEC 10646.1:1993。在2003年ISO/IEC將10646.1和10646.2合二為一,于是我國在2010年IDT于ISO/IEC 10646:2003,發布了GB/T 13000-2010《信息技術 通用多八位編碼字符集(UCS)》。它包含了世界各國和地區當前主要使用的拉丁字母文字、音節文字和漢字中的常用字以及各種符號和數字共49194個。
欲詳細了解GB/T 13000編碼字符集的請進入。
3、GB 18030《信息技術 中文編碼字符集》
UCS/Unicode編碼中的漢字及其編碼與我國已使用多年的GB 2312和GBK標準并不兼容,為了既能盡快地向ISO/IEC 10646與Unicode編碼標準過渡,又能向下兼容GB 2312和GBK漢字編碼標準,因而制定并發布了GB 18030-2000漢字編碼國家標準,并在2001年開始施行,后又在2005年、2022年進行了兩次修訂。GB 18030采用單字節、雙字節和四字節編碼,碼位總數達160多萬個,能完全映射國際標準UCS/Unicode的基本平面和輔助平面中的字符集。它包含的漢字數目增加到27000多個,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字,可適應出版、郵政、戶政、金融、地理信息系統等領域的用字問題。考慮到我國用戶的需要及解決現有系統的兼容性和對多種操作系統的支持,采用GB 18030是我國目前漢字編碼的較好選擇。目前2022年版共收錄漢字87887個,比上一版增加錄入了1.7萬余個生僻漢字
GB 18030是中文信息技術領域最重要的基礎性標準,對漢字和我國多種少數民族文字進行了統一編碼,需要進行中文處理的信息系統均需應用此類編碼標準,因此標準實施場景豐富、應用范圍廣泛,支撐了我國中文信息處理和交換需要。
欲詳細了解GB 18030的中文編碼字符集的請進入。
欲進一步了解我國字符編碼標準介紹的請進入。