国产不卡在线观看视频_日本高清久久_天天操天天干天天摸_一区二区三区视频在线

歡迎來到通信人在線![用戶登錄] [免費注冊]

關于Unicode編碼字符集

瀏覽:5848  來源:通信人在線  日期:2023-02-02

一、Unicode的淵源

1Unicode的誕生

Unicode編碼字符集(Unicode Coded Character Set)源自于美國。我們知道,最早的編碼字符集是采用的7位二進制編碼,如美國信息交換標準代碼(ASCII)。7位二進制編碼可以有27 = 128個編碼位組,最多能為128個字符進行編碼。然而當字符中包含文字字符(如漢字及世界其它國家文字等)時,128個編碼位組顯然是不夠用的。

欲具體了解ASCII編碼字符介紹的請進入

于是,在1987年初,美國的施樂(Xerox)公司的Joe Becker倡議將計算機字符集編碼碼位擴充到更的多位數,以收納世界上各國各種文字,并開始研究,其研究的內容主要體現在下表1-1所示的方面,但重點是兩個:

1-1Unicode起步所研究的內容

一是采用的編碼位數。其實在當時,國際上已有不少字符集編碼標準采用了16位(雙字節)編碼,如我國的GB 2312-80、臺灣的Big5等。于是,Xerox公司的研究時考慮16位編碼,采用16位編碼,其碼位位組可達216 = 65536個編碼位組。當初Xerox公司研究的時65536個編碼位組是否能夠容納全世界所有文字字符的編碼。最終研究的結果是,采用16位二進制編碼(雙字節),應該可以對全世界所有文字字符進行編碼。這里需要指出的是,他們這種決定對于漢字,尤其是中、日、韓所用漢字采用統一編碼,且是按抽象字符編碼,而不是對字形或者字意編碼。

二是采用的碼位長度。決定采用雙字節編碼后,面臨兩個選擇:一是采用變長編碼形式(如我國的 GB 2312標準),對于 ASCII 字符使用一個字節,其它字符使用兩個字節;另一種是采用定長編碼形式,不管是不是 ASCII 字符,所有字符編碼統一使用兩個字節。最終研究的結果是,采用定長編碼形式。采用定長編碼形式的好處是顯而易見的,就是避免了使用代碼擴充技術。

鑒于上述的研究,最終的研究成果于 1988 8 月以草案的形式發布(后稱為 Unicode 88)。他們將其字符集編碼標準被命名為“Unicode”,在我國又翻譯稱統一碼、聯合碼或萬國碼。為了推動Unicode的開發與應用,1991年當時的美國一些信息技術公司,如IBMDECSunXeroxAppleMicrosoftNovell等公司共同出資在加州成立Unicode聯盟The Unicode Consortium),并由協會設立非贏利的Unicode公司,來推動Unicode的開發與應用工作。

欲具體了解GB 2312-80漢字編碼字符介紹的請進入

2Unicode標準的歷程

于是,在Unicode 88草案的基礎上,于199110 月發布了 Unicode 的第一版(Unicode 1.0.0)。該版僅包含 24 種語言文字共 7163 個字符,但該版本中并未包括CJK漢字。在19926月發布了 Unicode 的第二版(Unicode 1.0.1);該版本中加入了20902 CJK統一漢字。下表1-2-1匯總了Unicode標準版本信息,包括版本號與發布年份等。2021 9 月發布Unicode 14.0.0版本,該版本支持 159 種文字,共包含 144697 個字符(包括控制字符、文字符號、表情符號等)。目前,Unicode 15.0.0 版本已于20229月發布。該版本增加了 4488 個字符(包括20 個新的表情符號(Emoji)字符和4193CJK表意文字),共有 149186個字符。

1-2-1Unicode標準的版本信息(截止到20231月)

注意,Unicode標準新的版本將是代替以前的版本。Unicode 標準的版本號是由三個字段組成,分別依次表示主要版本、次要版本和更新版本。它們的含義區別詳見下表1-2-2

1-2-2Unicode標準新的版本號的含義區別

二、與ISO的合作

1、關于ISO的研究

其實,早在1984年,國際標準化組織(ISO)就啟動了通用多八位編碼字符集(UCS)的項目研究,初始的技術方案遭到了美國上述部分信息技術公司的抵觸的。從“通用多八位編碼”的名字就可以看出ISO采用的多字節編碼,即單字節、雙字節乃至四字節的不定長編碼的方案,對于ASCII 字符仍采用單字節長度編碼;對于世界文字字符常采用雙字節編碼,同時設計了四字節編碼,需要時可將文字字符置于四字節編碼區。顯然,ISO研究制定的字符編碼體系是優越的,其容量宏大(編碼位組多)、字符編碼使用靈活(可按文字的字形、部首、筆畫等進行編碼)、兼容早期字符編碼方案(ASCII 字符編碼);適用于世界各種文字及符號,包括世界上曾經出現過但現今很少使用的、以及今后將新產生的文字符號。

欲具體了解國際標準化組織(ISO)介紹的請進入

ISO 方案相比,Unicode 88草案中的方案明顯存在以下不足:

一是定長雙字節編碼無法與ASCII 字符編碼兼容。我們知道,采用7位編碼的ASCII 字符的編碼標準是在上世紀六十年代就開始實行了,這期間已大量地應用于多種編程軟件及規范標準之中。Unicode 88開始對ASCII 字符采用雙字節編碼,就要求已應用的7位編碼的ASCII 字符的編碼方案都重新修訂過來,這顯然是不現實的、是不切合實際的。

二是編碼位組容量相對捉襟見肘。Unicode 88采用16位二進制編碼,可以提供65536個編碼位組,在Unicode最初的研究中其容量是夠用的。因為研究的出發點是僅編碼現用的世界各國文字字符、很少考慮按字形編碼(尤其是CJK漢字,不考慮其文字的表意)等等。顯然這種出發點是好的,它可以簡化編碼體系,然而它卻限制了要編碼的文字符號,嚴重影響了實際中文字信息化的處理與通信。

2UnicodeUCS的融合

從標準的組織制定形式上來講, ISO以國家成員體為基礎而制定的;Unicode則是以公司為基礎的集團制定的。相對于字符集編碼標準,ISO由各成員國的參與,標準的研究制定顯然更充分些、更周全些。鑒于上述Unicode 88草案方案的不足,1991年,在包括中國在內的各ISO成員過和信息領域的許多信息技術(IT)大企業的推動下,UnicodeUCS兩大標準實現了相互對齊、合二而一。Unicode 1.0版和ISO/IEC第一個ISO草案DIS 10646.1進行了雙方都可接受的修改,將它們的組合庫合并為一個單一的數字字符編碼。這項工作在Unicode 1.1版中達到了高潮。

此后,這兩個標準一直保持著協調關系、同步發展。ISO/IEC 10646 -1:1993Unicode 1.1標準的編碼字符(碼位和名稱)完全相同。Unicode 3.0版等同于ISO/IEC 10646-12000Unicode3.1版等同于ISO/IEC 10646-22001。總體上,ISO/IEC 10646-12000Unicode 3.0ISO/IEC 10646-22001 Unicode 3.1的內容、編碼、命名是完全相同的。但在一些細節上,兩個標準仍然有一些差別的。關于Unicode標準與ISO/IEC 10646標準各版本之間的關系詳見下附件2

附件 2Unicode標準與ISO/IEC 10646標準各版本之間的關系

三、Unicode編碼字符集介紹

截止到20231月,Unicode 15.0.0 版本是Unicode編碼字符集的最新版本。它是由核心規范(其目錄詳見下表3所示)、代碼圖表、標準的附錄、Unicode字符數據庫(UCD)等構成;若要詳細了解該版本核心規范具體內容的請查閱下附件3;若要Unicode V15.0.0標準其它內容請在其Unicode聯盟網站查閱。

3Unicode V15.0.0核心規范目錄

附件 3Unicode編碼字符集標準核心規范(V 15.0.0

事實上,Unicode編碼字符集(Unicode Coded Character Set)與國際標準ISO/IEC 10646完全兼容并同步發展的一種通用的字符編碼標準,雖然他們各自發布自己版本的標準。

欲進一步了解UCS編碼字符介紹的請進入

附錄
聯合國兒童基金會助學
© 2004-2025 通信人在線 版權所有 備案號:粵ICP備06113876號 網站技術:做網站