根據(jù)我國(guó)相關(guān)字符編碼的標(biāo)準(zhǔn),所謂字符(Character)是指供組織、控制或表示數(shù)據(jù)的元素集合中的一個(gè)元素。編碼字符集(Coded Character Set)是指一組明確的規(guī)則,它建立字符集和該字符集內(nèi)的字符與其位組之間一一對(duì)應(yīng)的關(guān)系。而字符又分為控制字符和圖形字符。控制字符(Control Character)是指一種控制功能,它的編碼表示由單個(gè)位組組成。它影響數(shù)據(jù)的記錄、處理、傳輸或解釋的一種動(dòng)作或作用,如回車“CR”、正文開(kāi)始“STX”等。圖形字符(Graphic Character)是指不同于控制功能的一類字符,它有可見(jiàn)的表示,通常是手寫(xiě)的、打印的或顯示的,并且它有一個(gè)或多個(gè)位組組成的編碼表示。那么依據(jù)圖形字符的定義,圖形字符又包括文字字符(如漢字、少數(shù)民族文字等)和非文字字符(如字母(漢字拼音字母和英文字母等)、數(shù)字、標(biāo)點(diǎn)符號(hào)等其它符號(hào))。
下述要介紹的是控制字符和非文字字符的編碼,即不包括文字的編碼,也可簡(jiǎn)單的稱之為符號(hào)編碼。符號(hào)編碼通常多采用單字節(jié)的七位或八位二進(jìn)制編碼。在信息通信系統(tǒng)中,我們常用到符號(hào)編碼的編碼字符集有ASCII、中國(guó)編碼字符集、IA5(IRA)等;另外還有如EBCDIC、BCD、NBCH及ITA2等。
1、美國(guó)信息交換標(biāo)準(zhǔn)代碼(ASCII)
美國(guó)信息交換標(biāo)準(zhǔn)代碼(ASCII,American Standard Code for Information Interchange)是由美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)(ANSI)開(kāi)發(fā)的,是現(xiàn)在用的比較多的一種符號(hào)字符集。上世紀(jì)50年代,由于美國(guó)在研究用計(jì)算機(jī)處理信息時(shí),ANSI著手編制制定常用字符的二進(jìn)制數(shù)表示方案,該方案在1967年定案,即為ASCII。ASCII方案每個(gè)字符用7比特編碼,即用3比特對(duì)“列”進(jìn)行編碼(共有8列),用4比特對(duì)“行”進(jìn)行編碼(共有16行),共有128個(gè)位置(位組),即可對(duì)128個(gè)字符進(jìn)行編碼。這些位置分配給相應(yīng)的控制字符和圖形字符,即對(duì)這些字符進(jìn)行了二進(jìn)制編碼。在使用中已把ASCII封裝在協(xié)議中進(jìn)行傳輸。下表1-1給出了ASCII字符集及編碼。下表1-2給出了控制字符的含義及中英文對(duì)照,其控制字符的解釋可參見(jiàn)下表2-2。ASCII方案開(kāi)始為美國(guó)國(guó)家標(biāo)準(zhǔn),后來(lái)在1972年被ISO采用,制定為國(guó)際標(biāo)準(zhǔn),即ISO 646,并做了補(bǔ)充。
表 1-1:ASCII編碼字符集
表 1-2:ASCII碼字符集中控制字符的含義及中英文對(duì)照(按編碼順序排列)
2、中國(guó)標(biāo)準(zhǔn)編碼字符集
1980年,我國(guó)頒布了GB 1988-1980《信息交換用的七位編碼字符集》的國(guó)家標(biāo)準(zhǔn)(現(xiàn)在的最新版本是GB/T 1988-1998《信息技術(shù) 信息交換用七位編碼字符集》),規(guī)定了中國(guó)標(biāo)準(zhǔn)的7位編碼字符集。GB/T 1988-1998等效采用了國(guó)際標(biāo)準(zhǔn)ISO/IEC 646:1991《信息技術(shù) 信息交換用ISO七位編碼字符集》(1991版是它的第3個(gè)版本,它與ITU-T T.50的國(guó)際第五號(hào)電碼表(IA5)基本相同)。
GB/T 1988-1998與ISO/IEC 646:1991的差別僅是在2/4位置用人民幣符號(hào)“¥”(人民幣元記號(hào))代替了ISO/IEC 646中的通用貨幣符號(hào)“$”(或IA5的“¤”符號(hào))。中國(guó)編碼字符集的結(jié)構(gòu)(如下圖2所示)與ASCII碼字符集、ISO/IEC 646字符集、ITU-T T.50字符集基本相同。圖2中包括了:32個(gè)控制字符的C0控制字符集;94個(gè)圖形字符的G0圖形字符集;1個(gè)圖形字符“間隔”(SP)和1個(gè)字符“抹掉”(DEL),共128個(gè)位組。中國(guó)字符集與ASCII碼字符集非常相近,但略有不同,具體詳見(jiàn)下表2-1。表2-1中對(duì)128個(gè)位置全部使用,其中控制字符的含義是由我國(guó)標(biāo)準(zhǔn)GB/T 5261《信息處理 七位和八位編碼字符集用的控制功能》所定義的,具體詳見(jiàn)下表與表2-2。若要詳細(xì)了解GB/T 1988-1998標(biāo)準(zhǔn)具體內(nèi)容的請(qǐng)查閱下附件2。
圖 2:7位編碼字符集結(jié)構(gòu)
表 2-1:中國(guó)標(biāo)準(zhǔn)7位編碼字符集
表 2-2:控制字符含義及解釋
附件 2:GB/T 1988-1998《信息技術(shù) 信息交換用七位編碼字符集》
3、國(guó)際參考字母表(IRA)
國(guó)際參考字母表(IRA,International Reference Alphabet),以前稱為國(guó)際第五號(hào)電碼表(IA5,International Alphabet No.5),是由ITU-T規(guī)范的一種字符集編碼標(biāo)準(zhǔn)。在1976年10月,ITU根據(jù)ISO 646標(biāo)準(zhǔn),制定了ITU-T V.3《International Alphabet No.5》建議書(shū),后來(lái)經(jīng)過(guò)幾次修訂,最新版本為ITU-T T.50(09/92)《信息技術(shù)-用于信息交換的七位編碼字符集》。它與ISO/IEC 646字符集和中國(guó)字符集(GB/T 1988)基本相同,與ASCII字符集非常接近,也是一種7位二進(jìn)制碼,只是在2/3位和2/4位由貨幣符號(hào)可選擇置換,下表3-1給出了其國(guó)際參考版本(IRV,International Reference Version);ITU-T T.50中也給出了控制字符的含義及解釋,同表2-2中。若要詳細(xì)了解ITU-T T.50建議具體內(nèi)容的請(qǐng)查閱附件3。
表 3:ITU的國(guó)際第五號(hào)字母表(表5/T.50,IRV)
附件 3:ITU-T T.50(09/92)《信息技術(shù)-用于信息交換的七位編碼字符集》
4、擴(kuò)充二進(jìn)制編碼的十進(jìn)制交換碼(EBCDIC)
擴(kuò)充二進(jìn)制編碼的十進(jìn)制交換碼(EBCDIC,Extended Binary Code Decimal Information Code)是由IBM公司提出的,主要用于終端設(shè)備。EBCDIC每個(gè)字符用8比特編碼,共有256個(gè)編碼狀態(tài)。EBCDIC比ASCII支持的圖形字符要多,EBCDIC碼字符集除擴(kuò)展位以外與ASCII字符集差不多。然而,EBCDIC在現(xiàn)在的網(wǎng)絡(luò)環(huán)境中已很少使用。下表4給出了EBCDIC編碼字符集。
表 4:EBCDIC編碼字符集
5、BCD碼與NBCH碼:
二進(jìn)制編碼的十進(jìn)制數(shù)(BCD,Binary Code Decimal)是如今使用最多的用來(lái)表示數(shù)字的另一種編碼方式,以前是用6比特編碼表示文字和數(shù)字,現(xiàn)在它僅用4比特表示。它是用4比特二進(jìn)制自然碼為一組來(lái)表達(dá)十進(jìn)制碼的0~9,BCD碼的優(yōu)點(diǎn)是可以用比特表示數(shù)字,雖然它只包括0~9,但是,它們組合起來(lái)可以表示任意數(shù)字,所用的比特比ASCII和EBCDIC要少。BCD在ISDN中用來(lái)表示電話號(hào)碼,在7號(hào)信令系統(tǒng)中用來(lái)傳送交換機(jī)間的控制信息。下表5-1給出了BCD編碼字符集。同理,由于4比特有16種組合,因此應(yīng)有二進(jìn)制編碼的十六進(jìn)制數(shù)(NBCH,Natural Binary Coded Hexadecimal),其NBCH編碼字符集詳見(jiàn)下表5-2。
表 5-1:BCD碼字符集
表 5-2:NBCH碼字符集
6、國(guó)際電報(bào)2號(hào)碼(ITA2)
國(guó)際電報(bào)2號(hào)碼(ITA2,International Telegraph Alphabet Number 2)又稱博多(Baudot)碼,是一種5位二進(jìn)制碼,目前僅在某些低速數(shù)據(jù)通信系統(tǒng)中使用,是現(xiàn)在起止式電傳電報(bào)通信中的標(biāo)準(zhǔn)電碼,詳見(jiàn)下圖6。因其采用“字母(Letter)”與“數(shù)字(Figure)”轉(zhuǎn)移控制碼分別控制電傳機(jī)產(chǎn)生“下移”、“上移”動(dòng)作,從而可代表包括字母、數(shù)字、符號(hào)和操作控制符在內(nèi)的58個(gè)字符,而不是25 = 32個(gè)。不過(guò),一旦某個(gè)轉(zhuǎn)移控制碼出錯(cuò),將導(dǎo)致隨后的碼字含義改變,直至接收到下一個(gè)正確的轉(zhuǎn)移控制碼,影響十分嚴(yán)重。
圖 6:起止式電傳電報(bào)信號(hào)
7、莫爾斯碼(Morse)
莫爾斯(Morse)碼是一種最早的編碼,是由美國(guó)人莫爾斯(S. Morse) 在1837年設(shè)計(jì)出的;它利用“點(diǎn)(短信號(hào))”、“劃(長(zhǎng)信號(hào))”及其“間隔(無(wú)信號(hào))”的不同組合來(lái)表示數(shù)字、字母、標(biāo)點(diǎn)和符號(hào)等的著名編碼,詳見(jiàn)下圖7。
圖 7:莫爾斯碼的代碼符號(hào)(數(shù)字0~9)
欲進(jìn)一步了解我國(guó)漢字編碼字符集介紹的請(qǐng)進(jìn)入。