当前位置:  首页>> 技术小册>> Java语言基础9-常用API和常见算法

● 上面提到的字符集都是基于单字节编码;换言之,一个字节可以翻译成一个字符,这对于拉丁语系的国家来说可能没什么问题,因为它们通过扩展第 8 个比特,就可以得到 256 个字符了,足够使用了。但是,对于亚洲国家来说,256 个字符就远远不够使用了。因此这些国家的人为了用上电脑,又要保持和 ASCII 字符集的兼容,就发明了多字节编码方式,相应的字符集就称为多字节字符集(Muilti-Bytes Charecter Set),其实中国使用的汉字就是双字节字符集编码。

● 目前最常用的中文字符集 GB2312,涵盖了所有简体字符以及一部分其他字符;GBK(K 代表扩展的意思)则在 GB2312 的基础上加入了对繁体字符等其他非简体字符。这两个字符集的字符都是使用 1-2 个字节来表示。Windows 系统采用 936 代码页来实现对 GBK 字符集的编解码。在解析字节流的时候,如果遇到字节的最高位是 0 的话,那么就使用 936 代码页中的第 1 张码表进行解码,这就和单字节字符集的编解码方式一致了。如果遇到字节的最高位是 1 的话,那么就表示需要两个字节值才能对应一个字符。


该分类下的相关小册推荐: