本站使用了 Pjax 等基于 JavaScript 的开发技术,但您的浏览器已禁用 JavaScript,请开启 JavaScript 以保证网站正常显示!

汉字编码规则说明和解释(含:ASCII,GB2312,GBK,GB18030,Unicode{UTF-8,UTF16,UTF32})

一个中文究竟几个字节?
编码不同,都包含多少字?

编码面积

  • ASCII: 英文+数字+标点(128个)
  • GB2312: 6763个汉字,715个符号(拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母);
  • GBK:21003汉字(简体,繁体字),883个符号
  • GB18030:70217个汉字,剩余是:少数民族文字+CJK中日韩
  • BIG5:台湾编码
  • Unicode:包含全世界文字的编码
  • UTF-8,UTF-16,UTF-32 是存储方式和读取方式(传输方式)

codedecode.png

编码范围:

  • GB2312:编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE
  • GBK:8140-FEFE,汉字编码范围:B0A1-F7FE,8140-A0FE,AA40-FEA0
  • GB18030:4E00-9FA5,3400-4DBF,汉字编码范围\x81 - \xFE, \x40 - \xFE(不包括0x7F)
  • Unicode:0000-FFFF,汉字编码范围:4E00 - 9FA5

存储长度(方式):

  1. 占1个字节的编码是ISO-8859-1
  2. 占2个字节的编码是GB2312、GBK、GB18030、UTF-16BE、UTF-16LE
  3. 占3个字节的编码是UTF-8
  4. 占4个字节的编码是UTF-16
    备注 : unicode系列(1-4字节):英文及标点1个字节,中文最少2个字节,常用的是GBK和UTF-8

Offer

推广

 继续浏览关于 的文章

 本文最后更新于:2022/12/12 20:22:56,可能因经年累月而与现状有所差异

 引用转载请注明:诗恩有趣cnfunny - 有趣的 > 工作相关 > 汉字编码规则说明和解释(含:ASCII,GB2312,GBK,GB18030,Unicode{UTF-8,UTF16,UTF32})