您现在的位置是：首页 > 后端

当前栏目

计算机中字符的编码方式

字符计算机编码方式

2023-09-11 14:20:37 时间

Hex Editor Neo官网下载地址：https://www.hhdsoftware.com/free-hex-editor
Hex Editor Neo网盘下载：链接：https://pan.baidu.com/s/11umf2LXHOiQfD9N_A_-ZOw 提取码：3f6j

Hex Editor Neo使用技巧：

打开hex二进制文件，默认每行显示16个数，即0x00-0x0f;
在菜单栏的View->Offset可设置左边偏移的显示进制；
在菜单栏的View->Display As可设置当前数据的显示进制；
在菜单栏的View->Columns As可设置当前每行显示多少数据；
在菜单栏的View->Group By可设置当前数据显示的数据类型；

一、编码背景

在计算机上，我们看到的字符“A”可能长这样：

在这里插入图片描述
也可能长这样：

对于同一个TXT文件中的内容，你在Notepad上选择不同字体时，字符显示的形状不一样。所以TXT文件中保存的是字符的核心：它的编码值。而Notepad上显示时，这些字符对应什么样的形状态，这是由字符文件决定的。

编码值，字体是两个不一样的东西，比如A的编码值是0x41，但是在屏幕上显示出来时可以使用不同的形状。

什么叫编码？就是一个字符用什么数字来表示。在计算机里一切都是用数字来表示，比如字符A，用0x01还是0x02来表示它？我们使用0x41来表示它。当你去打开一个TXT文件时，发现里面含有数值0x41，你就知道了：哦，这里有一个字符A。

一个字符用哪个数字来表示？有很多标准，举例讲解。

二、编码类型

2.1、ASCII

它是“American Standard Code for Information Interchange”的缩写，美国信息交换标准代码。电脑毕竟是西方人发明的，他们常用字母就26个，区分大小写、加上标点符号也没超过127个，每个字符用一个字节来表示就足够了。

一个字节的7位就可以表示128个数值，在ASCII码中最高位永远是0。字符和数值的对应关系可以参考：

https://baike.baidu.com/item/ASCII

摘录部分如下

在这里插入图片描述

2.2、ANSI

关于ANSI强烈建议阅读这篇文章：

https://www.cnblogs.com/malecrab/p/5300486.html

使用记事本保存文件时，可以选择“ANSI”编码，却没有“ASCII”，如下图所示。怎么回事？

在这里插入图片描述

ASNI是ASCII的扩展，向下包含ASCII。对于ASCII字符仍以一个字节来表示，对于非ASCII字符则使用2字节来表示。并没有固定的ASNI编码，它跟“本地化”(locale)密切相关。比如在中国大陆地区，ANSI的默认编码是GB2312；在港澳台地区默认编码是BIG5。

以数值“0xd0d6”为例，对于GB2312编码它表示“中”；对于BIG5编码它表示“笢”。所以对于ANSI编码的TXT文件，如果你打开它发现乱码，那么还得再次细分它的具体编码。比如对于一个TXT文件，里面的数值如下：

在这里插入图片描述

使用Notepad打开后，选择不同的编码(或称为字符集)，有不一样的显示，如下：
在这里插入图片描述

这仅仅是在中国地区就出现这些不兼容的问题。对于不同国家，它们默认的ANSI编码各不相同，所以同一个TXT文件在不同国家就很有可能出现乱码。根本的原理在于没有“统一的编码”，那解决方法自然就是使用“统一的编码”：UNICODE。

2.3、UNICODE

在ANSI标准中，很多种文字都有自己的编码标准，汉字简体字有GB2312、繁体字有BIG5，这难免同一个数值对应不同字符。比如数值“0xd0d6”，对于GB2312编码它表示“中”；对于BIG5编码它表示“笢”。这造成了使用ANSI编码保存的文件，不适合跨地区交流。UNICODE编码就是为了解决这类问题：

对于地球上任意一个字符，都给它一个唯一的数值。UNICODE仍然向下兼容ASCII，但是对于其他字符会有对应的数值，比如对于“中”、“笢”，它们的数值分别是：0x4e2d、0x7b22。

UNICODE中的数值范围是0x0000至0x10FFFF，有1,114,111即100多万个数值，可以表示100多万个字符，足够地球人使用了。

三、编码与实现

所谓编码实现，就是对于一个数值，怎么表示它。这很奇怪，数值还能怎么表示？比如“中”的UNICODE值是0x4e2d，在TXT文件中怎么表示0x4e2d？直接写入0x4e2d？不行！比如在TXT文件中写入2字节数据“0x2d 0x4e”，它可以用来表示“中”字吗？不能！它们对应ASCII字符“-N”。

问题的关键在于：怎么断字。在TXT文件中，2字节数据“0x2d 0x4e”是作为一个整体看待，还是拆成2部分看待？所以，需要用一定的技巧来表示数值，这就对应不同的编码实现。

现在我们知道：

1、ASCII编码中使用一个字节来表示一个字符，只用到其中的7位，最高位恒为0；
2、ANSI编码中，对于ASCII字符仍使用一个字节来表示(BIT7是0)，对于非ASCII字符一般使用2个字节来表示，非ASCII字符的数值BIT7都是1。
3、UNICODE：这就有点复杂了，下面一一讲解。

先用记事本新建3个文件：utf-16_le.txt、utf-16_be.txt、utf-8.txt、bom_utf-8.txt，里面的内容都是“ab中”，保存时编码分别选择“UTF-16 LE”、“UTF-16 BE”、“UTF-8”、“带有BOM的UTF-8”，下图是其中一个例子：

在这里插入图片描述
怎么表示一个UNICODE数值？

3.1、使用3个字节表示一个UNICODE

不，太浪费。UNICODE的最大值是0x10FFFF，那使用3个字节来表示一个UNICODE数值？这当然是很省事的方法，但是会造成浪费，比如字符A的UNICOCDE值是0x41，难道也用“0x41 0x00 0x00”这3个字节来表示？

3.2、UCS-2 Little endian/UTF-16 LE

每个UNICODE值用3字节来表示有点浪费，那只用2字节呢？它可以表示2^16=65536个字符，全世界常用的字符都可以表示了。Little endian表示小字节序，数值中权重低的字节放在前面，比如字符“ab中”在TXT文件中的数值如下，其中的“a”使用“0x61 0x00”两字节表示；“b”使用“0x62 0x00”两字节表示；“中”使用“0x4e 0x2d”两字节表示。文件开头的“0xff 0xfe”表示“UTF-16 LE”。

在这里插入图片描述

3.3、UCS-2 Big endian/UTF-16 BE

Big endian表示小字节序，数值中权重低的字节放在后面，比如字符“ab中”在TXT文件中的数值如下，其中的“a”使用“0x00 0x61”两字节表示；“b”使用“0x00 0x62”两字节表示；“中”使用“0x2d 0x4e”两字节表示。文件开头的“0xfe 0xff”表示“UTF-16 BE”。

在这里插入图片描述

3.4、UTF-8

在上面2种方法中，每一个UNICODE使用2字节来表示，这有3个缺点：表示的字符数量有限、对于ASCII字符有空间浪费、如果文件中有某个字节丢失，这会使得后面所有字符都因为错位而无法显示。使用UTF8可以解决上述所有问题。UTF8是变长的编码方法，有2种UTF8格式的文件：带有头部、不带头部。先举例，看下图：

在这里插入图片描述

在这里插入图片描述
对于其中的ASCII字符，在UTF8文件中直接用其ASCII码来表示，比如上图中的0x61表示字符a、0x62表示字符b。上图中的3个字节“0xe4 0xb8 0xad”表示的数值是0x4e2d，对应“中”的UNICODE码

对于非ASCII字符，使用变长的编码：每一个字节的高位都自带长度信息。请看下图：

在这里插入图片描述

上图中，0xe4的二进制是“11100100”，高位1110，有3个1，表示从当前字节起有3字节参与表示UNICODE；0xb8的二进制是“10111000”，高位10是固定的；0xad的二进制是“10101101”。

除去高位的“1110”、“10”、“10”后，剩下的二进制数组合起来得到“01001110001101”，它就是0x4e2d，即“中”的UNICODE值。使用UTF8编码时，即使TXT文件中丢失了某些数据，也只会影响到当前字符的显示，后面的字符不受影响。（UTF8的每个字节都自带长度信息）

猜你喜欢

【LeetCode OJ 232】Implement Queue using Stacks
【BOC同步跟踪】BOC信号跟踪算法的MATLAB仿真
测试右移的实践方法
活动安排问题（贪心）
半联结&反联结！
Mysql授权远程登陆
python通过pyautogui库来控制鼠标和键盘
【快速幂】丢手绢
安装Gradle（Windows & Linux）
前端修炼之路：无需一行代码，教你手写克劳德
【AGC】增长服务1-远程配置示例
连线：科技泡沫明年将会破坏创业公司两级分化严重
ASP.NET Web API 中的返回数据格式以及依赖注入
关于android中postDelayed方法的讲解
phpmyadmin4.1.4安装配置教程

相关主题

随机生成字符
字符集合
29:统计字符数
字符转换~

zl程序教程

当前栏目

计算机中字符的编码方式

一、编码背景

二、编码类型

2.1、ASCII

2.2、ANSI

2.3、UNICODE

三、编码与实现

3.1、使用3个字节表示一个UNICODE

3.2、UCS-2 Little endian/UTF-16 LE

3.3、UCS-2 Big endian/UTF-16 BE

3.4、UTF-8

相关文章