您现在的位置是：首页 > 其他

当前栏目

彻底搞清楚unicode和utf8编码

编码彻底 Unicode utf8 搞清楚

2023-09-11 14:20:01 时间

1、计算机只能处理数字(0和1)，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255

2、计算机是美国人发明的，所以一个字节可以表示所有字符了，所以ASCII(一个字节)编码就成为美国人的标准编码

3、但是ASCII处理中文明显是不够的，中文不止255个汉字，所以中国制定了GB2312编码，用两个字节表示一个汉字。GB2312还把ASCII包含进去了。同理，日文，韩文等上百个国家为了解决这个问题就都发展了一套字节的编码，标准就越来越多，如果出现多种语言混合显示就一定会出现乱码

4、于是，unicode出现了，将所有语言统一到一套编码里

5、看一下ASCII和unicode编码：

(1)字母A用ASCII编码十进制是65，二进制是0100 0001

(2)汉字“中”已经超过了ASCII编码的范围，用unicode编码是2013，二进制是01001110 00101101

(3)A用unicode编码只需要在前面补0，二进制是00000000 0100 0001

6、乱码问题解决了，但是如果内容全是英文，unicode编码比ASCII需要多一倍的存储空间，同时如果传输传输需要多一倍的传输。

7、所以出现了可变长的编码"utf-8"，把英文变长一个字节，汉字3个字节。特别生僻的变成4-6个字节，如果传输大量的英文，utf8作用就很明显了

总结：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器。

所以你看到很多网页的源码上会有类似<meta charset="UTF-8" />的信息，表示该网页正是用的UTF-8编码。

猜你喜欢

读书笔记：《圈子圈套》
C++函数值返回拷贝问题+RVO和NRVO【待学习】
jQuery$命名冲突问题解决方法
全排列/C++
Mybatis @Insert插入数据返回自增的主键id
java实现第六届蓝桥杯奇妙的数字
mysql Hash索引和BTree索引区别
计算机的发展史与计算机硬件组成
单点登录（SSO）看这一篇就够了
linux基本功系列-echo命令实战
开源混淆工具ProGuard配置详解及配置实例
Android JSONObject把URL转义了
C#实现大数相加
荣耀手机闹钟铃声在哪里设置?

相关主题

java字符编码
mysql修改编码
PHP编码转换
Unicode编码
H264编码技术
Oracle字符编码
编码转换
URL编码
89. 格雷编码
base64的编码
视频编码
编码与哑变量
编码UTF-8
字符编码集
php 编码规范
ANSI和UTF-8编码
编码和解码(2)
FFmpeg H264编码

zl程序教程

当前栏目

彻底搞清楚unicode和utf8编码

相关文章