zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Linux字符集和编码

2023-02-18 16:34:59 时间

计算机内部,所有信息最终都是一个二进制值形式存放

字符集

字符集:charset是character set的简写,即二进制和字符的对应关系,不关注最终的存储形式

编码

字符集编码:encoding是charset encoding的简写。实现如何将字符转化为实际的二进制进行存储或相反,编码决定了空间的使用的大小

ASCII码

ASCII码:(American Standard Code for Information Interchange),美国制定的一套编码,,对英语字符与二进制位之间的关系,做了统一规定。
ASCII 码一共规定了128个字符的编码,占用了一个字节的后面7位,最前面的一位统一规定为 0

数字:

0 ---48(十进制)

字母:

A---65
a---97

回车(不可见):

回车:老式打字机的喷头从右挪到左边来(回来原来的位置)
回车 --- od(十六进制)

换行:

换行:往上挪一行
换行 --- oa(十六进制)

linux和windows文本文件的区别:

linux中用oa(换行)表示回车和换行。
windows用oa 和od表示回车和换行。
出现这个差异的原因:早期unix内存很小,为了节约空间。

  • 以十六进制的形式查看一个文件的内容: hexdump命令
  • windows文本文件转为linux文本文件: dos2unix工具

Unicode

Unicode: 因为每个国家的语言不同,每个国家都有自己的标准,多语言混合的时候就会出现乱码。为了解决这个问题,发明了Unicode字符集

Unicode编码方案:

UTF-8:变长,1到4个字节

兼容ASCII码。用一个字节来表示常用的ASCII码,用2-4个字节表示不同国家的文字。

UTF-16:变长,2或4个字节

UTF-32:固定长度,4个字节

范例:修改LANG变量实现中文语言提示
更改LANG变量的值。
LANG=zh_CN.UTF-8