您现在的位置是：首页 > 其他

当前栏目

Linux字符集和编码

2023-02-18 16:34:59 时间

计算机内部，所有信息最终都是一个二进制值形式存放

字符集

字符集：charset是character set的简写，即二进制和字符的对应关系，不关注最终的存储形式

编码

字符集编码：encoding是charset encoding的简写。实现如何将字符转化为实际的二进制进行存储或相反，编码决定了空间的使用的大小

ASCII码

ASCII码：（American Standard Code for Information Interchange），美国制定的一套编码，，对英语字符与二进制位之间的关系，做了统一规定。
ASCII 码一共规定了128个字符的编码，占用了一个字节的后面7位，最前面的一位统一规定为 0

数字：

0 ---48（十进制）

字母：

A---65
a---97

回车（不可见）：

回车：老式打字机的喷头从右挪到左边来（回来原来的位置）
回车 --- od（十六进制）

换行：

换行：往上挪一行
换行 --- oa（十六进制）

linux和windows文本文件的区别：

linux中用oa（换行）表示回车和换行。
windows用oa 和od表示回车和换行。
出现这个差异的原因：早期unix内存很小，为了节约空间。

以十六进制的形式查看一个文件的内容： hexdump命令
windows文本文件转为linux文本文件： dos2unix工具

Unicode

Unicode：因为每个国家的语言不同，每个国家都有自己的标准，多语言混合的时候就会出现乱码。为了解决这个问题，发明了Unicode字符集

Unicode编码方案：

UTF-8：变长，1到4个字节

兼容ASCII码。用一个字节来表示常用的ASCII码，用2-4个字节表示不同国家的文字。

UTF-16：变长，2或4个字节

UTF-32：固定长度，4个字节

范例：修改LANG变量实现中文语言提示
更改LANG变量的值。
LANG=zh_CN.UTF-8

猜你喜欢

一次客户需求引发的K8S网络探究
一次minerd肉鸡木马的排查思路
Android Material Design控件使用（三）——CardView 卡片布局和SnackBar使用
从一条更新SQL的执行过程窥探InnoDB之REDOLOG
Java 学习笔记网络编程使用Socket传输文件 CS模式
MySql主从同步介绍
Java 学习笔记使用并发包ReentrantLock简化生产者消费者模式代码
业务数据迁移上云的一些技术思考
水滴低代码搭建——6倍提效，新品首发素材审核系统实践之路
MYSQL最朴素的监控方式
Java 学习笔记使用synchronized实现生产者消费者模式
Java 学习笔记观察者模式与适配者模式监控文件夹
基于SPI的增强式插件框架设计
可视化服务编排在金融APP中的实践
Java 学习笔记线程控制
国际计费系统基于Sharding-Proxy大数据迁移方案实践
Taro小程序跨端开发入门实战
文盘Rust -- 配置文件解析
重构指标之如何监控代码圈复杂度
Acer宏碁笔记本触摸板失效解决方法

zl程序教程