您现在的位置是：首页 > 硬件

当前栏目

【C语言进阶】深度解析数据在内存中的存储

内存 C语言存储数据解析深度进阶

2023-09-11 14:20:02 时间

在这里插入图片描述

📝个人主页：@Sherry的成长之路
🏠学习社区：Sherry的成长之路（个人社区）
📖专栏链接：C语言进阶
🎯长路漫漫浩浩，万事皆有期待

1. 数据类型详细介绍：

1.1 相关知识回顾：

再继续讲解新的知识之前，我们先来简单的回顾一下我们在前面学习过的关于数据类型的知识。在之前初阶C语言的学习中，我们已经学习了数据的基本数据类型：

char //字符数据类型 1
short //短整型 2
int //整型 4
long //长整型 4
long long //更长的整型 8
float //单精度浮点数 4
double //双精度浮点数 8

在我们的C语言中，有字符串类型吗？
答案是：没有

字符串是一种非常重要的数据类型，但是C语言不存在显式的字符串类型。C语言中的字符串都以字符串常量的形式出现或存储在字符数组中。同时，C 语言提供了一系列库函数来对操作字符串，这些库函数都包含在头文件 string.h 中。C 语言虽然没有字符串类型，但是 C 语言是存在字符串这个概念的，也就是字符串常量：以 NULL 字节结尾的 0 个或多个字符组成的序列。
并且因为 C 语言中没有字符串类型，所以字符串是存放在字符型数组中，将字符串作为字符数组来进行处理的。为了测定字符串的实际长度，C语言规定了一个“ 字符串结束标志 ”，即以转义字符' \0 '作为其结束标志。

所以我们知道了存在着众多数据类型的意义：

1.使用这个类型开辟内存空间的大小（大小决定了使用范围）。
2.决定了如何看待内存空间的视角。

2.类型的基本归类：

我们目前接触过的所有的数据类型可以简单的分为五类：整形、浮点型、构造类型、指针类型与空类型。

2.1整型家族：

字符型 char
unsigned char
signed char
短整型 short
unsigned short [int]
signed short [int]
整形 int
unsigned int
signed int
长整型 long
unsigned long [int]
signed long [int]

其中，将 char 类型归入整型家族是因为字符在内存中进行存储时，存储的是其对应的整型 ASCII 码值，故将其归入整型家族。

并且在类型前的 unsigned 表示无符号整形而 signed 表示有符号整型。它们的区别就在于数据在内存中存储时，数据对应的补码的第一位是否为符号位。当为 signed 时表示有符号整形，即通过将最前面的一位作为符号位，0表示正数1表示负数，如此一来就可以有区分的表示表示正数与负数，并且前面的 signed 可以省略且通常会被省略。而当为 unsigned 时则表示无符号整型，此时则没有符号位，故无法区分表示正数与负数，且 unsigned 不可省略。

2.2浮点型家族：

单精度浮点型 float
双精度浮点型 double
长双精度浮点型 long double

浮点型数据没有符号位，即不能区分表示正数与负数

2.3构造类型：

数组类型
结构体类型 struct
枚举类型 enum
联合类型 union

2.4指针类型：

整型指针 int pi;
字符型指针 char pc;
浮点型指针 float pf;
无返回类型指针 void pv

2.5空类型：

void 表示空类型（无类型）
通常应用于函数的返回类型、函数的参数、指针类型。

3.整形在内存中的存储：

一个变量在创建时是需要在内存中开辟空间的。空间的大小是根据不同的类型而决定的。数据在内存中进行存储时，存储的是其二进制表示所对应的补码。

 int main()
{
	int a = 20;
	int b = -10;
	return 0;
}

3.1 数据的原、反、补码：

计算机中的整数有三种二进制表示方法，即原码、反码和补码。三种表示方法均有符号位和数值位两部分，符号位都是用0表示“正”，用1表示“负”，而正数的原、反、补码都相同。

而负整数的三种表示方法各不相同：

原码：直接将数值按照正负数的形式翻译成二进制就可以得到原码。
反码：将原码的符号位不变，其他位依次按位取反就可以得到反码。
补码：将求得的反码+1，就得到了负整数的补码。

对于整形来说：数据存放在内存中，其实存放的是其补码。
这是因为 1. 使用补码可以将符号位和数值域统一处理 2. 加法和减法也可以统一处理（CPU只有加法器）3. 补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

&a 内：
理论值：00 00 00 14
实际值：14 00 00 00
&b 内：
理论值：FF FF FF F6
实际值：F6 FF FF FF

变量地址内存放的十六进制数分别为十进制的20与-10所对应的补码。
但是这两个数据在内存中的存储顺序不太一致
这是因为在数据进行存储时，存在着大小端的区别。

3.2 大小端：

大小端（Endian）是指数据存储或者传输时的字节序，大小端分为大端和小端。
大端（存储）模式是指数据的低位保存在内存的高地址中，而数据的高位保存在内存的低地址中=；小端（存储）模式是指数据的低位保存在内存的低地址中，而数据的高位保存在内存的高地址中。

为什么在存储时会需要字节序呢？这是因为在计算机系统中，我们是以字节为单位进行存储的，每个地址单元都对应着一个字节，一个字节为 8 bit。但是在C语言中除了8 bit的char类型之外，还有16 bit的short型，32 bit的long型（要看具体的编译器）。另外对于位数大于8位的处理器，例如16位或者32 位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节进行安排的问题。因此就产生了大端存储模式和小端存储模式之分。

如何判断计算机采用的是大端存储模式还是小端存储模式呢？

#define _CRT_SECURE_NO_WARNINGS 1
#include<stdio.h>
int check_sys()
{
	int i = 1;
	return (*(char*)&i);
}
int main()
{
	int ret = check_sys();
    //接收返回值用于后面进行判断
	if (ret == 1)
	{
		printf("小端模式\n");
	}
	else
	{
		printf("大端模式\n");
	}
	return 0;
}

创建一个4个字节的整形变量i并将其赋值为1，此时该变量便已经在内存中进行了存储，使用一个1个字节字符型指针变量去获取整型变量i的地址处存储的第一个字节的内容并进行判断。这是因为由于使用不同的存储模式，存储在第一个字节的内容将会不同，小端存储模式将会将每个字节进行逆序存储，而大端模式将会进行顺序存储，因此，若逆序存储（1000）即第一个字节的内容为1时则为小端存储模式，若为顺序存储（0001）即第一个字节的内容为0时则为大端存储模式

4.浮点型在内存中的存储：

我们常见的浮点数有很多，比如3.14159，再比如1E10等等。上面我们也说过浮点数点数家族中主要包含了float、double、long double三种数据类型。而在这里我们要知道的是，关于浮点数的表示范围，需要在头文件 float.h中定义。

4.1 浮点数存储示例：

int main()
{
	int a = 9;
	//定义整型变量a
	float* pa = (float*)&a;
	//定义浮点型指针*pa，并使其指向整型变量a
	printf("整型变量  a  的值为：%d\n", a);
	printf("*pa指向地址内的值为：%f\n", *pa);
	*pa = 9.0;
	//将浮点型指针*pa指向地址内的数据变更为浮点型数据9.0
	printf("整型变量  a  的值为：%d\n", a);
	printf("*pa指向地址内的值为：%f\n", *pa);
	return 0;
}

整型变量 a 的值为：9
pa指向地址内的值为：0.000000
整型变量 a 的值为：1091567616
*pa指向地址内的值为：9.000000

为什么会存在这样的结果呢？是因为整型和浮点型数据的存储规则不同。

4.2 浮点数存储规则：

4.2.1标准 IEEE 754

根据国际电气和电子工程协会标准 IEEE 754，任意一个二进制浮点数都可以表示成下面的形式：

(-1)^S * M * 2^E
(-1)^S表示符号位，当S=0，V为正数；当S=1，V为负数
M表示有效数字，大于等于1，小于2
2^E表示指数位

For example：
1.十进制的5.0，写成二进制是 101.0 ，相当于 1.01×2^2 。那么，按照上面的格式，我们就可以得出：S=0，M=1.01，E=2。
2.十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。那么，同样按照上面的格式，可以得出：S=1，M=1.01，E=2。

4.2.2国际标准 IEEE 754 中规定：

对于32位的浮点数（单精度浮点数），最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。而对于64位的浮点数（双精度浮点数），最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M：

32位浮点数（单精度）
S（1 bit） E（8 bit） M（23 bit）
64位浮点数（双精度）
S（1 bit） E（11 bit） M（52 bit）

4.2.3 IEEE 754中关于有效数字M的规定：

在上面我们说过，有效数字M的取值范围是（ 2 ， 1 ]，即大于等于1且小于2，也就是说有效数字可以写作 1.xxxxxx 的形式，其中 xxxxxx 为小数部分。
IEEE 754 规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的 xxxxxx 部分。比如保存 1.01 的时候，只保存 01，等到读取的时候，再把第一位的 1 加上去。这样做的目的，是节省 1 位有效数字。以32位浮点数（单精度浮点数）为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。

4.2.4 IEEE 754中关于指数E的规定：

相对于有效数字M，指数E的相关规定就略显复杂。
首先，E为一个无符号整数（unsigned int） 这意味着如果E为8位，则取值范围为0~255；如果E为11位，则取值范围为0~2047。但是，我们都知道，科学计数法中的E是可以出现负数的，所以 IEEE 754 规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10 的E是10，所以保存成32位浮点数（单精度浮点数）时，必须保存成10+127=137，即 1000 1001。
接着，指数E在从内存中取出时，还可以再分为三种情况：

①.E全为0：
浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示 ±0，以及接近于0的很小的数字。
②.E全为1：
如果有效数字M全为0，表示 ±∞（正负取决于符号位s）。
③.E非全0/1：
浮点数就采用这样的规则表示：指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。比如： 0.5（1/2）的二进制形式为 0.1，由于规定正数部分必须为1，即将小数点右移1位，则为 1.0*2^(-1)，其阶码为-1+127=126，表示为 01111110，而尾数1.0去掉整数部分为0，补齐0到23位 0000 0000 0000 0000 0000 000，则其二进制表示形式为:0 01111110 00000000000000000000000

4.2.5 示例分析：

现在我们再重新回到我们刚刚提出的问题上来：为什么 0x00000009 还原成浮点数，就成了 0.000000 ？
首先，我们按照上面的国际标准规定的格式将其进行拆分可以得到：

S = 0
E = 00000000
M = 000 0000 0000 0000 0000 1001

由于指数E全为0，所以符合上面我们说的的第①种情况。因此，该浮点数就应当写成：
(-1)^0 × 0.00000000000000000001001 ×2^(-126)=1.001× 2^(-146)
而显然，该浮点数此时是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000。
接着，浮点数9.0等于二进制的1001.0，即1.001×2^3，同样将其拆分可以得到：

S = 0
E = 10000010 //127+3=130
M = 001 0000 0000 0000 0000 0000

则将其写成二进制形式即为：
0 10000010 001 0000 0000 0000 0000 0000
而将这个32位的二进制数还原为十进制数后便正是1091567616。

4.总结：

本文我们更加深层次的，从内存的角度深度剖析了数据在内存中的存储情况，这一部分的知识更加底层，因而更加复杂，希望我的文章和讲解能对大家的学习提供一些帮助。

当然，本文仍有许多不足之处，欢迎各位认真读完文章的小伙伴们私信交流、批评指正！我们下期见~

在这里插入图片描述

猜你喜欢

JS中 HTMLEncode和HTMLDecode
SAP Spartacus B2B ListComponent响应回车事件的实现
每日一道 LeetCode (13)：最后一个单词的长度
js c++ 多值返回返回多个值 c++ tuple
快来看，大数据两地三中心的容灾也可以如此省心！
eclipse 配置黑色主题
10 ~ express ~ 使用 cookie 保存用户信息
（四十六）c#Winform自定义控件-水波进度条-HZHControls
[Trading] 价格走势交易概述
[Docker] Handcrafting a Container Image
JAVA实现数据库数据导入/导出到Excel（POI）
C++之EOF()
内存对齐详解
超全超香，数据分析与数据挖掘最频繁使用代码合集来了
C#开发的OpenRA的读取文件的函数
转--android Toast大全（五种情形）建立属于你自己的Toast
linux中c语言errno的使用
SAP Cloud for Customer的前端框架是如何基于SAP UI5框架开发的
利用OpenCV的.Net下的EmguCV白平衡技术进行图像修复
java serialize deserialize

相关主题

JVM--内存模型
内存映射
Oracle内存结构
内存模型
四、内存管理
释放内存

zl程序教程

当前栏目

【C语言进阶】深度解析数据在内存中的存储

文章目录

1. 数据类型详细介绍：

1.1 相关知识回顾：

2.类型的基本归类：

2.1整型家族：

2.2浮点型家族：

2.3构造类型：

2.4指针类型：

2.5空类型：

3.整形在内存中的存储：

3.1 数据的原、反、补码：

3.2 大小端：

4.浮点型在内存中的存储：

4.1 浮点数存储示例：

4.2 浮点数存储规则：

4.2.1标准 IEEE 754

4.2.2国际标准 IEEE 754 中规定：

4.2.3 IEEE 754中关于有效数字M的规定：

4.2.4 IEEE 754中关于指数E的规定：

4.2.5 示例分析：

4.总结：

相关文章