C语言入坑指南-被遗忘的初始化

前言

什么是初始化?为什么要初始化?静态变量和局部变量的初始化又有什么区别?实际应用中应该怎么做?本文将一一回答这些问题。

什么是初始化

初始化指的是对数据对象或者变量赋予初始值。例如:

1
2
int value = 8; //声明整型变量并初始化为8
int arr[] = {1,2,3}; //声明整型数组arr,并初始化其值为1,2,3

为什么要初始化

我们来看一个示例程序。
test0.c程序清单如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#include <stdio.h>
#include <stdlib.h>
int main(void)
{
int sum;
int randNum;
while(10 > sum)
{
randNum = rand() % 10;

sum += randNum;
printf("rand num is %d,sum is %d\n",randNum,sum);
}
printf("the final sum is %d\n",sum);
return 0;
}

程序随机产生0到9的数字,使得sum的值大于或等于10时,退出程序。
编译并运行:

1
2
gcc  -o test0 test0.c
./test0

运行结果如下(每次运行结果可能不同):

1
2
3
4
5
6
7
rand num is 3,sum is -4040865
rand num is 6,sum is -4040859
rand num is 7,sum is -4040852
rand num is 5,sum is -4040847
rand num is 3,sum is -4040844
rand num is 5,sum is -4040839
(省略其他内容)

从运行结果来看,程序并没有达到我们的预期,这是为什么呢?

很多读者可能已经知道,问题在于声明sum之后,没有为其赋初始值,在这样的情况下,sum的值是随机的,因此在一开始sum可能是一个很小的负数,导致多次循环出现。很显然,初始化避免使用了变量的“脏值”。而将sum的声明改成如下定义即可:

1
int sum = 0;

如果将sum声明为静态变量,情况又会如何呢?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
//test1.c
#include <stdio.h>
#include <stdlib.h>
int main(void)
{
static int sum;
int randNum;
while(10 > sum)
{
randNum = rand() % 10;

sum += randNum;
printf("rand num is %d,sum is %d\n",randNum,sum);
}
printf("the final sum is %d\n",sum);
return 0;
}

编译并运行:

1
2
3
4
rand num is 3,sum is 3
rand num is 6,sum is 9
rand num is 7,sum is 16
the final sum is 16

在这种情况下,程序是能够符合我们预期的结果的,这又是为什么呢?原因在于静态变量会被默认初始化.例如,int类型会被初始化为0。那么问题来了:

  • 为什么局部变量未初始化的时候的值是“脏值”?
  • 静态变量和局部变量为什么又不一样呢?

在解答上面这两个问题之前,我们需要简单了解一下程序的存储空间布局。

程序的存储空间布局

C程序主要由以下几部分组成:

  • 正文段。即机器指令部分,为防止意外被修改,设为只读。
  • 初始化数据段。它包含了程序中需要明确赋初值的静态变量。
  • 未初始化数据段。它包含了程序中未赋初值的或初始化为0的静态变量,在程序开始执行之前,内核将此段中的数据初始化为0。
  • 栈。它保存了自动(局部)变量以及函数调用所要的信息。
  • 堆。用于动态内存分配。例如使用malloc函数进行内存分配。

其中,正文段和数据段的内容是“静态”的,因为在程序被编译出来之后,在整个程序地址就确定了,而堆栈中的内容是”动态”变化的,它随着进行的运行而不断变化着,再加上栈随机化的策略,使得程序每次运行时,栈的地址也是不确定的。

局部变量和静态变量的初始化有何不同

有了前面的铺垫,就很好理解两者的差别了。
未初始化的局部变量位于栈中,它的位置是不确定的,因此其值也是不确定的。当然,在windows下它的值是0xcccccccc,而“烫”字在MBCS字符集中的值为0xcccccccc,你说巧不巧?而静态变量就不一样的,它的地址是确定的,并且存放在了数据段,而程序在运行之前,未初始化数据段的内容可以很方便地统一被初始化为0。这也就解释了前面的两个示例程序的结果为什么会不一样。我们加上一些打印,来看一看是否真的如此?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
//test2.c
#include <stdio.h>
#include <stdlib.h>
int main(void)
{
static int sum;
int randNum;
while(10 > sum)
{
randNum = rand() % 10;

sum += randNum;
printf("rand num is %d,sum is %d\n",randNum,sum);
}
printf("the final sum is %d\n",sum);
printf("sum addr %p,randNum addr %p\n",&sum,&randNum);
return 0;
}

编译并运行:

1
gcc -o test2 test2.c

运行结果1:

1
2
3
4
5
rand num is 3,sum is 3
rand num is 6,sum is 9
rand num is 7,sum is 16
the final sum is 16
sum addr 0x60104c,randNum addr 0x7ffd0ea8cf54

运行结果2:

1
2
3
4
5
rand num is 3,sum is 3
rand num is 6,sum is 9
rand num is 7,sum is 16
the final sum is 16
sum addr 0x60104c,randNum addr 0x7ffff5e3ddb4

在这里,sum是静态局部变量,而randNun是局部变量(自动变量),因此可以发现,sum的地址值总是不变的,而randNum的值却不断变化着。我们也可以通过nm命令查看sum的地址:

1
2
nm test2 |grep sum
000000000060104c b sum.2805

总结

我们来总结一下本文的主要内容:

  • 如果变量是静态的,它会被初始化为0;如果变量是自动的,它不会被初始化。
  • 静态的变量包括全局变量、静态全局变量、静态局部变量。
  • 使用局部变量之前对其进行初始化,避免使用“脏值”。
  • 从可读性考虑,静态变量也建议显示初始化。
  • 初始化为0的静态变量仍然存在未初始化数据段中(BSS段)。

送几句熟悉的话给大家:

1
2
3
4
手持两把锟斤拷,
口中疾呼烫烫烫。
脚踏千朵屯屯屯,
笑看万物锘锘锘。

思考

test1.c的代码运行结果每次都一样吗?为什么?该如何修改才能使得每次的运行结果不一样?

守望 wechat
关注公众号[编程珠玑]获取更多原创技术文章
出入相友,守望相助!