C程序性能优化：20个实验与达人技巧_软件运维

作者将C高效编程的心得浓缩于20个技巧，并将这些技巧通过实验的方式进行讲解，简明易懂，使人印象深刻。《》书中带有大量的代码实例，使读者不仅能够从理论上得以提高，而且还能够轻松地在实践中应用。·算法导论（超过50万人阅读的算法圣经！） ·谢谢你离开我（张小娴最新散文）内容简介《》从CPU与编译器的运行机制讲起，带领读者一步步了解程序的执行成本、编译器的优化选项等，总结出许多C程序性能优化的技巧，并以实验的方式进行了讲解，简明易懂，使人印象深刻。书中带有大量的代码实例，使读者不仅能够了解代码优化的原理，还能够轻松地在实践中应用。《》适合有一定基础的C语言编程人员阅读。作者精通高效编程，其开发的C编译器，不仅适用于16位及32位系统，还能在GPU中对视频数据进行实时编译。作者将C高效编程的心得浓缩于20个技巧，并将这些技巧通过实验的方式进行讲解，简明易懂，使人印象深刻。《》书中带有大量的代码实例，使读者不仅能够从理论上得以提高，而且还能够轻松地在实践中应用。·算法导论（超过50万人阅读的算法圣经！） ·谢谢你离开我（张小娴最新散文）内容简介《》从CPU与编译器的运行机制讲起，带领读者一步步了解程序的执行成本、编译器的优化选项等，总结出许多C程序性能优化的技巧，并以实验的方式进行了讲解，简明易懂，使人印象深刻。书中带有大量的代码实例，使读者不仅能够了解代码优化的原理，还能够轻松地在实践中应用。《》适合有一定基础的C语言编程人员阅读。作者精通高效编程，其开发的C编译器，不仅适用于16位及32位系统，还能在GPU中对视频数据进行实时编译。作者将C高效编程的心得浓缩于20个技巧，并将这些技巧通过实验的方式进行讲解，简明易懂，使人印象深刻。《》书中带有大量的代码实例，使读者不仅能够从理论上得以提高，而且还能够轻松地在实践中应用。·算法导论（超过50万人阅读的算法圣经！） ·谢谢你离开我（张小娴最新散文）内容简介《》从CPU与编译器的运行机制讲起，带领读者一步步了解程序的执行成本、编译器的优化选项等，总结出许多C程序性能优化的技巧，并以实验的方式进行了讲解，简明易懂，使人印象深刻。书中带有大量的代码实例，使读者不仅能够了解代码优化的原理，还能够轻松地在实践中应用。《》适合有一定基础的C语言编程人员阅读。

一、程序结构的优化

1、程序的书写结构

虽然书写格式并不会影响生成的代码质量，但是在实际编写程序时还是应该尊循一定的书写规则，一个书写清晰、明了的程序，有利于以后的维护。在书写程序时，特别是对于While、for、do…while、if…elst、switch…case等语句或这些语句嵌套组合时，应采用“缩格”的书写形式，

2、标识符

程序中使用的用户标识符除要遵循标识符的命名规则以外，一般不要用代数符号(如a、b、x1、y1)作为变量名，应选取具有相关含义的英文单词(或缩写)或汉语拼音作为标识符，以增加程序的可读性，如：count、number1、red、work等。

3、程序结构

C语言是一种高级程序设计语言，提供了十分完备的规范化流程控制结构。因此在采用C语言设计单片机应用系统程序时，首先要注意尽可能采用结构化的程序设计方法，这样可使整个应用系统程序结构清晰，便于调试和维护。于一个较大的应用程序，通常将整个程序按功能分成若干个模块，不同模块完成不同的功能。各个模块可以分别编写，甚至还可以由不同的程序员编写，一般单个模块完成的功能较为简单，设计和调试也相对容易一些。在C语言中，一个函数就可以认为是一个模块。所谓程序模块化，不仅是要将整个程序划分成若干个功能模块，更重要的是，还应该注意保持各个模块之间变量的相对独立性，即保持模块的独立性，尽量少使用全局变量等。对于一些常用的功能模块，还可以封装为一个应用程序库，以便需要时可以直接调用。但是在使用模块化时，如果将模块分成太细太小，又会导致程序的执行效率变低(进入和退出一个函数时保护和恢复寄存器占用了一些时间)。

4、定义常数

在程序化设计过程中，对于经常使用的一些常数，如果将它直接写到程序中去，一旦常数的数值发生变化，就必须逐个找出程序中所有的常数，并逐一进行修改，这样必然会降低程序的可维护性。因此，应尽量当采用预处理命令方式来定义常数，而且还可以避免输入错误。

5、减少判断语句

能够使用条件编译(ifdef)的地方就使用条件编译而不使用if语句，有利于减少编译生成的代码的长度，能够不用判断语句则少用判断用语句。

6、表达式

对于一个表达式中各种运算执行的优先顺序不太明确或容易混淆的地方，应当采用圆括号明确指定它们的优先顺序。一个表达式通常不能写得太复杂，如果表达式太复杂，时间久了以后，自己也不容易看得懂，不利于以后的维护。

7、函数

对于程序中的函数，在使用之前，应对函数的类型进行说明，对函数类型的说明必须保证它与原来定义的函数类型一致，对于没有参数和没有返回值类型的函数应加上“void”说明。如果果需要缩短代码的长度，可以将程序中一些公共的程序段定义为函数，在Keil中的高级别优化就是这样的。如果需要缩短程序的执行时间，在程序调试结束后，将部分函数用宏定义来代替。注意，应该在程序调试结束后再定义宏，因为大多数编译系统在宏展开之后才会报错，这样会增加排错的难度。

8、尽量少用全局变量，多用局部变量。

因为全局变量是放在数据存储器中，定义一个全局变量，MCU就少一个可以利用的数据存储器空间，如果定义了太多的全局变量，会导致编译器无足够的内存可以分配。而局部变量大多定位于MCU内部的寄存器中，在绝大多数MCU中，使用寄存器 *** 作速度比数据存储器快，指令也更多更灵活，有利于生成质量更高的代码，而且局部变量所的占用的寄存器和数据存储器在不同的模块中可以重复利用。

9、设定合适的编译程序选项

许多编译程序有几种不同的优化选项，在使用前应理解各优化选项的含义，然后选用最合适的一种优化方式。通常情况下一旦选用最高级优化，编译程序会近乎病态地追求代码优化，可能会影响程序的正确性，导致程序运行出错。因此应熟悉所使用的编译器，应知道哪些参数在优化时会受到影响，哪些参数不会受到影响。

在ICCAVR中，有“Default”和“Enable Code Compression”两个优化选项。

在CodeVisionAVR中，“Tiny”和“small”两种内存模式。

在IAR中，共有7种不同的内存模式选项。

在GCCAVR中优化选项更多，一不小心更容易选到不恰当的选项。

二、代码的优化

1、选择合适的算法和数据结构

应该熟悉算法语言，知道各种算法的优缺点，具体资料请参见相应的参考资料，有很多计算机书籍上都有介绍。将比较慢的顺序查找法用较快的二分查找或乱序查找法代替，插入排序或冒泡排序法用快速排序、合并排序或根排序代替，都可以大大提高程序执行的效率。.选择一种合适的数据结构也很重要，比如你在一堆随机存放的数中使用了大量的插入和删除指令，那使用链表要快得多。

数组与指针语句具有十分密码的关系，一般来说，指针比较灵活简洁，而数组则比较直观，容易理解。对于大部分的编译器，使用指针比使用数组生成的代码更短，执行效率更高。但是在Keil中则相反，使用数组比使用的指针生成的代码更短。。

3、使用尽量小的数据类型

能够使用字符型(char)定义的变量，就不要使用整型(int)变量来定义；能够使用整型变量定义的变量就不要用长整型(long int)，能不使用浮点型(float)变量就不要使用浮点型变量。当然，在定义变量后不要超过变量的作用范围，如果超过变量的范围赋值，C编译器并不报错，但程序运行结果却错了，而且这样的错误很难发现。

在ICCAVR中，可以在Options中设定使用printf参数，尽量使用基本型参数(%c、%d、%x、%X、%u和%s格式说明符)，少用长整型参数(%ld、%lu、%lx和%lX格式说明符)，至于浮点型的参数(%f)则尽量不要使用，其它C编译器也一样。在其它条件不变的情况下，使用%f参数，会使生成的代码的数量增加很多，执行速度降低。

4、使用自加、自减指令

通常使用自加、自减指令和复合赋值表达式(如a-=1及a+=1等)都能够生成高质量的程序代码，编译器通常都能够生成inc和dec之类的指令，而使用a=a+1或a=a-1之类的指令，有很多C编译器都会生成二到三个字节的指令。在AVR单片适用的ICCAVR、GCCAVR、IAR等C编译器以上几种书写方式生成的代码是一样的，也能够生成高质量的inc和dec之类的的代码。

5、减少运算的强度

可以使用运算量小但功能相同的表达式替换原来复杂的的表达式。如下：

(1)、求余运算。

a=a%8

可以改为：

a=a&7

说明：位 *** 作只需一个指令周期即可完成，而大部分的C编译器的“%”运算均是调用子程序来完成，代码长、执行速度慢。通常，只要求是求2n方的余数，均可使用位 *** 作的方法来代替。

(2)、平方运算

a=pow(a,2.0)

可以改为：

a=a*a

说明：在有内置硬件乘法器的单片机中(如51系列)，乘法运算比求平方运算快得多，因为浮点数的求平方是通过调用子程序来实现的，在自带硬件乘法器的AVR单片机中，如ATMega163中，乘法运算只需2个时钟周期就可以完成。既使是在没有内置硬件乘法器的AVR单片机中，乘法运算的子程序比平方运算的子程序代码短，执行速度快。

如果是求3次方，如：

a=pow(a,3.0)

更改为：

a=a*a*a；

则效率的改善更明显。

(3)、用移位实现乘除法运算

a=a*4

b=b/4

可以改为：

a=a<<2

b=b>>2

说明：通常如果需要乘以或除以2n，都可以用移位的方法代替。在ICCAVR中，如果乘以2n，都可以生成左移的代码，而乘以其它的整数或除以任何数，均调用乘除法子程序。用移位的方法得到代码比调用乘除法子程序生成的代码效率高。实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果，如：

a=a*9

可以改为：

a=(a<<3)+a

6、循环

(1)、循环语

对于一些不需要循环变量参加运算的任务可以把它们放到循环外面，这里的任务包括表达式、函数的调用、指针运算、数组访问等，应该将没有必要执行多次的 *** 作全部集合在一起，放到一个init的初始化程序中进行。

(2)、延时函数：

通常使用的延时函数均采用自加的形式：

void delay (void)

{

unsigned int i

for (i=0i<1000i++)

}

将其改为自减延时函数：

void delay (void)

{

unsigned int i

for (i=1000i>0i--)

}

两个函数的延时效果相似，但几乎所有的C编译对后一种函数生成的代码均比前一种代码少1~3个字节，因为几乎所有的MCU均有为0转移的指令，采用后一种方式能够生成这类指令。

在使用while循环时也一样，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3个字母。

但是在循环中有通过循环变量“i”读写数组的指令时，使用预减循环时有可能使数组超界，要引起注意。

(3)while循环和do…while循环

用while循环时有以下两种循环形式：

unsigned int i

i=0

while (i<1000)

{

i++

//用户程序

}

或：

unsigned int i

i=1000

i--

//用户程序

while (i>0)

在这两种循环中，使用do…while循环编译后生成的代码的长度短于while循环。

7、查表

在程序中一般不进行非常复杂的运算，如浮点数的乘除及开方等，以及一些复杂的数学模型的插补运算，对这些即消耗时间又消费资源的运算，应尽量使用查表的方式，并且将数据表置于程序存储区。如果直接生成所需的表比较困难，也尽量在启动时先计算，然后在数据存储器中生成所需的表，后以在程序运行直接查表就可以了，减少了程序执行过程中重复计算的工作量。

循环展开可以减少循环的次数，对程序的性能带了两方面的提高。一是减少了对循环没有直接贡献的计算，比如循环计数变量的计算，分支跳转指令的执行等。二是提供了进一步利用机器特性进行的优化的机会。

通过循环展开，每次迭代将累加4个元素，减少了循环次数，从而减少了总的执行时间（单独使用这种优化方法，对浮点数累乘几乎没有提高，但是整数累乘得益于编译器的重关联代码变化会有大幅度提高）。

这种优化可以直接利用编译器完成，将优化level设定到较高，编译器会自动进行循环展开。使用gcc，可以显式使用-funroll-loops选项。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7696660.html

C程序性能优化：20个实验与达人技巧

发表评论

评论列表（0条）