嵌入式培训

热门课程:

嵌入式系统的性能该如何优化和进步？

发布：嵌入式培训
来源：嵌入式教程
时间：2017-12-29 16:05
分享到：

嵌入式系统的启动速度因设备的性能和代码的质量而异，但总体而言，从消费者的角度考虑，系统的启动速度肯定是越快越好。因此，对嵌入式系统进行性能优化，加快设备的启动时间为项目后期必须进行的一项工作。需要注意的是：嵌入式Linux设备的优化不是一蹴而就的，而是一个不断优化，不断改进的过程。

启动快慢的标准

设备启动的快慢目前还没有一个统一的标准。在项目中一般按照客户的标准。

性能的评测

对于开发人员来说，评价设备的性能一般是通过在代码中增加log的方式。这种方式具有以下几点优点：

1.精确度高

通常能够精确到毫秒。有特殊需求的情况下，可以精确到毫秒，比如使用gettimeofday函数。

2.灵活性强

可以测出代码中任意部分的代码运行所耗费的时间。

在嵌入式设备中，导入设备启动时间过长，性能低下的原因一般包括如下几个方面：

1.硬件的原因

硬件的原因一般指的是设备的CPU及Flash性能。如果代码的运算量很大，碍于CPU和Flash的性能，会导致CPU过于繁忙。有些设备碍于成本的原因，Flash太小，很多东西都需要压缩存放，那么在设备启动过程中，解压也需要一定的时间。

2.程序的原因

代码需要进行大量的IO操作，比如读写文件，内存访问等等，CPU更多的时候处于等待状态。而有些代码，由于编写的原因，导师各个进程之间相互等待，CPU利用率低下，制约了设备的性能。

优化的原则

优化并不能盲目的优化，盲目追求性能，还要统筹考虑。一般要遵循以下原则：

1.等效性原则

优化前后的代码实现的功能要完全一致。

2.有效性原则

优化后的代码一定要比原先的代码运行速度快，占用存储空间小，或者二者兼有，否则就是毫无意义的优化。

3.经济性原则

很多代码性能低下的部分原因也是由于硬件性能的限制，比如将文件压缩存放以节约存储成本。优化要在现有的条件下考虑，不要以更换存储空间的大小来换取解压的时间。优化要付出较小的代价，很多程序员在做优化的时候，抱怨设备的性能有限，要求提高设备的性能，这样只能是本末倒置。

优化的方法

此处提出的优化的方法主要是从代码的角度考虑，不包括升级硬件。

shell 脚本优化：

绝大多数的嵌入式设备都会使用busybox作为实现Linux命令的工具，因此BusyBox提供了一个比较完善的环境，可以适用于任何小的嵌入式系统。

BusyBox 是一个集成了一百多个最常用linux命令和工具的软件。BusyBox 包含了一些简单的工具，例如ls、cat和echo等等，还包含了一些更大、更复杂的工具，例grep、find、mount以及telnet。有些人将BusyBox称为Linux工具里的瑞士军刀。简单的说BusyBox就好像是个大工具箱，它集成压缩了Linux的许多工具和命令，也包含了Android系统的自带的shell。

BusyBox包含三种类型的命令：

APPLET

即为人所熟知的applets，它由BusyBox创建一个子进程，然后调用exec执行相应的功能，在执行完毕后，返回控制给父进程。

APPLET_NOEXEC

系统将调用fork创建子进程，然后执行BusyBox中相应的功能，在执行完毕后，返回控制给父进程。

APPLET_NOFORK

它相当于builts-in，只是执行BusyBox的内部函数，不必创建子进程，所以其效率极高。

众所周知，在Linux中调用fork，exec是很耗费时间的，所以我们应该尽可能的使用APPLET_NOFORK命令，其次是APPLET_NOEXEC，最后是APPLET。

在BusyBox1.9中，属于APPLET_NOFORK的功能有：

属于APPLET_NOEXEC的功能有：

所以优化shell脚本的策略一般有：

优化进程启动速度

进程的启动过程如下：

要加快的进程的启动速度，可以从以下几方面入手：

1.减少加载的动态库的数量

a) 使用dlopen，将启动时不需要的动态库延后加载

b) 将一些动态库改为静态库

优点：减少了加载动态库的数量;在与其他动态库合并之后，动态库内部的函数之间不必再进行动态链接、符号查找，从而提高速度

缺点：该动态库如果被多个动态库或进程所依赖的话，那么该动态库将被复制多份合并到新的动态库中，导致整体的文件大小增加，占用更多的Flash。

失去了动态库原有的代码段内存共享，因此可能会导致内存使用上的增加。

2 优化加载动态库时的搜索路径

a) 设置LD_HWCAP_MASK，禁掉一些不用的硬件特性。

b) 将所有的动态库都放在一个目录下，并且将目录放在LD_LIBRARY_PATH的开始。

c) 不能放在一个目录下，在进程中加入-rpath选项，指定搜索路径。如果做了之前的工作仍然无法满足进程启动速度的要求，那就从进程的调度上下功夫，可以：进程改为线程;可以把原来的进程分割为两个部分。

常驻内存部分：其为daemon进程，主要负责加载进程所需要的动态库，侦听用户信号，创建和销毁用户逻辑线程。完成用户逻辑部分：由daemon部分创建线程，按用户需求完成用户逻辑，这样就节省掉了加载动态库、初始化动态库和全局变量部分，可以缩短进程的响应时间，来满足用户的需求。

还可以再引申一下，将原来的多个daemon进程的常驻内存部分进行合并，根据用户逻辑需求，创建不同的进程。

优点：创建线程时，不需要重新加载动态库，故缩短了进程的响应时间;多个业务逻辑共享动态库时，避免了系统为每个业务逻辑创建动态库的数据段，从而节省了大量的内存。

缺点：由原来的进程改为线程，工作量比较大，代码修改上存在一定的风险，多个业务逻辑线程之间共享动态库时，有可能会带来全局变量的冲突。

由于还是存在daemon进程部分，所以其堆栈内存不会被释放，多个业务逻辑线程所存在内存泄露会纠缠在一起，从而使问题更加复杂。

3.preload进程

在进程的main函数中插入一行语句：

pause();

这样，当进程启动时，加载完动态库后，就会停在这里，不会运行用户逻辑。当我们需要相应用户时，向该进程发送一个信号，这样用户就会继续前进，处理用户逻辑，这样就节省了进程加载动态库的过程。

当用户逻辑执行完成后，就退出进程，同时再启动该进程，这是进程会在加载完动态库后，停留在那里。

提前加载，延后退出。

当进程启动需要较长时间时，很多程序员仅仅想到了将其提前加载(在开机时启动)，却没有想到退出条件，而导致进程中又多了一个daemon进程。因此提前加载，延后退出需要更加精确的控制进程的生命周期。

调整CPU频率：

嵌入式设备中，CPU一般有几个工作频率

CPU频率越高，运行速度越快，耗电量越高

可以再启动前调高CPU频率，在完成后再调低CPU频率

这种方法以耗电量增加为代价，在某些场合下不适用

4.优化代码

if表达式

从左到右对表达式求值，当结果确定后也就不在需要计算其他的表达式，也就是常说的“短路”机制，因此对于if语句可以做以下优化：

删除冗余条件

删除肯定不成立的条件

利用短路机制，将计算速度最快的表达式放在左边

循环语句的优化：

将不变的代码移到循环之外

将分支语句提到循环的外面

通过循环分支的展开，可以降低循环次数，从而减少分支语句对循环的影响

用减1指令替代循环加1指令

寄存器的使用遵循ATPCS标准。

ATPCS标准是嵌入式开发应尽量遵循的标准。

子程序间通过寄存器R0——R3来传递参数。

被调用的子程序在返回前无需恢复寄存器R0——R3的内容。

在子程序中，使用寄存器R4——R11来保存局部变量。

如果在子程序中使用了寄存器R4——R11的某些寄存器，子程序进入时必须保存这些寄存器的值，在返回前必须恢复这些寄存器的值，对于子程序中没有用到的寄存器则不必进行这些操作。

R12用作子程序间scratch寄存器，记作ip。

在子程序间的连接代码段经常使用这些规则。

R13用作数据栈指针，记作sp。

在子程序间寄存器R13不能用作其他用途。

R14成为连接寄存器，记作lr。

它用来保存子程序的返回地址。

R15是程序计数器，记作pc。

子程序返回结果为一个32位整数时，可以通过寄存器R0返回;结果为一个64位整数时，可以通过寄存器R0和R1返回，以此类推。

5.函数参数优化

函数的参数最好不超过4个;4个以下的形参可以通过寄存器来传递，4个以上的参数，则需要通过栈来传递。同时，如果参数小于4个，R0-R4中剩余的寄存器可以保存函数中的局部变量。

6.减少局部变量的个数

尽量限制函数内部循环所用的局部变量的数目，最多不超过12个，以便编译器能把变量分配到寄存器。

如果没有局部变量保存到栈中，系统也将不必设置和恢复栈指针。

当函数内部寄存器变量多于12个时，并不意味着只是将前面的12个临时变量分配寄存器，之后的临时变量都是通过栈内存来操作。

当寄存器分配完内存后，遇到新的临时变量时，先查看已分配寄存器的局部变量是否有在后面的代码中不会被使用，则新的局部变量使用其所占用的寄存器。如果也纷纷寄存器的局部变量在后面的代码中都要使用，则要选择出一个临时变量，将其保存到栈中，之后将其使用的寄存器分配给局部变量。

7.文件操作的优化

读写文件时，缓冲区的buffer为2048或4096时，速度最快

利用mmap读写文件

mmap的基本流程是：

8.线程的优化

线程的创建是要付出代价的，如果创建的线程只做很少的事情，而又频繁的创建和销毁线程，是得不偿失的

使用异步IO，来取代多线程+同步IO的方式

使用线程池取代线程的创建和销毁

9.内存操作的优化

内存访问流程：

CPU试图访问一块内存

CPU首先确认该内存是否已经被加载到cache中

如果加载到cache中，则直接在cache中定位

如果未加载到cache中，则通过CPU和内存直接的地址总线，向内存发送地址的高27位地址

当内存收到高27位地址后，利用SDRAM的突发交换模式，将连续的32个字节传送给CPU的cache，填充一个缓存行

CPU可以通过地址的高27位来定位cache的缓存行，利用地址的低5位定位到缓存行中具体的字节

尽量使用占用内存少的算法

利用流水线内存存取与计算并行的特点，组合内存访问与计算

10.调整进程的优先级

Linux支持两种进程:实时进程和普通进程。

实时进程的优先级是静态设定的，而且始终大于普通进程的优先级。对于实时进程来讲，其使用绝对优先级的概念，绝对优先级的取值范围是0——99,数字越大，优先级越高。

普通进程的绝对优先级取值是0。在普通进程之间，其又具备静态优先级和动态优先级之分。静态优先级，我们可以通过程序来修改。同事系统在运行过程中，会在静态优先级基础上，不断动态计算出每个进程的动态优先级，拥有最高动态优先级的进程进程被调度器选中。一般来讲，静态优先级越高，进程所能分配的时间片越长。

尽量不要把某些进程放到启动脚本中，尝试daemon进程在第一次使用时启动。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕钱不够？可就业挣钱后再付学费！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：嵌入式开发工具：jetty介绍和使用

下一篇：一位嵌入式er学习ucos和ARM体系结构的心得体会

开班时间

Java开发 5月29日立即报名
云计算 5月29日立即报名
网络安全 5月29日立即报名
Python 5月29日立即报名
数据分析 5月29日立即报名
C++ 5月29日立即报名
物联网 5月29日立即报名
Web前端 5月29日立即报名
软件测试 5月29日立即报名
AI大模型 5月29日立即报名
鸿蒙 5月29日立即报名
智能办公 5月29日立即报名
商业视效 5月29日立即报名
AGI商业变现 5月29日立即报名
UI设计 5月29日立即报名
新媒体电商 5月29日立即报名

嵌入式培训
达内IT学院

嵌入式培训

嵌入式系统的性能该如何优化和进步？

预约申请免费试听课

裸编程怎么做?裸编程具体做法

嵌入式编程中你必须知道的小知识

嵌入式C语言编程小知识总结

有哪些工具可以让嵌入式开发事半功倍?

开班时间

相关栏目

嵌入式培训 达内IT学院

嵌入式培训

嵌入式系统的性能该如何优化和进步？

预约申请免费试听课

裸编程怎么做?裸编程具体做法

嵌入式编程中你必须知道的小知识

嵌入式C语言编程小知识总结

有哪些工具可以让嵌入式开发事半功倍?

开班时间

相关栏目

嵌入式培训
达内IT学院