1、合理使用多线程。
2、减少不必要的调用。
3、优化算法。
4、算法并行化
冒泡排序算法和选择排序算法的时间复杂度为N的平方,快速排序算法的时间复杂度为N logn。这样的方法实际上是算法并行化的核心思想。以空间交换时间,增氏拆加存储资源的开销,以保证数据的快速处理。这是唯一适合GPU的特性。
5、数据并行化
原则上,数则核斗据越规则,如16 × 16、32 × 32数据块。当然,最好匹配硬件的特性,比如硬件的位宽。
6、并行化 *** 作
在这一步中,严格地说,其实就是对算法的一些细节进行了优化。孙磨
GD32执行一条指令要3.66ns。以1.6G为例,时钟周期为1/(1.6*1024m)=0.61ns,机器周期为0.61*2=1.22ns,平均指令周期3*1.22ns=3.66ns
计算机中时钟周期是(主频的倒数),一个时钟周期cpu仅完成一个最基本的动作,完成一个基本 *** 作的时间为机器周期,一般由几个时钟周期组成;完成一条指令为指令周期。一般由几个机器周期组成,指令不同机器周期数也不同。计算机能执行的都是机器码,完成一条指令的功能可以分成两个主要阶段:取指和执行。取指(Fetch)——从主存储器中取出指令代码进入CPU。8086CPU中,指令在存储器中的地址由代码段寄存器CS和指令指针寄存器拿碰烂IP共同提供,再由地址加消漏法器得到20位存吵档储器地址。总线接口单元BIU负责从存储器取出这个指令代码,送入指令队列
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)