但为什么我写的程序在gpu上运行的还没有cpu快_软件运维

GPU执行的是简单但计算量大的应用时才有优势，而CPU在计算复杂的数据时有优势。

因此如果某个程序在GPU上的运行速度不如CPU上快，只是应用或程序本身就决定了。

GPU的优势如下：

（1）计算密集型的程序。所谓计算密集型(Compute-intensive)的程序，就是其大部分运行时间花在了寄存器运算上，寄存器的速度和处理器的速度相当，从寄存器读写数据几乎没有延时。可以做一下对比，读内存的延迟大概是几百个时钟周期；读硬盘的速度就不说了，即便是SSD, 也实在是太慢了。

（2）易于并行的程序。GPU其实是一种SIMD(Single Instruction Multiple Data)架构，他有成百上千个核，每一个核在同一时间最好能做同样的事情。

显卡gpu处于CPU下游，程序运行，都是先CPU控制硬盘读写软件运行部分到内存中，CPU开始运算输出图形构架，只有CPU输出指令和显示数据传输到gpu中，显卡才开始运算数据，给图像框架贴图，渲染，输出到显示器显示出来。

DXVA是视频硬件加速的统称，不仅仅是视频数据解码(包括H261，MPEG1，MPEG2,H263,MPEG4), 还有Alpha blending, Picture resampling等。但对于播放时CPU利用率影响最大的，则是视频解码，尤其是HDTV的解码。对于低端系统来说，让GPU来负责硬件解码是不二之选。但使用硬件解码，在整个功能上也受到很多限制，尤其是解压以后的视频数据的后期处理（如deinterlace,锐化，去马赛克). 因此对于追求画质的烧友，宁可放弃硬件解码，当然代价是需要升级整个系统。稍后再谈。

硬件解码生效的时候，系统是怎么运转的呢？现在我们有两个处理器，CPU和GPU。他们通过PCI/AGP/PCIE总线交换数据。

1。CPU从文件系统里读出原始数据(DirectSHow的源滤镜)，分离出压缩的视频数据（分离器）。放在系统内存中。 GPU 发呆

2。CPU把压缩视频数据交给GPU, 这时总线上开始忙了，压缩数据从系统内存拷贝到显卡上的显存里。

3. CPU要求 GPU开始硬件解码，现在 CPU进入发呆期，GPU开始忙。当然CPU会定期查询一下GPU忙的怎么样了。

4。GPU开始用自己的电路解码视频数据（已经在显存里了），解压后的数据还是放在显存里面。CPU继续发呆。

5. 视频数据刚解码完成以后还不能立刻拿去显示，因为还需要后期处理，如deinterlace, 3:2pulldown，等等。GPU再用自己的后期处理电路来进行处理。CPU还是发呆

6。后期处理以后的未压缩数据拿去显示到屏幕上， GPU再开始忙视频的缩放，亮度,gamma等事情。CPU还是闲

7. GPU终于忙完了，下面的视频数据在哪里？通知CPU，GPU先歇会。 CPU又开始忙了，回到第1步。

上面可以看到，硬件解码生效的时候，CPU真的可以很闲，但是为了让它生效，有些条件必须满足。最关键的原因是，与CPu－>系统内存和GPU－>显卡显存比起来，PCI、AGP、PCIE总线是龟速。PCI是133MB/S, AGP8X是2.1GB/S, PCIE16X是4GB/S, 而CPU-系统内存，GPU－显存则快若干倍。有兴趣的可以把不同时代的内存总线和AGP/PCIE总线速度进行一下对比。因为CPU和GPU互连的总线很慢，因此，视频数据（无论是解压前还是解压后）一旦交给GPU，GPU就要负责把它处理完，直到最终显示。

如果在前面1－5步里有哪一步GPU不能做或你不让它做，视频硬件解码就不生效，CPU要负责。

当然，你可能会问，也许CPU很慢，说不定在龟速总线上传输数据，GPU分担一部分工作，还是比全部CPU做要快呢？也许如此，但在Directshow架构里，代表视频数据处理各环节的滤镜（分离器，解码器，后期处理，渲染器）需要协商出一个大家都接受的视频数据存储方式，如果某个滤镜说我只能在系统内存里玩，大家都得要在内存里玩，GPU和显存只好放弃。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11730408.html

但为什么我写的程序在gpu上运行的还没有cpu快

发表评论

评论列表（0条）