为什么为x64平台编译c程序比x86编译慢?

为什么为x64平台编译c程序比x86编译慢?,第1张

概述我编写了程序,并在Intel Core i5-2500上的Visual Studio 2010中为x64和x86平台编译. x64版本需要大约19秒才能执行,x86需要大约17秒钟.可能是这种行为的原因? #include "timer.h"#include <vector>#include <iostream>#include <algorithm>#include <string> 我编写了程序,并在Intel Core i5-2500上的Visual Studio 2010中为x64和x86平台编译. x64版本需要大约19秒才能执行,x86需要大约17秒钟.可能是这种行为的原因?
#include "timer.h"#include <vector>#include <iostream>#include <algorithm>#include <string>#include <sstream>/********************DECLaraTIONS************************************************/class Vector{public:    Vector():x(0),y(0),z(0){}    Vector(double x,double y,double z)        : x(x),y(y),z(z)    {    }    double x;    double y;    double z;};double Dot(const Vector& a,const Vector& b){    return a.x * b.x + a.y * b.y + a.z * b.z;}class Vector2{public:    typedef double value_type;    Vector2():x(0),y(0){}    Vector2(double x,double y)        : x(x),y(y)    {    }    double x;    double y;};/******************************TESTS***************************************************/voID Test(const std::vector<Vector>& m,std::vector<Vector2>& m2){    Vector axisX(0.3f,0.001f,0.25f);    Vector axisY(0.043f,0.021f,0.45f);    std::vector<Vector2>::iterator i2 = m2.begin();    std::for_each(m.begin(),m.end(),[&](const Vector& v)    {        Vector2 r(0,0);        r.x = Dot(axisX,v);        r.y = Dot(axisY,v);        (*i2) = r;        ++i2;    });}int main(){    cpptask::Timer timer;    int len2 = 300;    size_t len = 5000000;    std::vector<Vector> m;    m.reserve(len);    for (size_t i = 0; i < len; ++i)    {        m.push_back(Vector(i * 0.2345,i * 2.67,i * 0.98));    }    /***********************************************************************************/    {        std::vector<Vector2> m2(m.size());        double time = 0;        for (int i = 0; i < len2; ++i)        {            timer.Start();            Test(m,m2);            time += timer.End();        }        std::cout << "Dot product double - " << time / len2 << std::endl;    }    /***********************************************************************************/    return 0;}
解决方法 简短答案:这是一个编译器打嗝. x64优化程序失败.

长答案:

如果SSE2被禁用,这个x86版本很慢.但是我可以在x86中启用SSE2来重现结果.

如果你潜入最内圈循环的装配. x64版本最后有两个额外的内存副本.

86:

$LL71@main:movsd   xmm2,QWORD PTR [eax-8]movsd   xmm0,QWORD PTR [eax-16]movsd   xmm3,QWORD PTR [eax]movapd  xmm1,xmm0mulsd   xmm0,QWORD PTR __real@3fa60418a0000000movapd  xmm7,xmm2mulsd   xmm2,QWORD PTR __real@3f95810620000000mulsd   xmm7,xmm5mulsd   xmm1,xmm4addsd   xmm1,xmm7movapd  xmm7,xmm3mulsd   xmm3,QWORD PTR __real@3fdcccccc0000000mulsd   xmm7,xmm6add eax,24                 ; 00000018Haddsd   xmm1,xmm7addsd   xmm0,xmm2movq    QWORD PTR [ecx],xmm1addsd   xmm0,xmm3movq    QWORD PTR [ecx+8],xmm0lea edx,DWORD PTR [eax-16]add ecx,16                 ; 00000010Hcmp edx,esijne SHORT $LL71@main

64位:

$LL175@main:movsdx  xmm3,QWORD PTR [rdx-8]movsdx  xmm5,QWORD PTR [rdx-16]movsdx  xmm4,QWORD PTR [rdx]movapd  xmm2,xmm3mulsd   xmm2,xmm6movapd  xmm0,xmm5mulsd   xmm0,xmm7addsd   xmm2,xmm0movapd  xmm1,xmm4mulsd   xmm1,xmm8addsd   xmm2,xmm1movsdx  QWORD PTR r9492[rsp],xmm2mulsd   xmm5,xmm9mulsd   xmm3,xmm10addsd   xmm5,xmm3mulsd   xmm4,xmm11addsd   xmm5,xmm4movsdx  QWORD PTR r9492[rsp+8],xmm5mov rcx,QWORD PTR r9492[rsp]mov QWORD PTR [rax],rcxmov rcx,QWORD PTR r9492[rsp+8]mov QWORD PTR [rax+8],rcxadd rax,16add rdx,24lea rcx,QWORD PTR [rdx-16]cmp rcx,rbxjne SHORT $LL175@main

x64版本在循环结束时有更多(无法解释的)动作.它看起来像某种内存到内存数据副本.

编辑:

原来,x64优化器无法优化以下副本:

(*i2) = r;

这就是为什么内部循环有两个额外的内存副本.如果将循环更改为:

std::for_each(m.begin(),[&](const Vector& v){    i2->x = Dot(axisX,v);    i2->y = Dot(axisY,v);    ++i2;});

这消除了副本.现在x64版本和x86版本一样快:

x86: 0.0249423x64: 0.0249348

经验教训:编译器不完美.

总结

以上是内存溢出为你收集整理的为什么为x64平台编译c程序比x86编译慢?全部内容,希望文章能够帮你解决为什么为x64平台编译c程序比x86编译慢?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1234960.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-06
下一篇 2022-06-06

发表评论

登录后才能评论

评论列表(0条)

保存