.text.globl floatsumfloatsum:push %ebpmovl %esp,%ebpmovl 8(%ebp),%eaxmovl 12(%ebp),%edxshrl ,%edxxorps %xmm0,%xmm0loop:testl %edx,%edxje end movaps (%eax),%xmm1addps %xmm1,%xmm0addl ,%eaxdecl %edxjmp loop end: # 3 2 1 0movaps %xmm0,%xmm1 # xmm0: w z y x # xmm1: z w x yshufps#include <stdio.h>#include <stdlib.h>floatfloatsum(float *array,size_t number_of_items);floatfloatsum_c(float *array,size_t number_of_items){float sum;size_t i;sum=0.0;for(i=0; i<number_of_items;i++){ sum+=array[i];}return sum;}float *create_array(size_t number_of_items){float *array;size_t i;array=calloc(number_of_items,sizeof(float));if(array){ for(i=0; i<number_of_items; i++){ array[i]=1.0+(float)i; } } return array; }intmain(int argc,char **argv){float *a;float result;size_t number_of_items,i;number_of_items=8;a=create_array(number_of_items);if(a){ result=floatsum_c(a,number_of_items); printf("Sum (c version): %f\n",result); result=floatsum(a,number_of_items); printf("Sum (asm version): %f\n",result); free(a);}return 0;}xb1,%xmm1,%xmm1 # 10 11 00 01 = 0xb1addps %xmm1,%xmm0 # xmm0: w+z z+w y+x x+ymovaps %xmm0,%xmm1 # xmm1: w+z z+w y+x x+y # xmm1: x+y y+x z+w w+zshufpsmovaps (%eax),%xmm1x1b,%xmm1 # 00 01 10 11 = 0x1baddps %xmm1,%xmm0 # xmm0: w+z+x+y z+w+y+x y+x+z+w x+y+w+z ##movd %xmm0,%eax#pushl %eaxfinst:flds (%esp)popl %eaxmovl %ebp,%esppopl %ebpret
// C代码
MOVAPS解决方法 正如保罗所说,这可能是一个对齐问题.从C代码可以清楚地看出,您的浮点数组不能保证在16字节边界上对齐.失败就是这一行: MOVUPS原因是
movaps (%eax),%xmm1有这个要求:
When the source or destination operand is a memory operand,the operand must be aligned on a 16-byte (@R_914_5028@ version) or 32-byte (VEX.256 encoded version) boundary or a general-protection exception (#GP) will be generated.
由于您使用的是128位向量寄存器,因此需要16字节对齐.你有两个选择:
>将MOVAPS更改为
movups (%eax),%xmm1,以便可以完成未对齐的内存访问
>修改C代码以创建在16字节边界上对齐的浮点数组
第一个解决方案需要:
calloc被改为
aligned_alloc第二种解决方案是避免使用memset并使用允许您创建16字节对齐对象的函数.如果使用C11,则可以使用功能
float *create_array(size_t number_of_items){ float *array = NulL; size_t i; array=(float *)aligned_alloc(16,number_of_items * sizeof(*array)); if(array){ memset (array,0x00,number_of_items * sizeof(*array)); for(i=0; i<number_of_items; i++){ array[i]=1.0+(float)i; } } return array;}和posix_memalign将阵列归零.您的create_array可能如下所示:
float *create_array(size_t number_of_items){ float *array = NulL; size_t i; if (!posix_memalign((voID **)&array,16,number_of_items * sizeof(*array))){ memset (array,number_of_items * sizeof(*array)); for(i=0; i<number_of_items; i++){ array[i]=1.0+(float)i; } } return array;}
如果您不使用C11,可以在linux上使用POSIX功能
#movd %xmm0,%eax#pushl %eax和memset.代码看起来像:
movd %xmm0,%eaxpushl %eax
您还必须取消注释这些行:
这样它们就会出现:
注意:尽管我使用memset将float数组归零,但是在代码中实际上并不需要它,因为之后将所有元素初始化为特定值.在您的情况下,可以删除对memset的调用.
@H_403_2@ 总结以上是内存溢出为你收集整理的c – 汇编中的float数组全部内容,希望文章能够帮你解决c – 汇编中的float数组所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)