#include <stdint.h>uint64_t s[ 2 ];uint64_t next(voID) { uint64_t s1 = s[ 0 ]; const uint64_t s0 = s[ 1 ]; s[ 0 ] = s0; s1 ^= s1 << 23; // a return ( s[ 1 ] = ( s1 ^ s0 ^ ( s1 >> 17 ) ^ ( s0 >> 26 ) ) ) + s0; // b,c}
我不是SSE / AVX专家,但我的cpu支持SSE4.1 / SSE4.2 / AVX / F16C / FMA3 / XOP指令.您如何使用这些代码来加速这个代码(假设你想要制造数十亿个这样的随机数),这个加速的实际预期限制是多少?
解决方法 XorShift确实是一个不错的选择.它是如此的好,这么快,需要这么少的状态,我很惊讶,看到这么少的采纳.它应该是所有平台上的标准生成器. 8年前我自己实现了,即使这样也可以产生800MB / s的随机字节.您不能使用向量指令来加快生成单个随机数.这几个指令中的指令级并行度太少.
但是,您可以轻松加快产生N个数字,其中N是目标指令集的向量大小.只需运行N个发电机并联.保持N个发生器的状态并同时生成N个数字.
如果客户端代码一次需要一个数字,则可以保留N(或更多)个数字的缓冲区.如果缓冲区为空,则使用向量指令进行填充.如果缓冲区不为空,您只需返回下一个数字.
总结以上是内存溢出为你收集整理的c – xorshift128的AVX / SSE版本全部内容,希望文章能够帮你解决c – xorshift128的AVX / SSE版本所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)