c – xorshift128的AVXSSE版本

c – xorshift128的AVXSSE版本,第1张

概述我正在努力做出最快的高质量RNG.阅读 http://xorshift.di.unimi.it/后,xorshift128似乎是一个很好的选择. C代码是 #include <stdint.h>uint64_t s[ 2 ];uint64_t next(void) { uint64_t s1 = s[ 0 ]; const uint64_t s0 = s[ 1 ]; 我正在努力做出最快的高质量RNG.阅读 http://xorshift.di.unimi.it/后,xorshift128似乎是一个很好的选择. C代码是
#include <stdint.h>uint64_t s[ 2 ];uint64_t next(voID) {     uint64_t s1 = s[ 0 ];    const uint64_t s0 = s[ 1 ];    s[ 0 ] = s0;    s1 ^= s1 << 23; // a    return ( s[ 1 ] = ( s1 ^ s0 ^ ( s1 >> 17 ) ^ ( s0 >> 26 ) ) ) + s0; // b,c}

我不是SSE / AVX专家,但我的cpu支持SSE4.1 / SSE4.2 / AVX / F16C / FMA3 / XOP指令.您如何使用这些代码来加速这个代码(假设你想要制造数十亿个这样的随机数),这个加速的实际预期限制是多少?

解决方法 XorShift确实是一个不错的选择.它是如此的好,这么快,需要这么少的状态,我很惊讶,看到这么少的采纳.它应该是所有平台上的标准生成器. 8年前我自己实现了,即使这样也可以产生800MB / s的随机字节.

您不能使用向量指令来加快生成单个随机数.这几个指令中的指令级并行度太少.

但是,您可以轻松加快产生N个数字,其中N是目标指令集的向量大小.只需运行N个发电机并联.保持N个发生器的状态并同时生成N个数字.

如果客户端代码一次需要一个数字,则可以保留N(或更多)个数字的缓冲区.如果缓冲区为空,则使用向量指令进行填充.如果缓冲区不为空,您只需返回下一个数字.

总结

以上是内存溢出为你收集整理的c – xorshift128的AVX / SSE版本全部内容,希望文章能够帮你解决c – xorshift128的AVX / SSE版本所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1253862.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-07
下一篇 2022-06-07

发表评论

登录后才能评论

评论列表(0条)

保存