水塘抽样法

水塘抽样法,第1张

水塘抽样法 什么是水塘抽样法

在抽样的样本大小未知的情况下需要等概率选出一个数的时候推荐使用

原理:
遇到符合条件的数时选择的概率为1/n,n目前的元素个数,这样做每个数最终被选到的概率是相等的

证明:
客观来看
遇到第1个数时,第一个数被选择的概率为1/1
遇到第2个数时,第一个数被选择的概率为1/1*1/2=1/2,第二个数被选择的概率为1/2
遇到第3个数时,第一个数被选择的概率为1/1*1/2*2/3=1/2,第二个数被选择的概率为1/2*2/3=1/3,第三个数被选择的概率为1/3
推下去每个数被选择的概率都是一样的

为什么要使用水塘抽样法

在数组中等概率选择一个符合条件的数,例如有一个数组有10个元素:5,3,4,8,6,9,1,2,7,10;
随机选择一个数

直接用rand(),时间复杂度为O(1)

#include
using namespace std;
int main(){
	int a[10]={5,3,4,8,6,9,1,2,7,10};
	cout< 

水塘抽样法O(n)

#include
using namespace std;
int main(){
	int a[10]={5,3,4,8,6,9,1,2,7,10};
	int select;
	int n=1;
	for(int i=0;i<10;i++){
		if(rand()%n==0){
			select=a[i];
			n++;
		}
	}
	cout< 

但加入在题目中加个条件在数值>=5的数中选择1个数,就不能直接用rand()了,往往需要经过处理,时间或空间复杂度达不到最优,而水塘抽样法可以在时间复杂度O(n)、空间复杂度O(1)的情况下完成选择

#include
using namespace std;
int main(){
	int a[10]={5,3,4,8,6,9,1,2,7,10};
	int select;
	int n=1;
	for(int i=0;i<10;i++){
		if(a[i]>=5&&rand()%n==0){
			select=a[i];
			n++;
		}
	}
	cout< 

注意:
为什么代码每次运行答案都是确定的呢?因为rand()的种子是一样的,每次运行rand()的值都是唯一确定的,并不能做到每次都随机,rand()的概念是在理论上每个数出现的次数都一样而使得总概率而已,并不是随机概率相等

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5710417.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存