看起来(几乎)完全是您想要的。两件事情:
首先,结果是四个项目的元组。第三个是垃圾箱的大小。第二个是最小垃圾箱的起点。第一个是每个垃圾箱中或下方的点数。(最后是超出限制的点数,但是由于您未设置任何点数,因此将对所有点进行分箱。)
其次,您需要调整结果的比例,使最终值为1,以遵循CDF的常规约定,但否则是正确的。
这是它的内幕:
def cumfreq(a, numbins=10, defaultreallimits=None): # docstring omitted h,l,b,e = histogram(a,numbins,defaultreallimits) cumhist = np.cumsum(h*1, axis=0) return cumhist,l,b,e
它进行直方图处理,然后在每个仓中生成计数的累积和。因此,结果的第i个值是小于或等于第i个bin的最大值的数组值的数量。因此,最终值只是初始数组的大小。
最后,要进行绘制,您需要使用bin的初始值和bin大小来确定所需的x轴值。
另一个选择是使用
numpy.histogram它可以进行归一化并返回仓边。您需要自己对结果计数进行累加。
a = array([...]) # your array of numbersnum_bins = 20counts, bin_edges = numpy.histogram(a, bins=num_bins, normed=True)cdf = numpy.cumsum(counts)pylab.plot(bin_edges[1:], cdf)
(
bin_edges[1:]是每个垃圾箱的上边缘。)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)