- spark 等频 等宽 分箱 数据量较少时的现象
- 分箱编号不同的原因剖析
-
- 等频分箱当分箱数量 多于 实际出现的数据
-
- 第一步: 计算分箱拆分区间
- 第二步:重新计算,去重
- 第三步:计算结果
- 等频分箱当分箱数量 少于 实际出现的数据
- 参考文献
这里有一个很有趣的问题,当分箱数比较少 ,少于数据个数时候,等频分箱箱子编号是从0开始的。
当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的
欢迎分享,转载请注明来源:内存溢出
这里有一个很有趣的问题,当分箱数比较少 ,少于数据个数时候,等频分箱箱子编号是从0开始的。
当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)