spark 等频 等宽 分箱的一个小问题

spark 等频 等宽 分箱的一个小问题,第1张

spark 等频 等宽 分箱的一个小问题

文章大纲
  • spark 等频 等宽 分箱 数据量较少时的现象
  • 分箱编号不同的原因剖析
    • 等频分箱当分箱数量 多于 实际出现的数据
      • 第一步: 计算分箱拆分区间
      • 第二步:重新计算,去重
      • 第三步:计算结果
    • 等频分箱当分箱数量 少于 实际出现的数据
  • 参考文献

spark 等频 等宽 分箱 数据量较少时的现象

这里有一个很有趣的问题,当分箱数比较少 ,少于数据个数时候,等频分箱箱子编号是从0开始的。

当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5699700.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存