我正在寻找一种算法,以生成一个直方图在大量的流数据,最大和最小是不知道提前,但标准差和平均值是在一个特定的范围。
我很欣赏你的想法。
干杯,
发布于 2011-06-18 12:48:57
我只找到了一个解决方案。秒2.2的“基于流式并行决策树算法的在线直方图构建”一文。算法是由Hive项目中的NumericHistogram类实现的:
一个通用的、可重用的直方图类,支持部分聚合。该算法是改编自以下论文的启发式算法: Yael Ben-Haim和Elad Tom-Tov,"A streaming parallel decision tree algorithm",J. Machine Learning Research 11 (2010),pp.849-872。虽然没有近似保证,但在有足够的数据和大量(例如,20-80)直方图柱的情况下,它似乎工作得很好。
https://stackoverflow.com/questions/6385700
复制相似问题