在大数据时代,处理超大规模数据是算法工程师需要面对的重要问题。本文将以在内存受限环境下,求一个大文件中词频最高的Top N词为例,探讨一种基于堆结构与外部排序的解决方案。...这种方法可以控制内存使用,但需要多轮遍历文件,当文件很大时IO成本非常高。且还需要频繁合并中间结果。
再一种方法是使用外部排序算法。将文件逐行读入,并排序,然后统计词频输出Top N结果。...基于堆结构的解法
基于上述分析,需要一种可以动态维护topk结果的数据结构。堆可以提供这种能力。
具体地,可以使用一个小根堆,堆的大小固定为N(此处为100)。...每次从文件中读取一定大小的词,统计词频保存到一个哈希表中。然后遍历这个哈希表,把词频作为值,词语作为键,逐个插入小根堆。如果堆大小超过N,则移除堆顶最小的元素。...算法实现
基于小根堆,可以设计一个内存受限的词频统计算法:
初始化大小为N的小根堆,用于保存topk结果import java.io.*;
import java.util.*;
public class