资料来源:谷歌面试问题
由于有一个庞大的计算机网络,每个计算机都保存访问URL的日志文件,可以找到访问量最大的十大URL.。
有很多大的<string (url) -> int (visits)> maps。
计算< string (url) -> int (sum of visits among all distributed maps),并得到合并地图中的前十位。
主要限制:映射太大,无法通过网络传输。也不能直接使用MapReduce .
我现在遇到了相当多的此类问题,需要在大型分布式系统上完成processiong。我无法思考或找到一个合适的答案。
我所能想