首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

海量数据面试题总结(1)-Hash映射+Hash统计+归并排序

模式一:Hash映射+Hash统计+堆/归并排序 一、解决思路 1. hash映射(分而治之) 首先考虑是否需要将大文件分成小文件,针对数据太大,内存受限,只能是将大文件化成小文件(取模映射); 2....hash统计 当大文件转化了小文件,那么我们便可以采用常规的Hashmap(ip,value)来进行频率统计; 3....有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求:返回频数最高的100个词。...这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。...一个查询串的重复度越高,说明查询热度越高,请统计最热门的10个查询串,要求使用的内存不能超过1G。 事实上只有300万的Query,每个Query255B,文件最大是7.65亿B < 1GB。

58720
领券