java初学-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

java初学

专栏成员

81

文章

88850

阅读量

30

订阅数

搜索引擎编程算法存储容器

　　在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题被称为top K问题，例如搜索引擎中，同济最热门的10个查询词，在歌曲库中统计下载量频率最高的前10个数据。　　针对这类问题，通常比较好的方案是分治+Trie树/hash+小顶堆，即将数据集按照hash方法分解成多个小数据集，然后使用Trie树或者hash统计每个小数据集中的query词频，之后用小顶堆求出每个数据集中出现频率最高的前K个数，最后在所有的top K中求出最终的top K。　　例如，1亿个浮点数，如何

2018-05-14

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态