腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
java初学
专栏成员
举报
81
文章
88850
阅读量
30
订阅数
订阅专栏
申请加入专栏
全部文章(81)
java(21)
编程算法(15)
存储(15)
其他(13)
人工智能(8)
xml(7)
数据库(7)
sql(6)
mybatis(6)
android(5)
云数据库 SQL Server(4)
spring(4)
缓存(4)
jvm(4)
python(2)
servlet(2)
jsp(2)
容器(2)
网络安全(2)
hashmap(2)
scrapy(2)
dubbo(2)
安全(2)
微服务(2)
负载均衡(1)
数据挖掘(1)
c++(1)
.net(1)
textview(1)
memcached(1)
搜索引擎(1)
unix(1)
负载均衡缓存(1)
apache(1)
mapreduce(1)
消息队列 CMQ 版(1)
mongodb(1)
爬虫(1)
jdbc(1)
asp(1)
zookeeper(1)
aop(1)
tcp/ip(1)
udp(1)
anaconda(1)
数据处理(1)
windows(1)
数据结构(1)
https(1)
kafka(1)
搜索文章
搜索
搜索
关闭
top K 问题
搜索引擎
编程算法
存储
容器
在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题被称为top K问题,例如搜索引擎中,同济最热门的10个查询词,在歌曲库中统计下载量频率最高的前10个数据。 针对这类问题,通常比较好的方案是分治+Trie树/hash+小顶堆,即将数据集按照hash方法分解成多个小数据集,然后使用Trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有的top K中求出最终的top K。 例如,1亿个浮点数,如何
Mister24
2018-05-14
1.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档