前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TOPK 问题

TOPK 问题

作者头像
希希里之海
发布2019-05-15 10:33:14
5560
发布2019-05-15 10:33:14
举报
文章被收录于专栏:weixuqin 的专栏weixuqin 的专栏

TOPK 问题

描述

如从海量数字中寻找最大的 k 个,这类问题我们称为 TOPK 问题,通常使用堆来解决:

  • 求前 k 大,用最小堆
  • 求前 k 小,用最大堆

例子

现有列表 [1, 2, 0, 3, 5], 求前 2 个大的元素。

如传入列表和 k = 2,输出 [3, 5]

思路

  1. 先放入元素前 k 个建立一个最小堆
  2. 迭代剩余元素: 如果当前元素小于堆顶元素,跳过该元素(肯定不是前 k 大) 否则替换堆顶元素为当前元素,并重新调整堆
  3. 最后获取 最小堆 中的值,即为 topk
image.png
image.png

代码如下

代码语言:javascript
复制
import heapq

class Topk:
    """获取大量元素 topk 大个元素,固定内存
    思路:
    1. 先放入元素前 k 个建立一个最小堆
    2. 迭代剩余元素:
        如果当前元素小于堆顶元素,跳过该元素(肯定不是前 k 大)
        否则替换堆顶元素为当前元素,并重新调整堆
    """
    def __init__(self, iterable, k):
        self.minheap = []
        self.capacity = k
        self.iterable = iterable

    def push(self, val):
        if len(self.minheap) >= self.capacity:
            min_val = self.minheap[0]
            if val < min_val:       # 当然你可以直接 if val > min_val 操作,这里我只是显示指出跳过这个元素
                pass
            else:
                heapq.heapreplace(self.minheap, val)    # 返回并且 pop 堆顶最小值,推出新的 val 值并调整堆
        else:
            heapq.heappush(self.minheap, val)           # 前面 k 个元素直接放入 minheap

    def get_topk(self):
        for val in self.iterable:
            self.push(val)
        return self.minheap

def test():
    import random
    i = list(range(1000))   # 这里可以是一个可迭代元素,节省内存
    random.shuffle(i)
    _ = Topk(i, 10)
    print(_.get_topk())     # [990, 992, 991, 993, 996, 997, 998, 994, 995, 999]

test()
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-05-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • TOPK 问题
    • 描述
      • 例子
        • 思路
          • 代码如下
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档