前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >top K 问题

top K 问题

作者头像
Mister24
发布2018-05-14 10:58:35
1.4K0
发布2018-05-14 10:58:35
举报
文章被收录于专栏:java初学java初学

  在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题被称为top K问题,例如搜索引擎中,同济最热门的10个查询词,在歌曲库中统计下载量频率最高的前10个数据。

  针对这类问题,通常比较好的方案是分治+Trie树/hash+小顶堆,即将数据集按照hash方法分解成多个小数据集,然后使用Trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有的top K中求出最终的top K。

  例如,1亿个浮点数,如何找出最大的10000个?

1.快速排序

最容易想到的方法是将数据全部排序,然后在排序后的集合中进行查找,最快的排序算法的时间复杂度一般为O(nlogn),如快速排序。但是在32位的机器上,每个float类型占4个字节,1亿个浮点数就要占用400MB的存储空间,对于一些可用内存小于400M的计算机而言,很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求,该方法也并不高效,因为题目的目的是寻找出最大的10000个数即可,而排序却是将所有的元素都排序了,做了很多的无用功。

2.局部淘汰法

  该方法与排序方法类似,用一个容器保存前10000个数,然后将剩余的所有数字——与容器内的最小数字相比,如果所有后续的元素都比容器内的10000个数还小,那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大,则删掉容器内最小元素,并将该元素插入容器,最后遍历完这1亿个数,得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O(n+m*m),其中m为容器的大小,即10000。

3.分治法

将1亿个数据分为100份,每一份包含100万个数据,找出每份数据中最大的10000个,最后在剩下的100*10000个数据中找出最大的10000个。如果100万数据选取的足够理想,那么可以过来掉99%的数据。

  100万个数据中找出最大的10000个,继续对大堆快速排序一次分成两堆,如果大堆个数N大于10000,继续对大堆快排一次分成两堆,如果大堆的个数N小于10000,就在小的那堆里快速排序一次,找到第10000-n大的数字,递归进行上述的过程,就可以找到第10000大的数字。这种方法每次需要的内存空间是100万*4 = 4M,一共需要101次比较。

4.hash法

如果1亿个数里面有很多重复的数,先通过hash法,把这1亿个数字去重复,如果重复率高的话,会减少很大的内存用量,从而缩小运算空间,然后通过分治或者最小堆法进行。

5.最小堆

先读入前10000个数来创建大小为10000的小顶堆,建堆的时间复杂度为O(mlogm)(m是数组的大小,即为10000),然后遍历后续的数字,并与堆顶(堆顶的数值最小)进行比较,如果比堆顶小,则继续读取后续的数字,如果比堆顶大,则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿的数全部变量完为止,然后按照中序遍历的方式输出当前堆中所有10000个数字,该算法的时间复杂度为O(nmlogm),空间复杂度是10000。

重复问题

使用位图法对8位电话号码进行统计和排序。

代码语言:javascript
复制
package _9_3;

import java.util.Random;

public class Test
{
	int ARRNUM = 10000;
	int mmin = 10000000;
	int mmax = 99999999;
	int N = mmax - mmin + 1;
	int BITS_PER_WORD = 32;
	
	//找出放在第几个bit
	int WORD_OFFSET(int b)
	{
		return b/BITS_PER_WORD;
	}
	
	//计算出应该存在第几位
	int BIT_OFFSET(int b)
	{
		return b%BITS_PER_WORD;
	}
	
	//置为1
	void SetBit(int[] words, int n)
	{
		n -= mmin;
		words[WORD_OFFSET(n)] |= (1<<BIT_OFFSET(n));
	}
	
	//清零
	void ClearBit(int[] words, int n)
	{
		words[WORD_OFFSET(n)] &= ~(1<<BIT_OFFSET(n));
	}
	
	//获得对应的值
	boolean GetBit(int[] words, int n)
	{
		int bit = words[WORD_OFFSET(n)]&(1<<BIT_OFFSET(n));
		return bit != 0;
	}
	
	public void sort()
	{
		int i,j;
		int arr[] = new int[ARRNUM];
		System.out.println("数组大小:" + ARRNUM);
		//用来存放位图,每一位对应mmin到mmax范围内的一个数
		int[] words = new int[1 + N/BITS_PER_WORD];
		int count = 0;
		Random r = new Random();
		
		//生成100个随机数存放在数组arr中
		for(j = 0; j < ARRNUM; j++)
		{
			arr[j] = r.nextInt(N);
			arr[j] += mmin;
			System.out.println(arr[j] + " ");
		}
		System.out.println();
		
		for(j = 0; j < ARRNUM; j++)
		{
			SetBit(words, arr[j]);
		}
		System.out.println("排序后的a为:");
		
		for(i = 0; i < N; i++)
		{
			if(GetBit(words, i))
			{
				System.out.println(i + mmin + " ");
				count++;
			}
		}
		System.out.println();
		System.out.println("总个数为:" + count);
	}

	public static void main(String[] args)
	{
		new Test().sort();
	}
}
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-04-11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档