【数据结构】堆（万字详解）

每天都要进步呀

发布于 2023-03-28 11:39:25

2.2K0

文章被收录于专栏：C++/LinuxC++/Linux

二叉树的概念&&堆的全部详解

1.树的概念及结构

1.1 树的概念

树是一种非线性的数据结构，它是由n（n>=0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。

有一个特殊的结点，称为根结点，根节点没有前驱结点
除根节点外，其余结点被分成M(M>0)个互不相交的集合T1、T2、……、Tm，其中每一个集合Ti(1<= i<= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱，可以有0个或多个后继。
因此，树是递归定义的。

注意：树形结构中，子树之间不能有交集，否则就不是树形结构

1.2 树的相关概念

节点的度： 一个节点含有的子树的个数称为该节点的度；如上图：A的为6 叶节点或终端节点： 度为0的节点称为叶节点；如上图：B、C、H、I…等节点为叶节点 非终端节点或分支节点： 度不为0的节点；如上图：D、E、F、G…等节点为分支节点 双亲节点或父节点： 若一个节点含有子节点，则这个节点称为其子节点的父节点；如上图：A是B的父节点 孩子节点或子节点： 一个节点含有的子树的根节点称为该节点的子节点；如上图：B是A的孩子节点 兄弟节点： 具有相同父节点的节点互称为兄弟节点；如上图：B、C是兄弟节点 树的度： 一棵树中，最大的节点的度称为树的度；如上图：树的度为6 节点的层次： 从根开始定义起，根为第1层，根的子节点为第2层，以此类推； 树的高度或深度： 树中节点的最大层次；如上图：树的高度为4 堂兄弟节点： 双亲在同一层的节点互为堂兄弟；如上图：H、I互为兄弟节点 节点的祖先： 从根到该节点所经分支上的所有节点；如上图：A是所有节点的祖先 子孙： 以某节点为根的子树中任一节点都称为该节点的子孙。如上图：所有节点都是A的子孙 森林： 由m（m>0）棵互不相交的树的集合称为森林

1.3 树的表示

树结构相对线性表就比较复杂了，要存储表示起来就比较麻烦了，既然保存值域，也要保存结点和结点之间的关系，实际中树有很多种表示方式如：双亲表示法，孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。

typedef int DataType;
struct Node
{
    struct Node* _firstChild1;  // 第一个孩子结点
    struct Node* _pNextBrother; // 指向其下一个兄弟结点
    DataType _data;             // 结点中的数据域
};

2. 二叉树的概念及结构

2.1 概念

一棵二叉树是结点的一个有限集合，该集合:

或者为空
由一个根节点加上两棵别称为左子树和右子树的二叉树组成

从上图可以看出：

二叉树不存在度大于2的结点
二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

注意：对于任意的二叉树都是由以下几种情况复合而成的：

2.2 特殊的二叉树

满二叉树： 一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且结点总数是，则它就是满二叉树。
完全二叉树： 完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于深度为K的，有n个结点的二叉树，当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

2.3 二叉树的性质

若规定根节点的层数为1，则一棵非空二叉树的第i层上最多有2^(i-1) 个结点.
若规定根节点的层数为1，则深度为h的二叉树的最大结点数是2^h-1 .(等比求和)
对任何一棵二叉树, 如果度为0其叶结点个数为n0, 度为2的分支结点个数为n2 ,则有

n_0 = n_2+1

若规定根节点的层数为1，具有n个结点的满二叉树的深度，h= log(n+1). (ps：log(n+1)是log以2为底，n+1为对数)
对于具有n个结点的完全二叉树，如果按照从上至下从左至右的数组顺序对所有节点从0开始编号，则对于序号为i的结点有：
- 1. 若i>0，i位置节点的双亲序号：(i-1)/2；i=0，i为根节点编号，无双亲节点
  2. 若2i+1<n，左孩子序号：2i+1，2i+1>=n否则无左孩子
  3. 若2i+2<n，右孩子序号：2i+2，2i+2>=n否则无右孩子

2.4 二叉树的存储结构

二叉树一般可以使用两种结构存储，一种顺序结构，一种链式结构。

顺序存储

顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储，关于堆我们后面的章节会专门讲解。二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。

链式存储

二叉树的链式存储结构是指，用链表来表示一棵二叉树，即用链来指示元素的逻辑关系。通常的方法是链表中每个结点由三个域组成，数据域和左右指针域，左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址。链式结构又分为二叉链和三叉链，当前我们学习中一般都是二叉链，后面学到高阶数据结构如红黑树等会用到三叉链。

typedef int BTDataType;
// 二叉链
struct BinaryTreeNode
{
    struct BinTreeNode* pLeft; // 指向当前节点左孩子
    struct BinTreeNode* pRight; // 指向当前节点右孩子
    BTDataType _data; // 当前节点值域
}
// 三叉链
struct BinaryTreeNode
{
    struct BinTreeNode* pParent; // 指向当前节点的双亲
    struct BinTreeNode* pLeft; // 指向当前节点左孩子
    struct BinTreeNode* pRight; // 指向当前节点右孩子
    BTDataType _data; // 当前节点值域
}；

3. 二叉树的顺序结构及实现

3.1 二叉树的顺序结构

普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储，需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事，一个是数据结构，一个是操作系统中管理内存的一块区域分段。

3.2 堆的概念及结构

堆是每个双亲节点都大于（小于）子节点的特殊完全二叉树。将根节点最大的堆叫做最大堆或大根堆，根节点最小的堆叫做最小堆或小根堆。

堆的性质：

堆中某个节点的值总是不大于或不小于其父节点的值；
堆总是一棵完全二叉树。

3.3 堆的实现

3.3.1 堆的向下调整算法

现在我们给出一个数组，逻辑上看做一颗完全二叉树。我们通过从根节点开始的向下调整算法可以把它调整成一个小（大）堆。向下调整算法有一个前提：左右子树必须是一个小（大）堆，才能调整。

int array[] = {27,15,19,18,28,34,65,49,25,37};

通过上面的观察发现：当我们调整将父子节点互换的时候，假设父亲节点为parent，那么可以看出，其左孩子节点child = parent*2+1，当我们向下调整时，可以通过child++来选择与左右孩子中满足大小条件的替换，而当我们通过孩子找父亲的时候，不难发现parent = (child-1)/2,无论这个孩子是左还是右，由于其是整数，都一定能找到父亲节点。即：

child = parent*2+1 (找到左孩子）
parent = (child-1)/2 (无论是左孩子还是右孩子，运算的值都相同，恰恰证明了只有一个父亲节点）

void AdjustDown(HPDataType* a, int n, int parent)//以建小堆为例
{
	int minChild = parent * 2 + 1;

	while (minChild < n)
	{
		if (minChild + 1 < n && a[minChild] > a[minChild + 1])
		{
			++minChild;
		}

		if (a[minChild] < a[parent])
		{
			Swap(&a[minChild], &a[parent]);
			parent = minChild;
			minChild = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

大根堆与小根堆的创建的代码只需要改变两个符号即可，下面的例子为大根堆。

3.3.2 堆的创建(创建成大根堆)

下面我们给出一个数组，这个数组逻辑上可以看做一颗完全二叉树，但是还不是一个堆，现在我们通过算法，把它构建成一个堆。根节点左右子树不是堆，我们怎么调整呢？这里我们从倒数的第一个节点的父亲节点开始向下调整，一直调整到根节点的树，就可以调整成堆。

int a[] = {1,5,3,8,7,6};

void AdjustDown(HPDataType* a, int n, int parent)//建大堆
{
    int minChild = parent * 2 + 1;

    while (minChild < n)
    {
        if (minChild + 1 < n && a[minChild] < a[minChild + 1])
        {
            ++minChild;
        }

        if (a[minChild] > a[parent])
        {
            Swap(&a[minChild], &a[parent]);
            parent = minChild;
            minChild = parent * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
for (int i = (n - 1 - 1) / 2; i >= 0; --i)
{
    AdjustDown(a, n, i);//从倒数的第一个节点的父亲节点开始向下调整
}

3.3.3 建堆的时间复杂度

当我们采用向下调整算法时，因为堆是完全二叉树，而满二叉树也是完全二叉树，此处为了简化使用满二叉树来证明(时间复杂度本来看的就是近似值，多几个节点不影响最终结果)：

因此：建堆的时间复杂度为O(N)。

此外，还有一一种方法同样可以建堆，即向上调整算法，那为什么建堆过程不主讲向上调整算法呢？

接下来让我们具体探讨一下：

void AdjustUp(HPDataType* a, int child)//建大堆
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

其实可以看出，如果本来就算堆的情况下，新插入一个数据是完全要用向上调整算法的，并且时间复杂度与向下调整算法相同。然而，这是在不考虑建堆的情况下，如果一类数据本来不是堆，需要建堆，按照向上调整的思想，我们需要每次把新的数据一个个的重新从尾到堆顶的向上调整，即：

for (int i = 1; i < n; ++i)
    {
        AdjustUp(a, i);
    }

这样其实固然可以得到一个堆，但是，我们通过对比，AdjustDown的for循环遍历的是n/2次，而Adjustup是n次，虽然都是O(N),然而别忘了，AdjustDown和Adjustup内部还有一个循环，这样比较下来，差的一倍的时间复杂度就会被放大！

只凭说是没用的，接下来推导一下向上建堆的时间复杂度：

不难发现，公式的低项乘的是小的数，高项乘的是大的数，这与向下建堆的公式恰好相反。因此，这样的时间复杂度更大，不推荐向上建堆！

3.3.4 堆的插入

上述提到，向上调整不能用来建堆，但是可以在堆的基础上进行调堆，即如下：

先插入一个10到数组的尾上，再进行向上调整算法，直到满足堆。

3.3.5 堆的删除

删除堆是删除堆顶的数据，将堆顶的数据根最后一个数据一换，然后删除数组最后一个数据，再进行向下调整算法。

事实上，也可以不用交换数值，直接将此数据覆盖掉，将后面的数据都向前挪动一位，最后重新建堆，这样也可以删除掉，但是时间复杂度差的就太多了！

3.3.6 堆的代码实现

Heap.h

#pragma once
#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
#include <stdbool.h>


typedef int HPDataType;
typedef struct Heap
{
	HPDataType* a;
	int size;
	int capacity;
}HP;

void AdjustUp(HPDataType* a, int n);//向上调整算法
void AdjustDown(HPDataType* a, int n, int parent);//向下调整算法

void HeapPrint(HP* php);
void HeapInit(HP* php);
void HeapDestory(HP* php);

void HeapPush(HP* php,HPDataType x);//插入并保持堆的形态

void HeapPop(HP* php);//删除堆顶元素

HPDataType HeapTop(HP* php);//获取堆顶元素

bool HeapEmpty(HP* php);
int HeapSize(HP* php);

Heap.c

#define _CRT_SECURE_NO_WARNINGS 1
#include"Heap.h"

void HeapPrint(HP* php)
{
	for (int i = 0; i < php->size; i++)
	{
		printf("%d ", php->a[i]);
	}
	printf("\n");
}
void HeapInit(HP* php)
{
	assert(php);
	php->a = NULL;
	php->size = php->capacity = 0;
}
void HeapDestory(HP* php)
{
	free(php->a);
	php->a = NULL;
	php->size = php->capacity = 0;
}
void Swap(HPDataType* a, HPDataType* b)
{
	HPDataType tmp = *a;
	*a = *b;
	*b = tmp;
}

void AdjustUp(HPDataType* a, int child)//建大堆
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

//插入x继续保持堆形态 -- logN
void HeapPush(HP* php,HPDataType x)
{
	assert(php);
    //扩容
	if (php->size == php->capacity)
	{
		int newcapacity = php->capacity == 0 ? 4 : 2 * php->capacity;
		HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newcapacity);
		if (tmp == NULL)
		{
			perror("realloc fail");
			exit(-1);
		}
		php->a = tmp;
		php->capacity = newcapacity;
	}
	php->a[php->size] = x;
	php->size++;

	AdjustUp(php->a, php->size - 1);
}

void AdjustDown(HPDataType* a, int n, int parent)//建大堆
{
	int minChild = parent * 2 + 1;

	while (minChild < n)
	{
		if (minChild + 1 < n && a[minChild] < a[minChild + 1])
		{
			++minChild;
		}

		if (a[minChild] > a[parent])
		{
			Swap(&a[minChild], &a[parent]);
			parent = minChild;
			minChild = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void HeapPop(HP* php)
{
	assert(php);
	Swap(&php->a[0], &php->a[php->size - 1]);

	--php->size;

	AdjustDown(php->a, php->size, 0);
}

HPDataType HeapTop(HP* php)
{
	assert(php);
	assert(!HeapEmpty(php));

	return php->a[0];
}

bool HeapEmpty(HP* php)
{
	assert(php);
	return php->size == 0;
}
int HeapSize(HP* php)
{
	assert(php);
	return php->size;
}

3.4 堆的应用

堆排序

堆排序即利用堆的思想来进行排序，总共分为两个步骤：

建堆
- 升序：建大堆
- 降序：建小堆
利用堆删除思想来进行排序

建堆和堆删除中都用到了向下调整，因此掌握了向下调整，就可以完成堆排序。

即当我们排升序的时候，先建大堆，堆顶的数据最大，此时将最后的元素与堆顶元素互换，将结构体中的size–，此时最大的元素就按照我们的想法排在了最后一位，由于堆顶的左子树和右子树都是堆，于是采取向下调整算法，再次复原了堆；接下来继续按照刚才的步骤找到堆顶元素，继续互换，可以看出：堆排序是从后往前依次确定位置的排序。

//堆排序
//时间复杂度：O(N*logN)
void HeapSort(int* a, int n)
{
    //大思路：选择排序，依次选数，从后往前排
    //升序 -- 大堆
    //降序 -- 小堆
    //建堆 -- 向下调整建堆 - O(N)
    for (int i = (n - 1 - 1) / 2; i >= 0; --i)
    {
        AdjustDown(a, n, i);
    }

    //选数
    int i = 1;
    while (i < n)
    {
        Swap(&a[0], &a[n - i]);
        AdjustDown(a, n - i, 0);//此函数代码在上方提到过
        ++i;
    }
}

那么此时小伙伴们可能会产生疑问，为什么一定要建大堆呢？建小堆之后将最小的元素单独拿出来就不行吗？其实当然可以，那么思路将会是这样：建立一个数组每次用来保存堆顶元素，当保存完一个之后，弹出这个堆顶元素，但此时由于弹出元素，我们需要将后续的数据都覆盖到前面，此时会出现父子关系全被打乱，只能重新建堆，对比起来交换之后只需要向下调整的方法，这种方法属实是麻烦至极并且时间复杂度也会成倍上升，因此不推荐也不赞同这种思路。

Top-K问题

TOP-K问题：即求数据结合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大。 比如：专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。对于Top-K问题，能想到的最简单直接的方式就是排序，但是：如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决，基本思路如下：

用数据集合中前k个元素来建堆
- 前k个最大的元素，则建小堆
- 前k个最小的元素，则建大堆
用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素

将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

那为什么要满足这样的规则呢？为什么前k个最大的元素需要建小堆。小堆即代表着堆顶元素是这个堆中最小的元素，并且在这个堆中，每一个子堆都有这样的规则，假设我们需要在非常庞大的数据中挑出10个最大的，我们就需要让这前十个数据建成一个小堆，堆顶永远是这个堆中最小的数，然后将剩余的元素一一遍历，如果遍历到的元素大于这个堆顶的元素，就替换掉这个元素，并进行向下调整，一直这么进行下去，最终得到的就是这个数据中最大的前10个数，并且已经建成了小堆，如果需要排序的话，只需要加上一个排序即可。（前k个最小的元素建大堆的逻辑与其一致）

那么下面来实现一下TopK：

#define _CRT_SECURE_NO_WARNINGS 1
#include<stdio.h>
#include<stdlib.h>
#include<time.h>


void Swap(int* a, int* b)
{
	int tmp = *a;
	*a = *b;
	*b = tmp;
}

void AdjustDown(int* a, int n, int parent)//建小堆
{
	int child = parent * 2 + 1;
	while (child < n)
	{
		if (child + 1 < n && a[child] > a[child + 1])
		{
			child++;
		}
		if (a[parent] > a[child])
		{
			Swap(&a[parent], &a[child]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
void PrintTopK(int* a, int n, int k)//TopK
{
	// 1. 建堆--用a中前k个元素建堆
	for (int i = (k - 2) / 2; i >= 0; --i)
	{
		AdjustDown(a, k, i);
	}


	// 2. 将剩余n-k个元素依次与堆顶元素交换，不满则则替换

	for (int i = k; i < n; i++)
	{
		if (a[i] > a[0])
		{
			Swap(&a[i], &a[0]);
			AdjustDown(a, k, 0);
		}
	}

}

int main()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	srand(time(0));
	for (size_t i = 0; i < n; i++)
	{
		a[i] = rand() % 1000000;
	}
	int k = 10;
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	PrintTopK(a, n, k);
	for (int i = 0; i < k; i++)
	{
		printf("a[%d] = %d\n", i, a[i]);
	}
	
	return 0;
}