堆的实现与堆排序

用户11317877

发布于 2024-10-16 14:20:21

8300

代码可运行

文章被收录于专栏：学习学习

运行总次数：0

代码可运行

一 . 前言

本篇旨在介绍二叉树中特殊结构堆, 以及堆的实现与应用更多文章博客主页: 酷酷学!!! 点击关注一起加油~

二 . 树的概念及结构

1. 树的概念

树是一种非线性的数据结构, 它是由n(n>=0)个有限节点组成一个具有层次关系的集合. 把它叫做树是因为它看起来像一颗倒挂的树, 也就是说它是根朝上, 而叶朝下的.简单来说, 任何一棵树都是由 [根+N棵子树构成(N>=0)]

有一个特殊的结点, 称为根节点, 根节点没有前驱结点
除根结点之外, 其余结点被分为M(M>0)个互不相交的集合T1, T2, … , Tm, 其中每一个集合Ti(1<= i <= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱，可以有0个或多个后继
因此，树是递归定义的。

注意：树形结构中，子树之间不能有交集，否则就不是树形结构

2. 树的相关概念

结点的度: 一个结点含有的子树的个数称为该结点的度；如上图：A的为6 叶结点或终端结点：度为0的结点称为叶结点；如上图：B、C、H、I…等结点为叶结点 非终端结点或分支结点：度不为0的结点；如上图：D、E、F、G…等结点为分支结点 双亲结点或父结点：若一个结点含有子结点，则这个结点称为其子结点的父结点；如上图：A是B的父结点 孩子结点或子结点：一个结点含有的子树的根结点称为该结点的子结点；如上图：B是A的孩子结点 兄弟结点：具有相同父结点的结点互称为兄弟结点；如上图：B、C是兄弟结点 树的度：一棵树中，最大的结点的度称为树的度；如上图：树的度为6 结点的层次：从根开始定义起，根为第1层，根的子结点为第2层，以此类推； 树的高度或深度：树中结点的最大层次；如上图：树的高度为4 堂兄弟结点：双亲在同一层的结点互为堂兄弟；如上图：H、I互为兄弟结点 结点的祖先：从根到该结点所经分支上的所有结点；如上图：A是所有结点的祖先子孙：以某结点为根的子树中任一结点都称为该结点的子孙。如上图：所有结点都是A的子孙森林：由m（m>0）棵互不相交的树的集合称为森林；

注: 标黄的为重点概念

3. 树的表示

树结构相对线性表就比较复杂了，要存储表示起来就比较麻烦了，既然保存值域，也要保存结点和结点之间的关系，实际中树有很多种表示方式如：双亲表示法，孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的左孩子右兄弟表示法。

typedef int DataType;
struct Node
{
 struct Node* firstChild1; // 第一个孩子结点
 struct Node* pNextBrother; // 指向其下一个兄弟结点
 DataType data; // 结点中的数据域
};

无论一个父节点有多少个孩子,child指向左边的第一个孩子, 其余的孩子由第一个孩子的兄弟节点来遍历, 这样每个节点都可以遍历查询到.

例如需要找某一个节点的全部孩子节点, 只需要不断遍历第一个孩子节点的兄弟结点直至为NULL.

4. 树在实际中运用

表示文件系统的目录树结构

三 . 二叉树的概念及结构

1. 概念

一棵二叉树是结点的一个有限集合，该集合:

或者为空
由一个根结点加上两棵别称为左子树和右子树的二叉树组成

从上图可以看出：

二叉树不存在度大于2的结点
二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

注意：对于任意的二叉树都是由以下几种情况复合而成的：

2. 现实中的二叉树

3. 特殊的二叉树

满二叉树：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且结点总数是，则它就是满二叉树。
完全二叉树：完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于深度为K的，有n个结点的二叉树，当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

4. 二叉树的性质

若规定根结点的层数为1，则一棵非空二叉树的第i层上最多有 2^(i-1) 个结点.
若规定根结点的层数为1，则深度为h的二叉树的最大结点数是2^h -1.
对任何一棵二叉树, 如果度为0其叶结点个数为n0 , 度为2的分支结点个数为n2 ,则有n0 ＝n2 ＋1

/*
* 假设二叉树有N个结点
* 从总结点数角度考虑：N = n0 + n1 + n2 ①
* 
* 从边的角度考虑，N个结点的任意二叉树，总共有N-1条边
* 因为二叉树中每个结点都有双亲，根结点没有双亲，每个节点向上与其双亲之间存在一条边
* 因此N个结点的二叉树总共有N-1条边
* 
* 因为度为0的结点没有孩子，故度为0的结点不产生边; 度为1的结点只有一个孩子，故每个度为1的结
点* * 产生一条边; 度为2的结点有2个孩子，故每个度为2的结点产生两条边，所以总边数为：
n1+2*n2 
* 故从边的角度考虑：N-1 = n1 + 2*n2 ②
* 结合① 和 ②得：n0 + n1 + n2 = n1 + 2*n2 - 1
* 即：n0 = n2 + 1
*/

若规定根结点的层数为1，具有n个结点的满二叉树的深度，h= . (ps：是log以2为底，n+1为对数)
对于具有n个结点的完全二叉树，如果按照从上至下从左至右的数组顺序对所有结点从0开始编号，则对于序号为i的结点有： 1.若i>0，i位置结点的双亲序号：(i-1)/2；i=0，i为根结点编号，无双亲结点 2.若2i+1<n，左孩子序号：2i+1，2i+1>=n否则无左孩子 3.若2i+2<n，右孩子序号：2i+2，2i+2>=n否则无右孩子

假设高度为h的树拥有的结点个数为N,也就是一共有 N = 2^h -1 个结点.

5. 二叉树的存储结构

顺序存储

顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储，二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。

2. 链式存储

二叉树的链式存储结构是指，用链表来表示一棵二叉树，即用链来指示元素的逻辑关系。通常的方法是链表中每个结点由三个域组成，数据域和左右指针域，左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址。链式结构又分为二叉链和三叉链，当前我们学习中一般都是二叉链，后面学到高阶数据结构如红黑树等会用到三叉链。

四 . 堆的概念及结构

普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储，需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事，一个是数据结构，一个是操作系统中管理内存的一块区域分段。

1.堆的概念及结构

如果有一个关键码的集合K = { ，，，…， }，把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中，并满足： <= 且 <= ( >= 且 >= ) i = 0，1， 2…，则称为小堆(或大堆)。将根结点最大的堆叫做最大堆或大根堆，根结点最小的堆叫做最小堆或小根堆。

简单来说, 堆首先是完全二叉树, 如果父节点都比子节点大称为大堆, 父节点比子结点小称为小堆.

堆的性质：堆中某个结点的值总是不大于或不小于其父结点的值；堆总是一棵完全二叉树。

五 . 堆的实现过程

根据如上所述, 堆逻辑上是二叉树, 物理上可以使用数组来存储.

1. 堆的定义与接口声明

在头文件中进行堆的定义和接口的声明:

#pragma once
#include<stdio.h>
#include<stdlib.h>
#include<stdbool.h>
#include<assert.h>

typedef int HPDataType;
typedef struct Heap
{
	HPDataType* _a;
	int _size;
	int _capacity;
}Heap;

void HeapInit(Heap* hp);
// 堆的销毁
void HeapDestory(Heap* hp);
// 堆的插入
void HeapPush(Heap* hp, HPDataType x);
// 堆顶数据的删除
void HeapPop(Heap* hp);
// 取堆顶的数据
HPDataType HeapTop(Heap* hp);
// 堆的数据个数
int HeapSize(Heap* hp);
// 堆的判空
int HeapEmpty(Heap* hp);

2. 初始化与销毁

#include"Heap.h"

void HeapInit(Heap* hp)
{
	assert(hp);
	hp->_a = NULL;
	hp->_capacity = hp->_size = 0;
}

void HeapDestory(Heap* hp)
{
	assert(hp);
	free(hp->_a);
	hp->_a = NULL;
	hp->_capacity = hp->_size = 0;
}

这里的方法与顺序表相同, 就不过多赘述

3. 堆中插入数据

这里的插入和顺序表的插入方法是一样的,因为初始化的时候并没有给数组空间容量, 所以再插入的时候需要先开辟空间. 但是和顺序表不同的区别是向堆中插入数据还需要保证插入之后仍然是一个堆, 比如我们需要创建一个小堆.那么我们就需要进行向上调整.

void HeapPush(Heap* hp, HPDataType x)
{
	assert(hp);
	if (hp->_capacity == hp->_size)
	{
		int newcapacity = hp->_capacity == 0 ? 4 : hp->_capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(hp->_a, sizeof(HPDataType) * newcapacity);
		if (tmp == NULL)
		{
			perror("realloc fail");
			return;
		}
		hp->_a = tmp;
		tmp = NULL;
		hp->_capacity = newcapacity;
	}
	hp->_a[hp->_size] = x;
	hp->_size++;

	//向上调整
	AdjustUP(hp->_a,hp->_size-1);
}

比如说这里我们插入了元素10, 插入之后需要和父结点进行比较, 如果小于父结点, 那么就交换位置, 直至对比至根结点

void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType* tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//小堆
void AdjustUP(HPDataType* a, int child)
{
	int parent = (child - 1) / 2;
	//while(parent>=0)这样写代码可以跑,但是有问题
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}

4. 删除堆顶数据

删除堆顶数据 , 不可以直接删除, 这样会破坏堆的结构, 需要保证删除之后还是堆, 所以我们交换第一个数据也就是对顶数据和最后一个数据,然后size–即可, 然后在进行向下调整, 向下调整需要保证子树都是堆才可以进行, 否则无意义.

void HeapPop(Heap* hp)
{
	assert(hp);
	assert(hp->_size > 0);
	Swap(&hp->_a[0], &hp->_a[hp->_size - 1]);
	hp->_size--;
	//向下调整
	Adjustdown(hp->_a,hp->_size,0);
}

向下调整

这里只要下面的孩子比父节点小就交换位置, 直至调整至最后一个孩子结点, 这里一个结点有俩个孩子, 可以采用假设法.

void Adjustdown(HPDataType* a, int n, int parent)
{
	//初始条件
	//假设左孩子小
	int child = parent * 2 + 1;
	while (child < n)
	{
		//如果右孩子比左孩子小,并且存在
		if (child + 1 < n && a[child] > a[child + 1])
		{
			child++;
		}
		if (a[child] < a[parent])
		{
			Swap(&a[child], & a[parent]);
			//进行下一层比较
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

5. 堆顶元素和判空

这里比较简单, 就不多赘述

HPDataType HeapTop(Heap* hp)
{
	assert(hp);
	assert(hp->_size > 0);
	return hp->_a[0];
}

int HeapEmpty(Heap* hp)
{
	assert(hp);
	return hp->_size == 0;
}

测试代码:

void Testheap1()
{
	int a[] = { 3,24,5,6,32,34,1 };
	Heap p;
	HeapInit(&p);
	for (size_t i = 0; i < sizeof(a) / sizeof(int); i++)
	{
		HeapPush(&p, a[i]);
	}
	while (!HeapEmpty(&p))
	{
		printf("%d ", HeapTop(&p));
		HeapPop(&p);
	}
	printf("\n");
	HeapDestory(&p);
}

六 . 堆排序算法

我们知道, 如果是小堆, 那么堆顶数据一定是最小的元素, 我们可以让数据导入到一个堆中, 然后每次获取堆顶数据, 再删除堆顶数据, 这样确实可以进行排序, 但是这样空间复杂度为O(N),每次排序还需要进行堆的创建, 这算是堆排序的一个缩影吧. 其实我们可以不创建堆, 直接将数组变成堆, 首先可以采用向上调整方法, 从数组中的第二个元素开始, 依次进行向上调整, 直至最后一个元素, 那最后不就变成堆了吗, 然后在利用对顶数据最小或者最大进行排序, 但是有个问题, 如果我们想按照降序排序呢, 创建大堆还是小堆呢, 这里我们创建小堆, 为什么呢, 如果创建大堆, 那么第一个元素就是最大数, 那么需要给第二个位置进行排序, 但是如果从第二个再次进行排序的话就破坏了堆的结构, 没法利用堆的性质, 如果在从第二个元素开始到n之间的元素构建堆, 得不偿失, 所以我们创建小堆, 这时对顶的数据为最小的数, 那么我们直接与堆尾元素进行交换, 那么最后一个位置就是最小的数, 只需要让前n-1个元素再排序就行了, 不会破坏堆的结构, 所以再次进行交换,直至排序完毕.

void Heapsort(int* a,int n)
{
	for (int i = 1; i < n; i++)
	{
		AdjustUP(a, i);
	}
	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		end--;
	}
}

当然在我们已经知道了如果降序需要建小堆, 升序建大堆, 但是这里建堆的方法可以再优化一下, 我们采用向下调整建堆, 向下调整, 需要保证子树都是堆, 所以我们先保证最后一个非叶子结点为子树, 也就是最后一个结点的父节点需要为子树, 接着依次向上保证每个子树都为堆, 这样一来, 叶子节点就不需要调整, 而二叉树中, 叶子结点占据所有结点的一半, 那么也就提高了时间效率.

void HeapSort(int* a, int n)
{
	//降序
	//创建小堆
	//向下调整创建,从最有一个非叶子节点
	for (int i = (n-1-1)/2; i>=0; i--)
	{
		Adjustdown(a, n, i);
	}
	//堆创建之后,交换第一个节点与最后一个节点,
	int end = n-1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		Adjustdown(a, end, 0);
		end--;
	}
}