数据结构Stack

lwen

发布于 2018-04-17 16:17:48

6740

发布于 2018-04-17 16:17:48

文章被收录于专栏：Java 源码分析

在很多应用中，我们需要维护多个对象的集合，这种操作非常简单。我们可能想要向集合中加入某个元素，去掉某个元素，以及遍历集合中的元素并对他们执行某种操作，当然还有检查集合是否为空。对于大多数操作来说，目的都很明确关键是当需要去掉一个元素时，去掉哪一个元素呢？处理这类问题有两个经典基础数据结构，栈和队列。

它们的区别就在于去除元素的选择方式。在栈中，我们取出最近加入的元素。插入元素对应的术语是入栈（push）去掉最近加入的元素叫做出栈（pop）。这也叫做后进先出原则 ( LIFO )。在队列中，我们关注最先加入队列的元素为了和栈的操作区分，队列加入元素的操作叫做入队（enqueue）去除元素的操作叫做出队（dequeue）。这也叫做先入先出原则 (FIFO)

如何实现这些操作 ,我们今天隐含的主题是模块式编程。这也将是我们需要特别遵守的原则,这一原则主要思想是将接口与实现完全分离,比如我们精确定义了一些如栈、队列等数据结构的时候和数据类型，我们想要的是实现的细节与客户端的完全分离。客户端可以选择不同的实现但是客户端代码只能执行基本操作另一方面，实现部分无法知道客户端需求的细节它所要做的只是实现这些操作这样，很多客户端能够共用同一个实现这使得我们能够用模块式可复用的算法与数据结构库来构建更复杂的算法和数据结构。在 Java 这门语言中就是使用接口俩统一 API，我们的所有实现必须遵从我们先前的 API。

现在，我们来看实现栈的代码我们要看的第一个实现使用链表。

package Stack;

public class StacksLink {

    private class Node{
        String item;
        Node next;
    }

    private Node first = null;

    public boolean isEmpty(){
        return first == null;
    }

    public void push(String item) {
        Node oldFirst = first;
        first = new Node();
        first.item = item;
        first.next = oldFirst;
    }

    public String pop(){
        Node temp = first;
        first = first.next;
        return temp.item;
    }
}

好，我们来看代码这门课中所有的链式数据结构中我们使用Java中内部类来实现，这只是描述我们要操作的节点对象的一种方法节点对象由一个字符串和指向另一个节点的引用组成。

所以，链表的出栈操作非常容易实现。首先，我们需要返回链表中第一个元素，所以先将它存在变量item中然后，要去掉第一个节点，我们只需要将链表指向第一个元素的指针指向下一个元素然后第一个节点就等着被垃圾回收处理最后，返回保存的元素。

入栈操作呢？我们要在链表头加入新的节点首先，将指向链表头的指针存起来，oldfirst = first 然后创建新节点，这是我们要插入链表头的新节点。first = new Node() 这是个实例变量，它的元素就是我们想要插入链表头的字符串，这个例子中是“not”，它的next指针指向链表oldfirst元素现在成了链表第二个元素。在这个操作之后 first指向链表头处的元素，链表中的元素依照入栈时间降序排列。实现入栈操作只需要四行代码。

这个类中构造函数不做任何操作也就不用写构造函数。内部类用来构成链表中的元素将它写成了内部类，这样我们能够直接访问这些实例变量栈唯一的实例变量是链表中第一个节点的引用。

现在，我们分析实现的性能这样我们就能提供给客户算法数据结构的性能信息。这个例子中，很容易就能看出每个操作最坏情况下只需要常数时间。每个操作没有循环，这显然是我们很想要的特性。那么空间需求呢？这和机器具体实现有关。这是个典型Java实现，每个对象会有16字节的额外空间，因为有内部类，所以还有8字节的额外空间在类Node中有两个引用一个指向字符串，另一个指向Node类各需要8字节，每个栈节点需要40字节，如果栈大小为N 需要大约40N字节。

另一种实现栈的自然的方式是使用数组来储存栈上的元素。

package Stack;

public class StackArray {
    private int top;
    private int[] arr;

    public StackArray(int size) {
        arr = new int[size];
    }

    public boolean isEmpty() {
        return top == 0;
    }

    public void push(int num) {
        arr[top++] = num;
    }

    public int pop(){
        return arr[--top];
    }
}

使用数组我们将栈中N个元素保存在数组中，索引为N的数组位置对应栈顶的位置，即下一个元素加入的地方。好，要入栈我们只需要将心元素加入s[N]，要出栈则移除s[N-1]处的元素并将N减1。那么能看到使用数组一个根本性的缺点必须事先声明数组的大小。将元素入栈，我们将元素放在N索引的位置并将N增加1。这是现在很多编程语言表示使用索引N 并增加1的简洁表示。将元素出栈，我们将索引N减1并用它返回数组中的元素。每个操作都只需要一行代码。有一个问题客户端是否能向数据结构中插入空元素。这种情况中，我们确实允许客户端插入空元素，但在Java中我们需要操心一个问题叫做对象游离（loitering）,即在栈的数组实现中有对象的引用，而我们并没有真正使用它所以当减小N时，在数组中仍然有我们已经出栈的对象的指针。尽管我们知道我们不再使用它了，但是Java系统不知道。所以为了避免这个问题，最有效地使用内存最好将去除的元素对应的项设为null，这样就不会剩下旧元素的引用。因为不存在引用了接下来垃圾回收器会收回那些内存。这个问题比较细节，但是很重要我们必须在实现中要确保充分利用内存。

那么，栈的基本数组实现具有需要客户端事先提供栈的最大容量的缺点。我们没有严格按照API的要求。API就是要求我们能够建立一个栈并且能够增长或者缩小到任意大小。首先会想到的也许是当客户端入栈新元素时将栈的大小增加1，当出栈时将栈的大小减小1。代码实现不难，但是不值得这么做，因为这么做开销太大了。因为你必须创建大小大一个元素的新的数组，然后把所有的元素复制到新的数组中。所以如果栈大小为N-1 插入N个元素需要的时间和N成正比如果栈大小为N-2，需要正比于N-1的时间。所以前N个元素需要的时间就是对前N个整数求和，我们知道这大约是N^2 / 2。往栈里插入N个元素需要平方时间，我们已经看到过很多次，这样的性能对于巨大的问题是不可接受的。

那么，调整大小是个挑战但要通过某种方式确保它并不会经常发生。处理这个问题有个著名的方法叫反复倍增，当数组填满时建立一个大小翻倍的新数组，然后将所有元素复制过去，我们就不会那么频繁地创建新数组。这就是那个方法的实现。从大小为1的数组开始。如果我们检测到N即栈中元素的个数与数组长度相等，则栈满了，那么我们就在插入元素之前将数组长度调整为两倍。我们如何调整为更大的数组呢？我们创建具有目标容量的新的数组，然后把当前栈复制到新数组的前一半，然后返回重新设置实例变量，我们的栈就有了更大的数组这样做导致如果你向一个具有这种数组表示的栈中插入N个元素，时间复杂度与N而不是N^2成正比。因为你只有在数组大小翻倍时才创建新的数组。而当数组翻倍时，你已经往栈里插入了那么多的元素。所以平均下来就像每次插入只需要一个操作所以，如果我们计算一下开销，插入前N个元素你不需要花费从1到N之和的时间，而是对二的幂从1到N求和这样，总的开销大约是3N。所以，push 时先要访问数组一次，对于复制要访问两次。所以，要插入元素，大约需要访问数组三次这个图标是观察时间开销的另一种方式，表示出了实现入栈操作需要访问数组的次数。每次遇到2的幂，需要进行那么多次数组访问，但是从宏观上来看你是将那些元素放在栈上花去了那么多时间这叫做平摊分析。考虑开销时将总的开销平均给所有的操作。

这是一个很好而且有用的平摊分析的例子，我们分析出了栈实现的效率出栈呢？我们需要考虑如何缩小数组我们也许这么考虑，当数组满了的时候将容量翻倍，那么当它只有一半满的时候，将容量缩减一半。我们不想这样做，这个办法并不如我们所愿解决问题。因为有一种现象叫做抖动（thrashing）。如果客户端刚好反复交替入栈出栈入栈出栈当数组满了就会反复翻倍减半翻倍减半，并且每个操作都会新建数组，都要花掉正比与N的时间这样就会导致平方时间，我们不想这样有效的解决方案是直到数组变为1/4满的时候才将容量减半实现起来也很容易，我们只要测试数组是否为 1/4满，如果是，则调整大小使其为半满。

这是两种 API相同的不同的实现，客户端可以互换使用。哪个更好呢？很多情形中，我们会有同一API的多种实现你需要根据客户端的性质选择合适的实现。对于链表，每个操作最坏情况下需要常数时间，这是有保障的。但是为了处理链接我们需要一些额外的时间和空间。所以链表实现会慢一些可调大小的数组实现有很好的分摊时间，所以整个过程总的平均效率不错，浪费更少的空间，对于每个操作也许有更快的实现，所以对于一些客户端，也许会有区别以下这样的情形你不会想用可调大小数组实现你有一架飞机进场等待降落你不想系统突然间不能高效运转或者互联网上的一个路由器，数据包以很高的速度涌进来你不想因为某个操作突然变得很慢而丢失一些数据。客户端就可以权衡，如果想要获得保证每个操作能够很快完成，就使用链表实现，如果不需要，只是关心总的时间可能就是用可调大小数组实现，因为总的时间会小得多，单个操作非常快。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018-03-02，如有侵权请联系 cloudcommunity@tencent.com 删除

数据结构