无人机遥感深度学习研究综述

遥感大数据学习

发布于 2022-09-20 16:36:04

1.1K0

发布于 2022-09-20 16:36:04

文章被收录于专栏：GEE遥感大数据学习社区

无人机遥感

深度学习研究综述

引用方式

Osco, L. P., Junior, J, M., Marques Ramos, A, P., de Castro Jorge, L, A., Fatholahi, S. N., Waterloo, O. C., de Andrade Silva, J., Matsubara, E. T., Gonçalves, W. N., Li, J. (2021) A Review on Deep Learning in UAV Remote Sensing. https://arxiv.org/abs/2101.10861

内容简介

深度神经网络（Deep Neural Networks，DNNs）以惊人的能力从数据中学习表示，在处理图像、时间序列、自然语言、音频、视频等方面取得了重大突破。在遥感领域，已经进行了专门涉及DNNs算法应用的调查和文献修订，试图总结其子领域产生的信息量。近年来，基于无人机的应用已成为航空遥感研究的主流。然而，结合“深度学习”和“无人机遥感”主题的文献综述还没有。作者基于无人机图像应用研究中的深度学习方法的基础知识和算法进行了全面调研。文章要集中在描述分类和回归技术在最近的应用与无人机获得的数据。为此，共对232篇发表在国际科学期刊数据库中的论文进行了研究。我们收集了已发表的材料，并评估了它们在应用、传感器和所用技术方面的特点。我们叙述了DL如何呈现出有希望的结果，并具有处理基于无人机的图像数据相关任务的潜力。最后，我们预测了未来的前景，并对无人机遥感领域中有待探索的重要DL路径进行了评论。我们的修订版包括一个友好的方法，介绍、评论和总结基于无人机的图像应用的最新技术，在不同的遥感子领域使用DNNs算法，将其分组在环境、城市和农业环境中。

本文亮点

①结合“深度学习”和“ UAV遥感”主题文献综述

②对当前公开的UAV数据集进行了整合

1 引言

对于使用遥感图像数据进行的调查，多个处理任务取决于计算机视觉算法。在过去的十年中，使用统计和机器学习（ML）算法进行的应用程序主要用于分类/回归任务。遥感系统的增加允许从地球表面上的任何目标收集大量数据。随着无人机航空器（UAV）的出现，空中成像已成为获取数据的常用方法。这些也被称为遥控飞机（RPA），或者通称无人机（多旋翼，固定翼，混合动力等）。这些设备以其相对较低的成本和较高的操作能力来快速，轻松地捕获图像，因此在市场上的占有率不断增长。基于无人机的图像具有高空间分辨率，并且具有多次访问的能力，因此可以处理大量详细的数据集。

与轨道和其他空中感测方法相比，使用无人机平台进行的表面制图具有一些优势。较少的大气干扰，可能在较低的高度内飞行，并且主要是较低的运行成本，使得该采集系统在商业和科学勘探中均很受欢迎。但是，对多个对象进行目视检查仍然是费时，有偏见且不准确的操作。当前，遥感方法的真正挑战是从此类数据中获取自动，快速和准确的信息。近年来，深度学习（DL）技术的出现提供了强大而智能的方法来改善地球表面的映射。

DL是一种具有多个隐藏层和更深层组合的人工神经网络（ANN）方法，与普通的ANN相比，它负责优化和返回更好的学习模式。在科学期刊中，有大量的修订材料，它们解释了基于DL的技术，其历史沿革，一般用法以及详细的网络和功能。但是，这些不是本文的主要关注点，在解释其应用范围之初，我们仅简要解释必要的信息以帮助读者熟悉该主题。对于那些对深入方法感兴趣的人，我们推荐Lecun的论文(Lecunet al.，2015)和Goodfellow的书(Goodfellowet al.，2016)。

近年来，随着计算机处理和带有标签的示例（即样本）的使用越来越广泛，深度神经网络（DNN）的性能在图像处理应用程序中得到了提高。 DNN已成功应用于数据驱动方法中。但是，要真正了解其潜力及其局限性，需要涉及很多内容。在这方面，已在一般和特定情况下开展了几项关于DL在遥感中的应用的调查，以更好地说明其重要性。

提出遥感文献调查的背景各不相同。张等(Zhang et al.，2016)组织了一个修订材料，解释了当时如何将DL方法应用于图像分类任务。后来，Cheng等(Cheng and Han，2016)研究了光学图像中的目标检测，但更多地侧重于传统的ANN和ML。 Ball等人提出了更完整和系统的评论。 (Ballet al.，2017)在一项描述DL理论，工具及其在处理遥感数据中的挑战的调查中。这项工作应作为首次读者对该主题的介绍性方法。程等(Cheng et al.，2017)对图像分类进行了修订，并在实验中得到了实例。另外，Zhu等人着重于分类(Zhu et al.,2017)总结了当前的大多数信息，以了解用于此任务的DL方法。

然而，在文献修订主题中，Li等人进行了一项调查(Li et al.,2018)帮助了解了一些有关DNN在图像分类任务公开数据集中的整体性能的DL应用。姚等(Yao et al.,2018)在他们的调查中指出，DL将成为遥感社区中图像分类的主要方法。尽管DL确实提供了令人鼓舞的结果，但仍需要进行许多观察和检查。有趣的是，此时，正在使用高光谱数据进行多种遥感应用，这已成为文献修订的主题。在彼得森（Petersson）等人中(Petersson et al.,2017)，可能是对高光谱数据进行的第一批调查之一。 Audebert等人的比较评论(Audebert et al.,2019)是通过研究各种网络体系结构进行的，同时提供了一个工具箱来执行可公开获得的此类方法。在这方面，Paoletti等人撰写的另一篇论文(Paoletti et al.,2019)整理了DNN的源代码，使其易于复制。类似于(Cheng et al.,2017; Li et al.,2019)进行了文献修订，同时介绍了使用DNN方法进行的实验分析。

最近，文献修订集中在该主题内的更多特定方法上。如Tsagkatakis等人所论证的那样，其中一些方法包括用于增强遥感观测的DL方法，如超分辨率，降噪，恢复，全锐化和图像融合技术(sagkatakis et al.,2019)。此外，Maetal(Maetal.,2019)最近进行了一项荟萃分析，涉及遥感七个领域的DL算法的使用：图像融合和图像配准，场景分类，对象检测，土地利用和土地覆盖分类，语义分割以及基于对象的图像分析（OBIA）。尽管从最近的这些评论中，可以验证使用DL的各种遥感应用，但应注意的是，作者并没有将关注点集中在应用于UAV图像集的DL算法的背景下进行专门的勘测。在撰写本文之时，已经引起了遥感调查的关注。

图1：与“远程感测”和“深度学习”主题相关的不同文献修订论文的词云

Hossainetal的一项调查中，基于DL的方法的另一个有趣观点与图像分割有关(Hossain and Chen,2019)，其主题由Yuan等人扩展(Yuan et al.,2021)，并包括了最新的算法。 Zheng等的总结分析(Zheng et al.,2020)专注于采用对象检测方法的遥感图像，指出了与少量标记样本的检测，多尺度问题，网络结构问题和跨域检测困难相关的挑战。在更多的“利基”类型的研究中，Yuan等在文献修订文件中对环境应用和土地表面变化检测进行了研究(Yuan et al.,2020; Khelifi and Mignotte, 2020)。

利用文本处理方法对上述研究进行了评估，该方法返回了一个词云，其中词的大小表示这些论文中该词的频率（图1）。关于这个世界云的一个有趣观察是，“ UAV”一词根本没有出现或根本没有出现。由于每天都会大量生产无人机图像数据，因此这种修订差距是个问题，而且没有科学的调查似乎提供了全面的文献修订以协助对此事进行新的研究。在无人机环境中，有一些修订论文在遥感界的重要科学期刊上发表。最近，修订调查(Bithas et al.,2019)专注于将ML方法应用于无人机图像处理的含义，但针对此特定问题，尚未对DL算法进行任何研究。这是一个重要的主题，尤其是由于UAV平台更容易为公众使用，并且基于DL的方法已经过测试，可以在高度详细的图像中提供准确的映射。

如前所述，无人机是根据用户需求进行编程的，因此在数据收集方面具有灵活性。与提供类似空间分辨率图像的其他平台相比，成本低廉；在数据收集中产生高层次的细节；由于可以在其上嵌入RGB，多光谱，高光谱，热和LiDAR传感器，因此具有动态数据特征；并能够从困难的地方收集数据。除此之外，已知嵌入在无人机中的传感器会在不同的高度和视点生成数据。众所周知，这些特性与其他特性相比，可产生比普通传感系统更高的动态范围图像。这确保了从不同角度观看同一物体，不仅影响了它们的空间和光谱信息，而且还影响了形状，纹理，图案，几何形状，照明等。这对多域检测成为一个挑战。因此，研究表明，DL是解决这些缺点的最主要解决方案。这些研究（本修订文件中介绍最多的研究）是根据一系列数据标准进行的，并评估了DL架构在对无人机场景中的各种对象进行分类，检测和分割方面的能力。

就我们所知，与“深度学习”和“ UAV遥感”主题相结合的评论文章之间存在文献空白。这项调查对于总结DL在遥感界的应用方向非常重要，特别是与无人机图像有关的方向。本研究的目的是简要概述DL方法及其在解决遥感领域中的分类，对象检测和语义分割问题方面的应用。在这里，我们讨论DL体系结构的基础知识，包括最近的建议。无意总结所有现有文献，而是提出对DL模型的研究，同时提供必要的信息以了解它所遇到的最新技术。我们进行的修订着重强调了基于无人机的图像数据的特性，其应用，传感器类型以及遥感领域最新方法中使用的技术。此外，我们关联了DL模型如何呈现出可喜的成果以及如何预测将要探索的重要路径的未来前景。简而言之，本文带来了以下贡献：

1.介绍DL模型背后的基本思想，包括分类，对象检测和语义分割方法；以及这些概念在参加基于无人机图像的制图任务中的应用；

2.审查科学来源中有关传感器类型和应用的已出版材料，这些材料按环境，城市和农业制图环境分类；

3.利用从无人机获得的数据，对先前研究的公开可用数据集进行组织，

还标记了对象检测和分割任务；

4.描述了将基于DL的方法与基于UAV的图像数据一起使用所面临的挑战和未来前景。

2 深度神经网络概述

DNN基于神经网络，神经网络由具有特定激活功能的神经元（或单元）组成，这些神经元将输入数据（例如无人机遥感图像）转换为输出（例如土地利用和土地覆盖图），同时逐步学习更高层次的特征(Ma et al.,2019; Schmidhuber,2015)。这种渐进特征学习除其他外，发生在输入和输出之间的层上，这些层称为隐藏层(Ma et al.,2019)。DNN被认为是一种DL方法，其最传统的形式（即，有2个或更多隐藏层）。他们的概念，基于一个以生物神经元连接为模型的艺术智能（AI）自20世纪50年代以来就存在。但直到后来，随着计算机硬件的进步和大量标记示例的可用性，其兴趣在主要科学领域重新兴起。在遥感领域，自20世纪中叶以来，DL算法的兴趣一直受到关注，特别是因为这些算法在数字图像处理任务中取得了显著成功(Ma et al.,2019;Khan et al.,2020)。

DNN的工作原理与ANN类似，在某种意义上，当作为一个有监督的算法时，它使用给定数量的输入特征进行训练，并且这些特征通过多次操作进行组合，最后一层用于返回所需的预测。尽管如此，这种解释并不能突出传统ann和dnn之间的区别。LeCun 等人(LeCun et al.,2015)是DL文献中引用最多的文章之一，该论文对DNN的定义如下：“深度学习方法是具有多层次表征的表征学习方法”。表征学习是动态学习的一个重要概念。它允许DL算法输入原始数据，通常是图像、文本和视频等非结构化数据，以自动发现表示。

OSTPonDNN（图2）通常为YCOMPASEDOFDENSELAYES，其中灭活功能被定义为。激活函数计算输入和偏差的加权和，用于确定神经元是否可以激活(Nwankpa et al.,2018)。这些功能构成了决策函数，有助于学习内在模式(Khan et al.,2020)；即，它们是每个神经元如何从与其他神经元的相互作用中学习的主要方面之一。常用的激活函数包括线性、乙状体、塔恩、最大输出、矩形线性单元（ReLu）和ReLu的变体，包括泄漏ReLu、指数线性单元（ELU）和参数化矩形单元（PReLU）(Khan et al.,2020)。作为分段线性函数类型，重新定义X的所有负值的0 valor。在编写时，此函数是当前DNNs模型中最受欢迎的函数。有一些原因，因为与其他函数相比，该函数计算成本不高，因此处理消失梯度问题(Nwankpa et al.,2018)，导致数据表示更加稀疏，如最近文献(Naitzat等人，2020)所述，具有更改数据拓扑的能力。不管怎样，最近探索的另一个潜在激活函数是Mish，一种自正则化的非单调激活函数，它正在返回有趣的结果(Khan et al.,2020)，因为目前正在进行更多的调查。

图2:DNN架构。这是一个如何构建DNN的简单示例。这里的初始层（Xinput）由收集的数据样本组成。之后，这些数据信息可以被隐藏层以反向传播的方式提取出来，然后被后续的隐藏层用来学习这些特征的特征。最后，通过返回预测结果（Ylabel），使用与给定问题（例如分类相关）相关的激活函数的另一层。

除了激活函数外，关于DNN如何工作的另一个重要信息与它的层有关，例如丢失、批量标准化、卷积、反卷积、最大池、编码-解码、存储单元等。现在，我们将重点讨论dropout和批处理规范化层，剩下的将进一步提到。退出层对于在网络中引入正则化非常重要，因为它随机选择以给定的概率“放弃”连接和单元。这不仅有助于通过消除共适应连接的存在来减少过度匹配，而且有助于提高其通用性，并有助于优化和更快的学习速度(Khan et al.,2020; Hinton et al.,2012)。批量归一化层作为一个调节因子，平滑了损失梯度的流动，这也提高了泛化能力。该层通常用于解决特征图中协方差变化的问题(Khan et al.,2020)。组成这些层和其他层的组织及其参数是体系结构的主要方面之一。

当编译一个模型需要进一步培训时，还需要一些基本信息。其中一个优化程序将用于计算学习率。最常用的方法有Adam、动量算法、随机梯度下降（SGD）、和均方根传递（RMSprop）。有几种优化方法，根据模型及其目标的正确选择有助于优化精度。SGD是最简单的方法，通过每一步计算一个例子，神经元收敛并向最优代价函数转移。动量试图通过添加一个时间概念来解决陷入局部极小的问题。RMSprop是一种基于梯度的优化技术，结合动量和另一种称为自适应梯度算法（AdaGrad）的算法，实现梯度的指数衰减平均。例如，亚当现在是最常被使用的一种行为，它的流行是由于对时机的适应能力和学习速度。在本主题中，更详细的讨论在(Ruder，2017)和(Khan et al.,2020)中提出。优化器是DL网络的一个重要方面，与正确的损失函数相结合，可以影响其准确性。

在优化环境中，定义用于评估模型的函数称为损失函数（也称为目标函数或成本函数）。此函数表示模型以单个标量值表示训练数据的能力。通过这种简化，学习问题现在与找到调整模型参数以最小化损失函数的方法有关。这允许对可能的解决方案进行排序，然后在神经元相互作用之间进行比较(Goodfello et al.,2016)。根据数学概率计算损失函数。该指标与问题本身的性质有关，即网络是否处理分类或回归问题。为了解决分类问题（也称为概率损失），可以使用交叉熵（二进制、类别和类别稀疏）、泊松、Kullback-Leibler（KL）散度等函数。对于回归相关问题，通常实现基于均方误差（MSE）、平均绝对误差（MAE）、平均绝对百分比误差（MAPE）、均方对数误差（MSLE）等的损失。关于功能丧失的详细内容可参见(Goodfello et al.,2016)的资料。

为了评估DNN的绩效，采用了不同的指标(Minaee et al.,2020a)，因为专家通常依赖于上述相同的部门。对于分类而言，尽管准确度（或召回率；或灵敏度）是一个常用参数，但比较精度、F-度量（或F-得分）、接收器工作特征（ROC）曲线下面积和联合交叉（IoU）等指标也可用于判断网络性能。另一个使用的指标是Kappa系数，但应避免使用，正如最近在遥感领域的出版物中所解释的那样(Foody,2020)。对于回归相关问题，还使用了MSE、MAE、平均相对误差（MRE）、均方根误差（RMSE）和相关系数（r）等指标。这些度量对于建立预测和标记示例（或某些情况下的基本事实）之间的关系非常重要，并且在将一个模型与另一个模型进行比较时是必要的(Minaee et al.,2020a)。虽然回归在遥感数据分析中不如分类常见，但我们将在后面的章节中讨论在这两种情况下实现的基于无人机的应用（分类和回归问题）。

近年来，通过实现不同的层、优化器、损失函数、深度级别et al.，提出了多种类型的体系结构来改进和优化DNNs。然而，众所周知，DNNs今天流行的主要原因之一还与从中学习的大量可用数据有关。数据科学家们设想的一条经验法则表明，建议每个类别至少有5000个标记示例(Goodfello et al.,2016)。但是，到今天为止，DNNs的许多建议都集中在提高这些网络预测特征的能力上，而实例却比这少。一些特定的应用程序可能会从中受益，因为它减少了通过人工检查采集样本所需的劳动量。即便如此，应该注意的是，尽管这一追求正在进行，视觉计算机社区进行了多次尝试，新的研究包括数据增强、自我监督和无监督学习策略等方法。关于这种方式的详细讨论见(Khan et al.，2020)，但我们在修订结束时简要讨论了一些。

2.1

卷积和递归神经网络

DNN可以由不同的体系结构组成，模型的复杂性与每个层和附加计算方法的实现方式有关。有规律地提出了不同的DL架构，卷积神经网络（CNN）、递归神经网络（RNN）和深度信念网络（DBN）(Ball et al., 2017)，以及最近的生成性对抗网络（GAN）(Goodfello et al., 2016)。然而，监督网络类别中最常见的DNN通常分类为CNN和RNN(Khan et al., 2020)。

对于图像处理和目标识别任务，目前的研究主要集中在CNNs体系结构上。CNNs在计算机视觉领域是众所周知的，但到目前为止还没有受到足够的重视。尽管研究设想CNN架构将提供对图像进行分类的高潜力，但只有在2012年Krizhevsky等人(Krizhevsky et al., 2012)展示了一种以巨大优势赢得图像分类竞争的方法时，其他人才对CNN进行图像处理感兴趣。这个网络被称为AlexNet，它由8层组成，其中5个初始层都是卷积的，有的是最大池层，最后是3个完全连接的层；它们都使用了ReLu激活函数(Khan et al., 2020)。这种方法的成功，现在被认为是一个简单的DL网络，与它的深度有关。

CNN（图3）是一种架构类型，主要由三种不同的层次结构组成，例如卷积层、池层和完全连接层(Ma et al., 2019)，并且具有大量参数，如权重、偏差、层和神经元的数量、滤波器大小、步幅、激活函数、学习速率，等(Khan et al., 2020年)。在每一层，输入图像与一组核（即过滤器）和附加偏差进行卷积，生成特征图(Ma et al., 2019)。卷积运算考虑了输入像素的邻域，因此可以根据滤波器大小探索不同的相关级别(Khan et al., 2020)。CNNs最初设计用于处理多阵列形式的数据，这种特性特别适合于处理多波段遥感图像，因为像素是规则排列的。因此，该体系结构被认为是当今最流行的DNN模型之一(Ma et al., 2019)，其成功已在多个基于无人机的图像应用中得到证明。

作为一种不同的DL网络结构，RNNs是另一种监督学习模型。尽管RNN在其他计算机视觉任务中已经使用了一段时间，但直到后来才被提议用于遥感数据。RNN模型最初用于处理离散序列分析(M et al., 2019)。实现RNN的主要思想是提高他们在给定现象或对象的重复观察中的学习能力，这些现象或对象通常与时间序列集合有关。目前在多个任务中实现的一种RNN是长短时记忆（LSTM）。LSTMs是时间序列相关预测的一个有趣的选择，因为它们解决了原始RNNs中产生的消失梯度问题。为此，他们使用额外的添加剂成分，使梯度更有效地流过网络(Hochreiter和Schmidhuber，1997)。LSTM单元通常由单元、输入、输出和遗忘门组成。当细胞“记忆”来自任意时间间隔的值时，这三个门控制着进出细胞的信息流

图3:CNN类型的结构，具有卷积和反卷积层。该示例架构由卷积层形成，其中在每个conv层之间添加一个丢弃层，并且每次卷积窗口大小减小时采用最大池层。最后，使用与上一次卷积相同大小的反褶积层，利用上一步的信息重建原始大小的图像。最后一层是softmax，它返回模型的预测。

在遥感领域，RNN模型已被应用于处理时间序列任务分析，旨在绘制土地覆盖图(Ienco et al.，2017，Ho Tong Minh et al.，2018)。对于基于像素的时间序列分析，旨在使用SAR Sentinel-1区分冬季植被覆盖的类别(Ho Tong Minh et al.，2018)，已验证RNN模型优于经典ML方法。最近的一种方法(Feng et al.，2020)用于精确植被制图，结合多尺度CNN从UAV-RGB图像中提取空间特征，然后输入基于注意的RNN以建立多时间特征之间的顺序依赖关系。利用聚集的时空特征对蔬菜种类进行预测。这些遥感数据的例子说明了使用RNN的潜力。另外，一种突出的架构类型是CNN-LSTM方法（图4）。该网络使用卷积层从给定的输入图像中提取重要特征，并将其反馈给LSTM。虽然很少有研究实现这种类型的网络，但应该注意的是，它有特定的用途，例如，它的使用对于多时应用是有价值的。

如上所述，除了CNNs和RNNs之外，其他类型的神经网络目前也被提出来处理图像类型的数据。GANs是最具创新性的无监督DL模型之一。GANs由两个网络组成：生成网络和区别网络，它们相互竞争。生成网络负责从感兴趣的特定数据分布（如图像）中提取特征，而判别网络区分真实（参考或地面真实数据）和GANs生成部分生成的那些数据（假数据）(Goodfello et al.，2014，Ma et al.，2019)。近年来，遥感图像分类(Lin et al.，2017a)和图像到图像转换问题解决方案(Isola et al.，2018)等图像处理领域的方法采用了GANs作为DL模型，取得了成功的结果。

图4：基于CNN-LSTM结构类型的神经网络示例。输入图像采用卷积层处理，最大池层用于将信息引入LSTM。每个存储单元都用上一个单元的权重进行更新。在该处理之后，例如，可以使用平坦层来转换密集（完全连接）层读取的排列中的数据，从而返回分类预测。

简言之，在科学和/或图像竞争平台上，不断开发若干DNN，以超越现有方法。然而，随着时间的推移，这些神经网络中的一些经常被提及、记住，甚至被新的方法改进。图5给出了近年来构建的众所周知的DL方法的概要。关于这一点，我们建议任何感兴趣的人都可以在Khan等人(Khan et al., 2020)中找到详细的了解。除了这些和其他方法的创造和发展，研究人员还观察到，更高的深度、通道探索，以及最近提出的基于注意的特征提取神经网络，被认为是DL的一些最突出的方法。

最初，大多数被提出的有监督的DNN，如CNN和RNN，或CNN-LSTM模型，都是用来执行和处理特定问题的。通常，这些方法可以分为分类任务，如场景分类、目标检测、语义和实例分割（像素级）以及回归任务。在这里，我们的目标是全面恢复它们，如下面的小节所示。下面简要介绍这些方法是如何在图像相关任务中使用的，以及它如何能够克服以前的方法所面临的一些挑战。

2.2 分类和回归方法

在研究基于DL算法的遥感数据处理时，可以重点考虑以下任务：场景分类、语义和实例分割以及目标检测。场景分类涉及为每个图像（或面片）指定一个类标签，而目标检测任务的目标是围绕图像（或面片）中的对象绘制边界框，并根据类标签为每个对象添加标签。目标检测是一项更具挑战性的任务，因为它需要在图像中定位目标，然后进行分类。检测图像中的对象的另一种方式，而不是绘制边界框，是围绕对象的边界绘制区域或结构，即在像素级区分对象的类别。这个任务称为语义分割。然而，在语义分割中，不可能区分同一类别的多个对象，因为每个像素接收一个类别标签(Wu et al., 2020a)。为了克服这一缺陷，提出了一种结合语义分割和目标检测的任务实例分割，用于检测像素级掩模中的多个目标，并将每个掩模标记为一个类标签(Sharma和Mir，2020)。图5:DL时间序列表示在图像分类（黄色）、目标检测（绿色）和分割（蓝色）中实现的一些流行架构。这些网络经常交织在一起，人们已经为它们提出了许多适应方案。尽管看起来大多数DL方法都是在2015-2017年度期间开发的，但值得注意的是，一些新的深度网络将大多数已经开发的方法用作主干，或与其他类型的架构配套使用，主要用作更复杂结构的特征提取部分。为了产生深度回归方法，需要对模型进行调整，以便将体系结构的最后一个完全连接的层更改为处理回归问题，而不是普通的分类问题。与分类任务不同，通过这种自适应，可以估计连续值。与分类相比，使用DL的回归任务并不常用；然而，最近的出版物显示了它在遥感应用方面的潜力。一种方法（Lathuilière et al.,2020)对深度回归方法进行了综合分析，并指出众所周知的微调网络，如VGG-16(Simonyan and Zisserman,2015) 和ResNet-50(He et al.,2016)，可以提供有趣的结果。然而，这些方法通常是为特定的应用而开发的，这是通用解决方案的一个缺点。另一个重要点是，根据应用程序的不同，深度回归并不总是成功的。一种策略是将输出空间离散化，并将其作为分类解。对于无人机遥感应用，一般采用使用知名网络的策略。不仅是VGG-16和ResNet-50，正如(Lathuilière et al., 2020)所调查的，但也使用了其他网络，包括AlexNet (Krizhevsky et al., 2012)和VGG-11。在未来的研究中，一个重要的问题是优化器，这取决于应用程序。具有自适应学习速率的算法，如AdaGrad、RMSProp、AdaDelta（AdaGrad的一个扩展）和Adam是常用的。

图5:DL时间序列表示在图像分类（黄色）、目标检测（绿色）和分割（蓝色）中实现的一些流行架构。这些网络经常交织在一起，人们已经为它们提出了许多适应方案。尽管看起来大多数DL方法都是在2015-2017年度期间开发的，但值得注意的是，一些新的深度网络将大多数已经开发的方法用作主干，或与其他类型的架构配套使用，主要用作更复杂结构的特征提取部分。

2.2.1 场景分类、目标检测和分割

场景分类或场景识别是指基于大量图像，例如在农业场景、海滩场景、城市场景和其他场景中，为一个图像（或面片）关联标签/主题的方法(Zou et al.，2015，Ma et al.，2019)。基本的DNNs方法是为这个任务而开发的，它们是传统图像识别任务中最常见的网络之一。在遥感应用中，通常不采用场景分类。相反，大多数应用程序从对象检测和像素语义分割方法中受益更多。对于场景分类，该方法只需要对图像的类标签进行标注，而其他任务如目标检测方法则需要为图像中的所有对象绘制一个边界框，这使得构建标记数据集的成本更高。例如，语义分割，专家（即执行注释或对象标记的人员）需要绘制一个涉及对象每个像素的遮罩，这在注释任务中需要更多的关注和精确性，甚至减少了数据集的可用性。图6示出了两种注释方法（对象检测和实例分割）的示例。

目标检测方法可以分为两大类：一级检测器（或基于回归的方法）和二级检测器（或基于区域建议的方法）(Zhao et al.，2019，Liu et al.，2019，Wu et al.，2020a)。通常的两阶段目标检测流水线是在特征地图上生成区域建议（候选矩形边界框）。然后，它将每个对象分类为一个对象类标签，并使用边界框回归细化建议。文献中广泛使用的生成建议的策略是使用区域建议网络（RPN）的更快RCNN算法提出的(Zhao et al., 2019)。此类算法的其他最新代表是级联RCNN(Cai和Vasconcelos，2018)、Trident网络(Li et al., 2019)、网格RCNN(Lu et al., 2019)、动态RCNN(Zhang et al., 2020a)、检测器(Qiao et al., 2020)。对于单级检测器，直接进行分类，不需要区域分类步骤就可以检测出目标的位置。这种减少的分量对模型的检测速度很高，但往往会降低结果的准确性。这些被称为无区域检测器，因为它们通常使用单元网格策略来分割图像并预测每个图像的类标签。除此之外，有些探测器可用于单级和两级两种类型。

基于目标检测的方法可以分为三个部分：1）主干，负责从图像中提取语义特征；b）颈部是脊骨和头部组件之间的中间组件，用于丰富脊骨获得的特征；c）头部组件，执行边界框的检测和分类。

主干是一个CNN，它接收图像作为输入，并输出一个用语义特征描述图像的特征映射。在DL文献中，最先进的技术由以下骨干组成：VGG(Simonyan and Zisserman，2015)、ResNet(He et al.，2016)、ResNeXt(Xie et al.，2017)、HRNet(Wang et al.，2020)、RegNet (Radosavovic et al.，2020)、Res2Net(Gao et al.，2021)和ResNesT(Zhang et al.，2020b)。颈部组件在多个尺度上结合了低分辨率和语义强的特征，能够检测到大的物体，高分辨率和语义弱的特征，能够检测到小的物体，这是通过特征金字塔网络（FPN）卷积层的横向和自上而下连接完成的(Lin et al.，2017b)，及其变体，如PAFPN(Liu et al.，2018)和NAS-FPN(Ghiasi et al.，2019)。虽然FPN最初设计为两阶段方法，但该方法的目的是通过移除RPN并添加分类子网和边界盒回归子网，在单阶段探测器上使用FPN。头部组件负责使用softmax分类层检测对象，该分类层生成所有类的概率，并使用回归层预测边界框位置与地面真值的相对偏移。

图6：标记示例。第一行由边界盒类型的目标检测方法标签示例组成，用于识别城市环境中的单个树种。第二行是实例分割的标记示例，用于检测相同环境中的屋顶。

尽管目标检测器（一级或两级）存在差异，但它们普遍存在的问题是在训练过程中处理正样本（前景）和负样本（背景）之间的巨大差距，即类不平衡问题，这会影响精度结果(Chen et al., 2020)。在这些检测器中，候选边界盒可以表示为两大类：正样本，根据一个度量与地面真值匹配的边界盒；负样本，与地面真实情况不符。从这个意义上说，可以使用非最大抑制滤波器，通过去除最有希望的重叠来细化这些密集候选。Libra RCNN(Pang et al.，2019)、ATSS(Zhang et al.，2019a)、制导锚定(Wang et al.，2019)、FSAF(Zhu et al.，2019a)、PAA(Kim and Lee，2020)、GFL(Li et al.，2020a)、PISA(Cao et al.，2020)和VFNet(Zhang et al。，2020c)探测器探索不同的采样策略和新的损失度量，以提高所选阳性样本的质量，并减少大阴性样本的重量。DL文献中探讨的另一个主题是边界框的编码策略，这会影响一级检测器的精度，因为它们不使用区域建议网络(Zhang et al., 2020c)。在本报告中(Zhang et al., 2020c)，作者将边界框表示为一组代表或关键点，并找到最远的顶部、底部、左侧和右侧点。CenterNet(Duan et al.，2019)检测对象的中心点，而不是使用边界框，而CornerNet(Law and Deng，2020)估计对象的左上角和右下角。SABL(Wang et al.，2020)使用基于块的策略对图像进行水平和垂直离散化，并估计每侧的偏移量（下、上、左和右）。VFNet(Zhang et al.，2020c)方法提出了一个损失函数和一个星形边界框（由九个采样点描述）来改进对象的位置。

关于语义分割和实例分割方法，它们通常被定义为像素级分类问题(Minaee et al., 2020b)。语义和实例的主要区别在于前者能够识别属于同一类的像素，而不能区分图像中同一类的对象。然而，实例分割方法由于涉及到对象的分离识别，不能区分不同对象之间的重叠。例如，在航空城市图像中识别汽车、卡车、摩托车和沥青路面的位置可能有问题，其中沥青路面由其他物体所在的背景或区域组成。为了统一这两种方法，最近(Kirillov et al.，2019)提出了一种称为全景分割的方法。通过全景分割，包含在不可计数区域（例如背景）中的像素接收到指示它的特定值。

考虑到RPN方法在目标检测中的成功，快速R-CNN的一些变体被视为Mask R-CNN(He et al.，2017)，它与边界盒回归分支并行添加了一个新分支来预测对象的掩码（掩码生成）。级联掩模R-CNN(Cai和Vasconcelos，2019)和HTC(Chen et al., 2019)扩展掩模R-CNN，以级联方式细化目标定位和掩模估计。PointRend(Kirillov et al.，2020)是一种基于点的方法，它将掩模生成分支重新定义为渲染问题，以迭代方式选择对象轮廓周围的点。关于语义分割，U-Net(Ronneberger et al.，2015)、SegNet(Badrinarayanan et al.，2017)、DeepLabV3+(Chen et al.，2018)和Deep Dual-domain Convolutional Neural Network（DDCN）(Nogueira et al.，2019)等方法也被定期用于最近的遥感调查(Nogueira et al.，2020)。目前研究的另一个重要遥感方法是考虑稀疏注释的对象分割(Hua et al., 2021)。然而，到今天为止，CGnet(Wu et al., 2020b)和DLNet(Yin et al.，2020)被认为是最先进的语义切分方法。

无人机影像中的深度学习

为了确定无人机遥感应用中与DL相关的作品，我们在Web of Science（WOS）和Google Scholar数据库中进行了搜索。 WOS是最受尊敬的科学数据库之一，拥有大量科学期刊和出版物。我们在WOS中使用以下字符串进行了搜索：（“ TS =（（深度学习或CNN或卷积神经网络）AND（UAV或无人驾驶飞机或无人机或RPAS）AND（远程传感或摄影测量法））和语言：（英语）和文件类型：（文章或书籍或书籍章节或书籍审阅或信函或会议论文或审阅）；索引= SCI扩展，SSCI，A％HCI，CPCI-S，CPCI-SSH，ESCI。 -time =每年。”）。我们考虑了DL，但增加了CNN，将其作为遥感应用中使用的主要基于DL的体系结构之一(Ma et al.,2019)。

我们筛选结果仅考虑使用基于UAV的系统实现方法的论文。在WOS数据库中共找到190篇论文，其中136篇是文章，46篇论文和10篇评论。在Google学术搜索数据库中进行了另一次搜索，以识别未在WOS中检测到的作品。在此搜索中，我们采用了相同的关键字组合。我们对其结果进行了详细的评估，并仅选择了尽管来自受尊重的期刊但在WOS搜索中未遇到的那些结果。这样一来，共有34篇文章，16篇论文和8篇评论。整个数据集由232篇文章和论文集以及以这些基础收录的科学期刊的18篇评论组成。然后对这些文件进行整理和修订。图7展示了映射这项研究的主要步骤。遇到的出版物仅在最近的五年中（从2016年到2021年）进行了注册，这表明科学期刊中基于UA的方法与DL方法相集成的最新方式。

从这些基地收集的评论文章被分开，主要用于图1的云文本分析，而其余论文（文章和论文集）则根据其类别进行组织。总共对283.785个单词进行了词云分析，因为我们删除了出现次数少于5％的单词，以删减与主题无关的较少使用的单词，并删除了出现率高于95％的单词，以删除该主题中经常使用的普通单词和简单单词英语。已发布的文章和程序按基于DL的网络划分(分类：按场景分类，分割和对象检测和回归；使用的传感器类型)(RGB，多光谱，高光谱和LiDAR)；和;应用程序（环境，城市和农业环境）。在随后的部分中，我们还提供了先前进行的研究的数据集，以供新颖的研究进一步研究。这些数据集进行了组织，并对其特征进行了相应的总结。

图7 按照本次审查的建议，按照其各自的类别组织修订后的材料所采用的示意性程序

我们的大部分研究由遥感期刊领域的同行评审出版商出版（图8）。即使在WoS和Google Scholar数据库中遇到的评论文章确实在一定程度上提到了基于UAV的应用程序，但它们都没有专门针对它。在本文即将结束时，我们研究了最新的方法，例如实时处理，数据降维，领域适应，基于注意力的机制，少拍学习，开放集，半监督和无监督学习和其他。这些信息概述了基于无人机的图像中使用的DL方法的未来机会和前景，在此我们讨论了新颖方法的含义和挑战。

从定量角度对232篇论文（文章+论文集）进行了研究，我们根据国家/地区评估了每本期刊的出现次数，被引次数，出版年份以及所进行申请的位置。如前所述，我们还准备并组织了与相应类别有关的采样部分，以识别诸如所使用的体系结构，评估度量方法，执行的任务，传感器的类型和映射上下文目标之类的特征。在对其进行评估之后，我们通过定性方法，对科学数据库中所遇到的论文（UAV + DL）中进行的一些应用程序进行了修改和介绍，总结了最突出的应用程序。对这些应用程序的叙述分别对应于与制图上下文有关的各个类别（环境，城市和农业）。稍后，在介绍DL的未来观点和当前趋势时，我们提到了一些论文以及在计算机视觉科学期刊上提出的其他研究，这些研究可能会用于遥感和基于UAV的应用程序。

3.1

全球传感器和应用

在基于无人机的图像环境中，从DL方法中受益匪浅。随着这些网络在不同遥感领域的可用性不断提高，研究人员也在试验其替代繁琐的人为任务的能力，以及改进通过浅层学习或传统统计方法进行的传统测量的能力。截至最近，在著名的科学期刊上发表了几篇文章和论文集。我们的调查（以前曾提到过该调查的具体内容）能够发现一些重要特征。从收集到的数据中，我们验证了大多数基于无人机的基于DL的应用程序大多在中国和美国等国家进行（图9）。可以预料的是，由于这些国家以及他们在教育和科学方面的投资，长期以来一直专注于计算机视觉和遥感技术的发展。

图8 根据在Web of Science（WOS）和Google Scholar数据库中收集的数据，评估的科学材料的分布。左侧的y轴表示已发表论文的数量(n)，用纯色框表示。根据同行评审的科学期刊，右边的y轴表示这些出版物发表以来被引用的次数，并用虚线在其相应的纯色框中表示

前9个国家（在图9中突出显示）与该主题相关的科学出版物产量几乎占90％。这种在空间上分布的全局信息对于查明进行这些基于UAV的应用程序时所具有的某些特征也很重要。在德国，英国，荷兰和西班牙等欧洲国家，我们的数据表明，大多数应用的方法都用于绘制环境背景图。在像巴西这样的南美国家，精准农业实践是首选方法。在像中国和印度这样的亚洲国家，城市和农业环境都是重点突出的领域。在北美，来自美国的文章出版物集中在农业，城市和环境方面。尽管比较松散，但这种观察分析可能会为这些区域中的每个区域如何处理其问题以及与这些主题相关的实践提供一些启发。

一般而言，在科学数据库中收集的文章展示了一种与其架构(CNN或RNN),评估(分类或回归)方法(对象检测，分割或场景分类)，传感器类型(RGB，多光谱),有关的模式(高光谱或LiDAR和地图环境（环境，城市或农业）。可以用简单的图表查看这些模式(图10)。可以从该图形中提取以下观察结果：

1.基于无人机的应用程序中的大多数网络仍主要依赖于CNN；

2.尽管对象检测是最高级的方法，但近年来有很多分割方法。

3.大多数使用的传感器是RGB，其次是多光谱，高光谱和LiDAR，以及；

4.在环境范围内发表了大量有趣的论文，与森林类型相关的应用是该类别中最常见的方法，而城市和农业类别在选择的方法中几乎平均分布。

图9 根据各自的原籍国发布的材料。地图上还突出显示了各大洲排名靠前的出版国的名称

使用基于无人机的应用程序发表的大多数论文都实现了一种CNN（91.2％）。这些文章大多数使用已建立的体系结构（图5），一小部分提出了它们的模型，并将它们与最新的网络进行了比较。实际上，这种比较似乎是最近出版物的关键问题，因为有必要相对于基于DL的众所周知的模型来确定所提出方法的性能。尽管如此，CNN架构在遥感影像中的普及并不新鲜，这主要是由于前面各节中已经提到的原因。除此之外，尽管在少数文章中进行了介绍，但主要由CNN-LSTM架构组成的RNN（8.8％）是该领域的新兴趋势，并且似乎是新颖提案的重点。由于无人机系统主要能够根据用户自己的需求进行操作（即可以更个性化的方式从多个日期获取图像），因此可以通过一种时间进度方法来查看同一对象。这对于包括监控静止物体（例如河流，植被或地形坡度）的许多应用都是有益的。

尽管分类（97.7％）任务是这些论文中实现的最常见的评估指标，但是回归（2.3％）是重要的估计，可能在将来的应用中有用。回归度量在遥感应用中的使用是值得的，这仅仅是因为它可以估计连续数据。像许多其他情况一样，可以在环境，城市和农业环境中使用可能从回归分析中得到的应用程序，这对于返回对测量变量的预测很有用。另一方面，分类更是遥感方法的共同点，并且在每个主要任务（对象检测；逐像素语义分割和逐场景分类）中都实现了分类。

上述基于DL的体系结构主要应用于对象检测（53.9％）和图像分割（40.7％）问题，而（按场景）分类（5.4％）是最不常见的问题。具体来说，这种对象检测的偏爱可能与基于UAV的数据有关，因为通过图像的空间分辨率提供的大量对象的细节既是优点也是挑战。这是一个优势，因为它增加了要在表面上检测到的对象的数量（因此，带有更多标记的示例），并且由于其难以识别和分割这些对象（这是一个难题），因此具有挑战性（更高的细节意味着要提取和提取的特征更多分析）。

另一方面，分类（按场景）在遥感应用程序中并不常见，并且在某些应用程序中通常首选图像分割，因为将类别分配给图像的每个像素对这种类型的分析有更多的好处，而不是仅识别场景。

图10 使用WOS和Google Scholar数据集根据定义的类别描述会议记录和文章的图

在此之后，有一个有趣的与应用程序上下文有关的分发模式。数据表明，大多数应用是在环境中进行的（46.6％）。在某种意义上，这种环境包括旨在解决土地使用和变化，环境危害和灾害，侵蚀估计，野生生物检测，林木清查，对进入地区的困难监测等方面的检测和分类任务的方法。。城市和农业类别（分别为27.2％和26.4％）与汽车和交通检测，建筑物，街道和屋顶提取以及植物计数，种植园行检测，杂草侵染识别等相关。有趣的是，所有LiDAR数据应用程序都与环境制图有关，而RGB图像主要用于城市，其次是农业环境。但是，与其他类别相比，多光谱和高光谱数据在城市环境中的实施较少。由于这些类别的收益不同于基于DL的方法，因此需要更详细的介绍以了解其问题，挑战和成就。在以下各小节中，我们将在搜索数据库中列举一些合适的示例，同时说明这些问题和进展。

最后，有关此处使用的分类划分的另一个重要观察结果是，使用的传感器类型之间存在明显的二分法。该领域的大多数已发表论文评估了RGB传感器中基于DL的网络的性能（52.4％）。其次是多光谱（24.3％），高光谱（17.8％）和LiDAR（5.5％）。在基于UAV的系统中对RGB传感器的偏爱可能与它们的低成本和高市场可用性相关。这样，由于考虑到方法的可重复性，出于实际原因，这是一个可行的选择，因此已发表的文章可能对此有所反映。应该注意的是，公共数据库中带标签的示例数量大多是RGB，这有助于改进和调查此类数据。而且，从多光谱，高光谱和LiDAR传感器获得的数据被用于更特定的应用中，这有助于这一划分。

大多数对象检测应用程序使用RGB类型的数据，而分割问题则同时处理RGB，多光谱，高光谱和LiDAR数据。对此的可能解释是，对象检测通常依赖于图像中对象的空间，纹理，图案和形状特征，因为分割方法是多种类型的应用程序，其受益于所提供的光谱和地形信息量通过这些传感器。在对象检测中，基于DL的方法可能已经潜在地使用了RGB图像，因为更简单和传统的方法需要附加的光谱信息来执行它。另外，除了光谱信息外，例如，LiDAR还为网络提供了物体的重要特征，以供网络学习和优化其周围的边缘，特别是在其模式相似的地方。无论如何，这些方法中的许多都与可用设备和应用程序本身的性质有关，因此很难确定具体原因。

3.2

Environmental Mapping

使用基于DNN的方法的环境方法可用于包括遥感影像在内的各种遥感数据应用。这些应用只是因为它们的不同性质而采用不同的传感器。为了描绘自然习性及其特征，研究通常依赖于与自然目标具体相关的方法和程序，因此无法提出或发现“通用”方法。但是，尽管基于DL的方法尚未达到这种“通用”方法，但它们已通过在最独特的场景中成功实施而改变了一些怀疑态度。尽管基于无人机的实践仍然给分类任务和回归任务带来了一些挑战，但事实证明DNN方法通常能够执行此类任务。无论如何，仍然有很多值得探索的地方。

诸如CNN和RNN之类的深层网络可能会有益于一些环境实践。例如，监测和计数野生生物(Barbedoet al.，2020； Houet al.，2020； Sundaram和Loganathan，2020)；对草地和森林茂密地区的植被进行检测和分类(Horninget al.，2020； Hamdi等人，2019年)，识别火灾和烟雾信号(Alexandra Larsen等人，2020年，Zhang等人，2019b)，分析土地使用，土地覆盖和地形变化，这些通常在环境规划和决策中实施建模(Kussulet al.，2017，Zhanget al.，2020d)，预测和测量环境危害(Daoet al.，2020，Buiet al.，2020)等。接下来是对最近发表在遥感科学期刊上的材料的简要描述，这些材料旨在通过将来自无人机嵌入式传感器的数据与基于DL的方法集成来解决其中的一些问题。

与环境遥感应用有关的最常见方法之一是土地使用，土地覆盖和其他类型的地形分析。最近的一项研究(Giang et al.，2020)将语义分割网络应用于采矿区的土地利用图。另一个(Al-Najjar等人，2019)将来自数字表面模型（DSM）的信息与基于UAV的RGB图像进行了组合，并应用了一种特征融合作为CNN模型的输入。为了绘制沿海地区的地图，一种方法(Buscombe and Ritchie，2018)，将RGB数据以多个比例进行注册，将CNN与称为条件随机场（CRF）的图形方法结合使用。开展了另一项研究(Park and Song，2020)，结合了2D和3D卷积层之间的高光谱图像，以确定在地籍地图地块的已分配土地类别中土地覆被的差异。

使用语义分割方法，在另一项研究中证明了CNN的道路提取(Liet al.，2019)。另一项研究(Gevaert et al.，2020)研究了FCN在计划外定居点中监测家庭升级的性能。地形分析在任何类型的制图比例尺上都是一个多元化的话题，但是对于基于无人机的图像而言，其中大多数数据采集是由高层次的细节组成的，基于DL的方法导致了重要的发现，证明了这种方法的可行性。这些方法可以执行此任务。尽管如此，尽管这些研究证明了这种可行性，尤其是与其他方法相比，但新颖的研究应侧重于评估深层网络在域适应性和泛化能力方面的性能，例如使用不同空间分辨率的数据，多时相影像等

水淹区域的检测，评估和预测代表了另一种类型的调查，其中包括无人机嵌入式传感器提供的数据集。一项研究(Gebrehiwot et al.，2019)证明了CNN在水淹区域分割中的重要性，该区域的网络能够将水与建筑物，植被和道路等其他目标分开。可以使用基于无人机的数据进行但仍需要进一步探索的一种潜在应用是，例如，通过多时相分析来绘制和预测可能的洪水区域。可以使用基于DL的方法来研究这种情况以及与洪水，水体和河道有关的其他可能性(Carbonneau et al.，2020)。

对于河流分析，一项调查(Zhanget al.，2020e)通过融合位置和通道注意特征来辅助河冰监测，将CNN架构用于图像分割。另一项研究(Jakovljevicetal。，2019)将LiDAR数据与UAV映射生成的点云进行了比较，并展示了一种有趣的方法用于基于DL的方法进行点云分类和快速数字高程模型（DEM）生成以进行洪水风险映射。 CNN在无人机数据中的一种应用涉及在空旷地区测量冰雹(Soderholmet al.，2020)。对于这种方法，在RGB图像中使用了图像分割，并返回了冰雹的最大尺寸和中间尺寸。最后，在这个主题上，将CNN和GAN分为河流和植被区域的比较(Ichim and Popescu，2020)表明，这些网络之间的“融合”成为全球分类器的优势在于提高了网络的效率分割。

基于无人飞行器的森林制图和监测也是一种新兴的方法，已经引起了科学界和政府机构的关注。林区软化了用于精确监测和调查的设施，因为它们可能难以访问，并且在一定程度上可能是危险的。在这方面，从无人机嵌入式传感器获取的图像可用于识别森林环境中的单个树种并编制清单。从收集的论文中，将多种类型的传感器（RGB，多光谱和高光谱传感器）以及LiDAR用于此方法。一个应用程序研究了3D-CNN方法对寒带森林中树种进行分类的性能，重点是松树，云杉和桦树，结合了RGB和高光谱数据(Nezamiet al.，2020)。

(Ferreira et al.，2020)还研究了CNN的单树检测和物种分类，其中使用这种方法绘制了亚马逊森林中被认为对其种群和原生社区重要的三种棕榈树类型。。另一个例子(Hu et al.，2020)包括实施深度卷积生成对抗网络（DCGAN），以区分茂密森林公园区域中患病的松树。最近的另一项研究(Miyoshiet al.，2020)提出了一种新颖的DL方法，以利用UAV高光谱图像识别高密度区域中的单树种。这些和其他科学研究表明，基于DL的方法可以很好地应对此类环境。

尽管数据库中遇到的大多数此类方法与树种映射有关，但在这些自然环境中，UAV采集的数据也用于其他应用程序。最近的一项研究(Zhang et al.，2020f)提出了一种基于基于无人机的图像中植物的语义分割和场景分类的方法。该方法基于CNN，该CNN通过增加图像比例并集成从小比例学习的特征来对单个植物进行分类。这种方法是多尺度信息融合中的重要内容。同样与植被识别相关的是，(Hamylton et al.，2020)研究了多种CNN体系结构，利用岛上基于UAV的RGB图像检测植物和非植物类型之间的性能，从而获得有趣的性能。

除植被测绘外，另一个应用涉及野生生物识别。由于基于DL的对象检测和语义分割方法正在提供有趣的结果，因此在开放空间和草原中进行动物监视也引起了关注。 (Kellenberger et al.，2018)的一篇论文涵盖了这个主题，并通过实际示例讨论了如何将CNN与基于UAV的图像结合使用来识别非洲大草原中的哺乳动物。这项研究涉及与此任务相关的挑战，并提出了一系列克服这些挑战的建议，主要集中在标记数据集中的不平衡。野生生物的识别不仅在陆地环境中进行，而且还在海洋空间中进行，最近的出版物(Gray et al.，2019)实施了基于CNN的语义分割方法来识别鲸类物种，主要是蓝色，座头鲸和小须鲸，在海洋中。这些研究不仅证明了这种方法在不同的任务上可以非常准确，而且还暗示了在现有文献中采用无人机的DL方法的潜力。

3.3

Urban Mapping

对于城市环境，最近几年在文献中已经提出了许多基于DL的，带有UAV数据的建议。 UAV嵌入式传感器轻松提供的高空间分辨率是其在这些领域中使用的主要原因之一。这些图像中的对象检测和实例分割方法对于个性化，识别和映射高度详细的目标是必不可少的。因此，许多应用程序都依赖于CNN，在少数情况下，依赖RNN（CNNLSTM）来处理它们。在我们的调查中，此类最常见的例子是行人识别，汽车和交通监控，城市森林中单个树种的分割，混凝土表面和人行道上裂缝的检测，建筑物提取等。这些应用是使用RGB类型的传感器（在少数情况下是光谱传感器）进行的。

如前所述，RGB传感器的使用是小预算实验的首选，但也与CNN的另一个重要偏好有关，也就是说，像素尺寸，形状和物体纹理等特征对于CNN来说是必不可少的。它的认可。在这方面，新颖的实验可以将基于DL的具有RGB图像的方法与其他类型的传感器的性能进行比较。由于低预算系统易于大量实施，因此此类调查可能会带来许多城市监测活动。在城市地区，无人机实时监控的重要性是相关的，这是实现此类应用程序的当前目标之一。

在城市环境中使用基于DL的方法进行基于UAV的图像的最常见做法涉及车辆和交通的检测。汽车识别是帮助城市监测的重要任务，对于这些地区的交通流量实时分析可能很有用。这不是一件容易的事，因为车辆可能会被不同的物体（例如建筑物和树木）挡住。 (Zhang et al.，2019c)中介绍了一种使用通过无人机获得的RGB视频素材的最新方法，将物体检测CNN用于此任务。他们还处理对摩托车的交通监控方面的差异，其中逐帧分析使神经网络能够确定图像中的对象是人（行人）还是骑摩托车的人，因为其模式和框架有所不同-运动表明这一点。关于行人交通，(de Oliveira and Wehrmeister，2018)提出的带有热像仪的方法表明，CNN适用于检测具有不同热像仪旋转，角度，大小，平移和比例的人，从而证实了其学习和泛化能力的鲁棒性。

在这些地区中的另一项重要调查是对单树物种的检测和定位以及其冠层的分割。识别城市地区的植被个体是城市环境规划的重要前提，因为它有助于清点物种并为决策模型提供信息。最近的一项研究(dos Santos et al.，2019)应用了物体检测方法来检测和定位濒临灭绝的树种。按照他们的意图，一项研究(Torreset al.，2020)对语义分割神经网络进行了评估，以绘制城市环境中濒临灭绝的树种的地图。虽然一种方法旨在识别组成清单的对象，但另一种方法能够识别它并返回重要指标，例如其树冠面积。确实，在森林类型的研究中实施的一些建议也可以在城市地区采用，这为将来的研究提供了一个开放的领域，旨在在这种环境下评估基于DL的模型。城市地区对树木的监测提出了不同的挑战，因此这些应用程序需要考虑其特性。

基于DL的方法也已用于识别和提取基础结构信息。 (Boonpook et al.,2021)展示了一种有趣的方法，该方法基于语义分割方法，能够在城市化程度很高的区域中提取具有独特建筑风格和复杂结构的建筑物。有趣的是，RGB与DSM的结合改善了建筑物的识别性，表明分割模型能够合并与物体高度有关的适当信息。这种在空间光谱数据和高度之间的组合方法可能在其他识别和识别方法中很有用。同样在基础设施方面，城市地区的另一种可能的应用是电线杆的标识和位置(Gomes et al.，2020)。该应用程序虽然是一个特定的示例，但对于定期维护和监视磁极的状况很重要。这些城市环境中的监视类型是基于DL的模型方法的优点，因为它趋向于替代多项人工检查任务。另一个应用涉及检测混凝土路面和表面的裂缝(Bhowmicket et al.,2020)。由于民用结构的某些区域难以访问，因此带有对象检测网络的基于UAV的数据可能对该任务有用，从而返回了可行的现实应用程序。

(Benjdira et al.，2019a)证明了另一个提出重要发现的主题与城市地区的土地覆盖像素分割有关。在这项研究中，实施了一种基于GAN的无监督域自适应方法，该方法可处理基于无人机的系统中的不同数据，同时能够改善建筑物，低植被，树木，汽车和不透水表面的图像分割。如前所述，GAN或DCGAN由于其广泛的应用领域以及通过受过训练以区分真实数据和虚假数据而发挥作用的方式，因此很快引起了计算机视觉社区的关注(Goodfellow et al.,2014)。无论如何，其在基于UAV的影像中的用途仍未得到充分开发，因此，将来不仅可以对土地变化和土地覆盖以及其他类型的应用程序的准确性进行调查，而且可能会得到改善。但是，除了角度，旋转，比例尺和其他基于无人机的图像相关特征的差异外，城市场景中的多样性也是一个问题，应采用无监督方法加以考虑。因此，在当前状态下，基于DL的网络仍可能依赖于某种监督方式来指导图像处理，特别是在域偏移因子方面。

3.4

Agricultural Mapping

在最近的科学研究中，基于无人机的图像和DL方法的结合极大地促进了精准农业的应用。与这些方法相关的大多数问题涉及到目标检测和特征提取，用于植物计数和检测种植线，识别种植林间隙，分割植物物种和入侵物种作为杂草，物候学和表型检测，以及许多其他问题。这些应用程序为这种类型的映射提供了许多可能性，特别是因为大多数这些任务仍然是由人类视觉检查手动执行的。因此，他们可以通过快速、公正和准确的结果返回预测，从而帮助精确农业实践，影响农业系统管理的决策。

无论如何，尽管自动方法在这种情况下确实提供了重要的信息，但它们面临着困难的挑战。其中一些包括所需植物和入侵植物之间的相似性、高密度环境中难以检测到的植物（即植物和线之间存在的小间距）、不遵循光路的种植线、绘制阴影和照明之间存在冲突的树冠时的边缘分割，以及许多其他问题。尽管如此，新的调查旨在实现更生成能力，这些网络在处理这些问题。从这个意义上说，在多种条件或种植园中实现方法的方法是最近出版物的主要焦点。因此，目前正在提出不同的调查方案，包括不同类型的种植园、传感器、飞行高度、角度、空间和光谱差异、日期、物候期等。

Apolo-Apolo等(2020)使用了一种有潜力扩展到不同果园的有趣方法。在那里，一个低空飞行的方法是采用侧视角地图产量计数水果与有线电视新闻网为基础的方法。在基于DL的方法中，计数水果并不是一件全新的事情，一些论文证明了边界盒和点特征方法提取水果的有效性(Bif fi et al.，2021，Tian et al.，2019a，Kang and Chen，2020)，除了遮挡、闪电、水果大小和图像损坏方面的一些差异。

今天的深度网络在产量预测方面显示出很高的潜力，因为一些应用正在适应CNN架构，这主要是因为它在图像处理方面的优势。其中之一包括仅用RGB图像预测牧草(Castro等人，2020)。作物产量估算中另一个有趣的例子是(Nevavuori et al.，2020)，其中CNN-LSTM用于通过空间多时相方法预测产量。在那里，作者实现了这种结构，因为RNN更适合于学习时间数据，而3D-CNN用于处理和分类图像。尽管在文献中使用的频率低于CNNs，但在精确农业方法中，LSTM架构正逐渐受到关注，这似乎是对这些区域进行时间监测的一种适当方法。

尽管如此，在基于DL网络的精确农业中，最常用和最有益的方法之一是计算和检测植物和种植线。对植物进行计数对于估算产量是至关重要的，同时，通过地理定位，通过确定种植林缺口来确定苗木培育过程中是否出现问题。在这方面，利用这些间隙识别种植线也是一种理想的应用。文献中实现了目标检测和图像分割方法，但大多数使用图像语义分割算法的方法依赖于附加程序，例如使用斑点检测方法(Kitano et al.，2019)。这些附加步骤可能并不总是可取的，为了证明一个模型的通用性，应在不同条件下进行多次试验。

对于种植线检测，目前正在实施分割，通常用于协助多个信息提取。在(Osco et al.，2021)中，语义分割方法被应用于基于无人机的多光谱数据中，以提取树冠区域，并能够证明哪些光谱区域更适合它。最近在(Osco et al.,2020a)中还提出了一个基于无人机数据的应用，其中提出了一个CNN模型，用于同时计数和检测植物和种植线。该模型基于信任图提取，是先前柑橘树计数研究的升级版本(Osco等人，2020b)。CNN通过实现一些卷积层、金字塔池模块（PPM）(Zhao et al.，2017)和具有两个信息分支的多阶段模块（MSM）来工作，这两个信息分支在MSM过程结束时串联在一起，共享彼此学习的知识。该方法保证了网络学习检测出位于种植线上的植物，并理解种植线是由植物的线性连接形成的。这种方法在处理高密度人工林时也被证明是成功的。另一项研究(Ampatzidis和Partel，2019)旨在用基于包围盒的方法计算柑橘树，也得到了类似的精度。然而，这是在一个稀疏的种植园进行的，这并没有造成在(Osco et al.,2020b，a)所面临的相同挑战。无论如何，对于高密度场景，从信任图中提取特征似乎是一种合适的方法。

但农业应用并不总是涉及植物计数或种植线检测。与其他已发表研究中的野生动物鉴定相似（Kellenberger et al., 2018; Gray et al., 2019)，还有一个有趣的猫检测，它是人类检测的重要任务。在AV BasedImager中，一些方法包括基于DL的边界框方法(Barbedo et al.,2019)，这些方法也得到了成功实施。用于这项任务的DNN仍然没有得到充分的探索，但已发表的调查(Rivas et al.，2018)认为，采用LME方法的必要性的主要原因之一是，在整个地区（一年中的各个季节）发生了变化，动物分布不均。在这个问题上，一个有趣的方法应该是在飞机上使用实时目标检测。这是因为当无人机系统获取数据时，很难跟踪动物的移动，即使是在牧场等开阔地区。另一个农业应用实例是使用无人机水下彩色图像和DL模型对近海水产养殖场进行监测，以对其进行分类(Bell et al., 2020)。这些例子揭示了通过DL模型和无人机遥感数据的集成可以解决的广泛多样的农业问题。

最后，文献中还有一个有待探索的领域，即使用基于DL的方法识别和识别植物中的病虫害指标。最新的方法旨在识别种植园中的入侵物种，通常称为“杂草”。在无监督数据标记的演示中，(Dian Bah et al.，2018)评估了基于CNN的方法预测不同作物种植线杂草的性能。自动生成标记数据的这一预处理步骤在CNN模型结构之外实现，是一种有趣的方法。然而，另一些人则倾向于包括一个“一步到位”的网络来应对这种情况，不同的战线正在出现在文献中。无监督领域自适应是当前最流行的一种目标模型，它是网络从新的未浏览数据中提取学习特征。

表1：从先前研究中公开获得的基于无人机的数据集

最近的一份出版物(Li等人，2020b)提出了识别和统计田间棉铃状态识别的方法。无论如何，以基于无人机的数据为例，这仍然是一个问题。至于疾病检测，一项研究(Kerkech et al.，2020)研究了多光谱图像对葡萄作物图像分割的使用，能够分离可见症状（RGB）、红外症状（即仅考虑红外波段时）以及可见光谱和红外光谱数据之间的交叉点。关于利用无人机图像识别害虫的另一个有趣的例子在(Tetila等人，2020)中进行了演示，其中考虑了多种害虫物种的超像素图像样本，并使用激活过滤器来识别与基于DL的不同体系结构一起实现的不良视觉模式。

Publicly Available UAV-Based Datasets

如上所述，基于DL的方法的最重要特征之一是，随着使用带标签的示例数训练网络，它们倾向于提高其学习能力。在大多数使用遥感数据的早期方法中，使用来自互联网上公开可用的图像存储库中的预训练权重来初始化CNN。但是，这些存储库中的大多数并非来自使用遥感平台获取的数据。尽管如此，近年来仍存在一些带有标记示例的已知空中存储库，例如DOTA (Xia等人，2018)，UAVDT (Du et al., 2018; VisDrone et al.,2019)，WHU-RS19 (Shenget al., 2012)，RSSCN7 (Zouet al.,2015)，RSC11 (Zhaoet al., 2016)，巴西咖啡场景(Penattiet al., 2015)数据集。这些和其他一些在基于UAV的应用程序中臭名昭著，并且有可能被用于预训练或基准测试DL方法。这些数据集不仅充当启动网络的附加选项，而且还可以帮助将新颖的提案与评估的方法进行比较。

由于仍然存在数量稀少的带有UAV采集数据的带标签示例，特别是在多光谱和高光谱数据中，因此我们旨在在城市和农村场景中提供基于UAV的数据集，以供将来研究以实现和比较新型DL- 他们的基础方法。表1总结了与这些数据集有关的一些信息，并指出了实施以前进行的方法的最新出版物以及在这些出版物上获得的结果。可在以下网页上找到它们，该网页将不断更新，带有新颖的带有标签的数据集，来自以下位置：Geomatics和Computer Vision / Datasets

Perspectives in Deep Learning with UAV Data

不可否认，基于DL的方法是处理遥感系统每天产生的大量数据的强大而重要的工具。本节接下来的内容是对可以通过基于无人机的影像实现的DL和遥感领域中最新兴领域之一的近期观点的简短评论。尽管在某些研究中已经进行了介绍，但这些主题尽管在此处进行了单独介绍，但仍有可能被组合使用，从而有助于开发新颖的方法。

5.1

Real-Time Processing

这项研究中提出的大多数环境，城市和农业应用都可以从实时响应中受益。尽管基于UAV和DL的组合加快了处理流程，但是这些算法是计算机密集型的。通常，它们确实需要在数据中心或专用图形处理单元（GPU）机器中进行后处理。尽管DL被认为是一种在训练后从数据中提取信息的快速方法，但由于DL方法体系结构固有的层数，它仍然使实时应用成为瓶颈。因此，研究小组，特别是来自物联网行业/学院的研究小组，竞相开发实时DL方法。该方法通常有两个方向：开发更快的算法和开发专用的GPU处理器。

DL模型使用32位浮点表示神经网络的权重。一种称为量化的简单策略使用16位，8位甚至1位而不是32位浮点来减少表示权重的DL模型所需的内存量。这个想法可以追溯到1990年代(Fiesleret al.，1990； Balzeret al.，1991)，最近由于DL模型的规模而得到了复兴。例如，XNOR-Net (Rastegari等人，2016)是一种流行的二值化权重策略，其卷积运算速度提高了58倍，内存节省速度提高了32倍。紧凑的表示形式可能会降低预测性能。 32位全精度ResNet-18 (Heetal。，2016)在ImageNet数据集(ImageNet，2018)上实现了59.2％的top-5精度，而ResNet-18 (He et al.，2016)移植到XNOR-Net在同一数据集中，前5位的准确性达到73.2％。在所有网络组件中，量化超出了权重，而文献报道了激活函数和梯度优化量化方法。在(Guo，2018)中进行的调查对量化方法进行了重要概述。同样，知识蒸馏(Hinton et al.，2015)是使用较小网络训练模型的另一个示例，其中较大的“教师”网络指导较小的“学生”网络的学习过程。

开发快速DL模型的另一种策略是使用较少的参数设计图层，而这些参数仍然能够保留预测性能。 MobileNets (Howard et al., 2017)及其变体就是这个想法的一个很好的例子。 MobileNet的第一个版本基于深度卷积(Chollet,2017)和点卷积(Szegedy et al., 2015)。 MobileNet（5.69亿个mult / adds和330万个参数）在斯坦福狗上的top-1准确性达到83.3％。 Inception V3（50亿多次/添加和2330万个参数）在同一数据集上的top-1准确性达到84.0％。MobileNet V3 (Howard et al.,2019)体系结构是使用网络体系结构搜索（NAS）(Elskenet al.，2019)开发的，其后是h-swish激活函数和NetAdapt算法(Yanget al.,2018)。根据本文，与MobileNetV2相比，MobileNetV3-Large的准确率（在ImageNet (ImageNet，2018)上）分别提高3.2％和20.0％（在低延迟下）。在特定任务中，例如对象检测，可以为这种方法开发体系结构增强功能，例如上下文增强模块（CEM）和空间注意力模块（SAM）(Qin et al.，2019)。每秒mAP帧（FPS）与骨干网的大小成正比。Thunder Net可以使用SNET49骨干在COCO基准上以19.2 mAP（0.5; 0.95）在ARM Snapdragon 845中提供24.1 FPS（Lin et al., 2014）。将主干交换为更大的模型SNET 535，mAP增加到28.1，但是FPS减少到5.8。

当考虑更小的计算能力时，有可能发现在微控制器单元（MCU）上运行的DL，该单元的内存和计算能力比手机小3-4个数量级。 MCUNet (Lin et al.,2020)结合了TinyNAS和TinyEngine来构建一个模型，该模型需要320kB的内存和1MB的存储。 MCUNet在ImageNet (ImageNet,2018)上达到了70.7％的top-1准确性，这与ResNet18 (Heetal.2016)和Mobile NetV2 (Sandler et al., 2018)的准确性相似。在硬件上，该行业已经开发了运行DL算法的嵌入式AI平台。 NVIDIA的Jetson是最受欢迎的选择之一，一项使用Jetson平台及其应用程序的研究调查(Mittal，2019)证明了这一点。此外，可以在(Imran et al., 2020)中阅读有关此主题的更广泛的调查，其中涉及AI平台的GPU，ASIC，FPGA和MCU。无论如何，无人机遥感方面的研究非常有限，未来的工作可以弥补这一空白。该技术可以带来多种应用，例如农业喷洒无人机，它可以实时识别不同类型的杂草，并同时使用喷洒技术。其他方法可能包括对城市和森林环境中的树木进行实时监控，以及检测从快速摄入中受益的其他类型的物体。

5.2

Dimensionality Reduction

由于捕获设备的最新发展，即使在无人机中也可以获取高光谱图像。这些图像由数十到数百个光谱带组成，可以帮助在给定应用中对对象进行分类。然而，高维度带来了两个主要问题：i）频段可以高度相关，ii）DL模型的计算成本过度增加。高维数可能会引起一个称为休斯现象的问题，也称为维数的诅咒，即，由于噪声的引入和高光谱或高维数据中遇到的其他影响而降低了分类的准确性时(轩尼诗（Hennessy et al., 2020)。无论如何，高光谱数据可能对基于DL的方法精度构成障碍，因此成为遥感实践中要考虑的重要问题。解决高维问题的经典方法是应用主成分分析（PCA）(Licciardi et al., 2012)。

尽管有一些建议，PCA通常不与DL结合使用，而是作为预处理步骤。尽管此方法可能是处理高光谱数据时降低维数的最著名方法之一，但文献中已经介绍了不同的摄入量。 Miyoshi等人证明了一种新颖的DL方法，该方法已通过基于无人机的影像实现 (Miyoshi et al.，2020)。在那里，作者提出了一种在网络体系结构内进行的单步方法，以考虑与网络初始阶段在输入层中提供的标记示例高度相关的高光谱传感器的波段组合。另一项研究(Vaddi和Manoharan，2020)结合了频带选择方法，空间滤波和CNN来同时提取频谱和空间特征。仍然，解决该问题的未来观点似乎是在端到端方法中结合光谱带选择和DL方法。因此，选择和DL方法都可以交换信息并改善结果。这也有助于理解DL如何处理这些图像，这在Miyoshi等人的论文中稍有完成。 (Miyoshi et al.，2020)。

5.3

Domain Adaptation and Transfer Learning

DL模型的训练步骤通常使用在特定地理区域内，短时间内捕获的图像或使用单个捕获设备（也称为域）来执行。在实际中使用该模型时，由于采集，地理区域，大气条件等方面的差异，在训练图像和测试图像之间通常会发生光谱偏移(Tuia et al.，2016)。域适配是一种用于将在源域中训练的模型适配到不同但仍相关的目标域的技术。因此，领域适应也被视为转移学习的一种特殊形式(Tuia et al.，2016)。另一方面，转移学习(Zhuang et al.，2020，Tan et al.，2018)确实包含了域目标空间特征可能不同于源域的应用。

领域自适应和转移学习的一个有前途的研究方向是考虑GAN (Goodfellow et al., 2014；Elshamli et al., 2017)。例如，(Benjdira et al.，2019b)建议使用GAN将图像从源域转换为目标域，从而使源图像模仿目标域的图像特征。尽管他们没有考虑在问题类别的层次上直接对齐，但是最近的方法试图使源域和目标域的分布保持一致。注意(Fang et al.，2019)提出的对类别敏感的域适应，关注类级别转换的方法可能更准确。因此，这些方法减少了与训练图像的质量和特征有关的域偏移，并且在实践中可用于无人机遥感。

5.4

Attention Based Mechanisms

注意机制旨在通过在特定任务中为它们分配不同的权重来突出显示最有价值的特征或图像区域。这是最近在遥感中应用的一个主题，它提供了显着的改进。正如(Xu et al.，2018)所指出的那样，遥感中的高分辨率图像提供了大量信息，并且在类内变化较小的同时趋于增加。这些变化和大量信息使相关特征的提取更加困难，因为传统的CNN会以相同的权重（相关性）处理所有区域。注意机制，例如(Xu et al.，2018)提出的机制，是将特征提取集中于问题的可区分区域的有用工具，例如图像分割(Ding et al.，2021，Su et al.，2019，Zhou et al.，2020)，按场景分类(Zhu et al.，2019b，Li et al.，2020c)，或物体检测(Li et al.，2019，Li et al.，2020c)，如其他。

此外，(Su et al.，2019)指出，当使用遥感图像时，通常将它们分为用于训练CNN的补丁。因此，对象可以分为两个或更多个子图像，从而导致区分性和结构性信息丢失。通过(Su et al.,2019)中提出的关注机制，可以通过提供全球背景并结合了低级和高级信息的全球注意力上采样模块，将注意力集中在描述感兴趣对象的相关区域上，从而将注意力机制用于汇总学习。通过注意力分类机制（例如，Vision Transformer (Dosovitskiy et al.，2020)和数据有效图像变压器(Touvronet al.，2020)）和对象检测（例如DETR (Carion et al.,2020)尚未在遥感应用中进行全面评估。一些方向还指出了在一系列图像块中直接使用注意力机制(Dosovitskiy et al., 2020;Touvron et al., 2020)。这些新建议可以改善已经在遥感数据中获得的结果，就像它们在计算机视觉中将传统图像数据集上的结果进一步提高一样（例如ImageNet (ImageNet，2018）。

5.5

Few-Shot Learning

尽管最近的资料证明了基于DL的方法可用于多个任务的可行性，但在高度概括性方面仍被认为是有限的。当处理不同地理区域中的相同对象或考虑新的对象类别时，会发生这种情况。传统解决方案要求使用针对新区域或对象的功能强大的标记数据集来重新训练模型。少量学习旨在应对几乎没有标记数据集的情况。最近的一项研究(Li et al.,2020)在场景分类的背景下指出，遥感中的少数镜头方法是基于迁移学习和元学习的。元学习比迁移学习更灵活，并且将其应用于训练集以提取元知识时，对测试集中的少拍学习做出了重要贡献。应对较大的类内差异和类间相似性的有趣策略是在特征学习步骤中实现注意力机制，如前所述。 (Li et al.，2020)研究中使用的数据集并非基于无人机。但是，可以在无人机影像中探索该策略。

在无人机遥感的背景下，很少有关于少拍学习的研究。最近，一项研究(Karami et al.，2020)旨在使用对象检测方法CenterNet来检测玉米植物。作者采用了来自其他地理区域和日期的预训练模型的转移学习策略。与之前的训练（600幅图像）相比，来自新区域的图像更少（总共150幅图像）用于模型的微调。根据文献调查，在无人机遥感中使用少拍学习的物体检测背景下，有一个研究空白需要进一步探讨。其背后的主要思想是考虑使用标记较少的数据集进行训练，这可能在数据可用性稀缺或出现次数很少的某些远程应用程序中有所帮助。

5.6

Semi-Supervised Learning and Unsupervised Learning

随着遥感影像可用性的提高，监督训练DL模型的标注任务既昂贵又费时。因此，由于缺乏大量的标记训练图像，DL模型的性能受到影响。努力通过无监督（仅无标签图像）和半监督（有标签和无标签图像）学习在训练中考虑无标签图像。在遥感中，大多数半监督或无监督的方法都是基于转移学习的，这通常需要监督的预训练模型(Liu and Qin，2020)。在这方面，最近的一项研究(Kang et al.,2020)为未标记的遥感图像提出了一种有前途的方法，该方法定义了用于关联紧密子图像的空间增强标准。无论如何，对于基于UAV的数据，这仍然是一个欠发达的实践，应采用新颖的方法进行研究。

未来的观点指向使用对比损失(Bachman et al., 2019; Tian et al.，2019b; Hjelm et al., 2019; He et al., 2020)和基于聚类的方法(Caron et al., 2018,2021)。最近的出版物显示了使用对比损失的有趣结果，该对比损失尚未在遥感中得到充分评估。例如，(He et al.,2020)提出了一种基于对比损失的方法，该方法优于其受过监督的预训练方法的性能。对于基于聚类的方法，他们通常将具有相似特征的图像分组(Caronet al.，2018)。在此问题上，一项研究(Caron et al.,2018)提出了一种对数据进行分组的方法，同时增强了为一对图像（具有两个增强的相同图像）生成的群集分配之间的一致性。一种有效且有效的使用大量未标记图像的方法可以显着提高性能，这主要与模型的可推广性有关。

5.7

Multitask Learning

多任务学习旨在同时执行多个任务。 (Crawshaw,2020)提到了几个优点，包括快速学习和最小化过度拟合问题。近来，在无人机遥感的背景下，已经进行了一些重要的研究。一项研究(Wang et al., 2021)提出了一种方法来执行三个任务（语义分割，高度估计和边界检测），该方法还考虑了边界注意模块。另一项研究(Osco et al.,2020a)同时在基于无人机的影像中检测到了植物和人工林。提议的网络受益于在相同结构中同时考虑这两项任务的贡献，因为植物必须实质上属于人工林。简而言之，在同时考虑线检测的情况下，检测任务得到了改善。在几种基于无人机的遥感应用中可以进一步探索这种方法。

5.8

Open-Set

开放集的主要思想是在推理测试集的过程中处理未知或看不见的类(Bendale and Boult，2016)。正如作者提到的那样，现实世界场景中的识别是“开放集”，与神经网络的本质不同，后者是“封闭集”。因此，仅考虑培训期间使用的类别对测试集进行分类。因此，测试期间不会拒绝未知或看不见的类。很少有关于遥感背景下的开放集的研究。关于航空影像的语义分割，(da Silva et al.，2020)的一项研究提出了一种考虑开放背景的方法。在那里，进行了一种封闭式语义分割方法的改编，在softmax之后添加了一个概率阈值。后来，将基于形态滤波器的后处理步骤应用于分类为未知像素的像素，以验证它们是在像素内部还是在边界内。另一种有趣的方法是将开放集和领域自适应方法相结合，正如(Adayel et al.,2020)在遥感领域提出的那样。

5.9

Photogrammetric Processing

尽管没有像其他实践那样开发，但是可以采用基于DL的方法来处理和优化UAV摄影测量处理任务。此过程旨在生成密集点云和正马赛克，并且它是基于运动结构（SfM）和多视图立体（MVS）技术的。在SfM中，估计内部和外部方向参数，并生成稀疏点云。在SfM中应用图像之间的匹配技术。最近对图像匹配的调查(Ma et al.,2021)得出结论，该主题仍然是一个悬而未决的问题，并且指出DL的潜力是这项任务。作者提到，DL技术主要用于特征检测和描述，并且可以探索对特征匹配的进一步研究。最后，他们指出，一个有前途的方向是定制现代特征匹配技术以参加SfM。关于用于无人机图像匹配的DL，缺乏工作，这表明有可能进行未来的探索。

在无人机摄影测量过程中，DL也可以用于过滤DSM，这对于生成高质量的正射影像是必不可少的。先前的工作(Gevaert et al., 2018)显示了使用DL筛选DSM并生成DTM的潜力。该主题需要进一步研究，主要考虑无人机数据。此外，DL可以受益的另一个任务是，当从成千上万个对应于广阔区域的图像中生成正交镶嵌图像时，图像之间的色彩平衡。

总而言之，本节中讨论的主题构成了计算机视觉社区中的一些热门主题，并且它们与遥感数据的结合可以有助于在UAV映射的背景下开发新颖的方法。在这方面，必须强调的是，不仅这些主题目前正在通过计算机视觉研究进行研究，而且除遥感之外，它们还在以多种方法快速实施。随着其他领域的研究，可以实现改善和适应这些网络的新颖方法。特别是基于无人机的系统在遥感界的未来研究，可能会从这些改进中受益，并将其纳入其应用。

结论

直到撰写本文时，DL仍被认为是解决大多数问题的“黑匣子”式解决方案，尽管新颖的研究正在将这种概念以最小的比例进行最小化。无论如何，在遥感领域，它已经为大多数实施提供了重要的发现。我们的文献修订集中在这些方法在基于无人机的图像处理中的应用。从这个意义上讲，我们对研究进行了结构设计，以提供针对该主题的更多综合方法，同时概述了最新技术以及有关其用法的观点。因此，我们希望该文献修订版可以作为一项包容性调查，以总结基于DNN的无人机应用。因此，在评估的背景下，本次审查得出的结论是：

1.在无人机遥感方面，大多数已出版的材料均基于物体检测方法和RGB传感器；但是，某些应用，例如在精确农业和与森林有关的应用中，受益于多/高光谱数据；

2.需要使用无人机获得的其他带标签的公共可用数据集，以用于训练网络和对网络进行基准测试。在这种情况下，我们通过提供一个包含农业和环境应用中一些无人机数据集的资料库做出了贡献。

3.尽管CNN是最常用的体系结构，但基于CNN-LSTM和GAN的其他方法也正在无人机遥感和图像应用中引起关注，将来的无人机遥感工作可能会受益于它们的加入；

4. DL在GPU处理的辅助下可以提供快速的推理解决方案。然而，仍然需要进一步研究使用无人机上的嵌入式系统进行实时处理。

5.一些有希望的主题，例如开放集，基于注意力的机制，很少的射击和多任务学习可以结合起来，并在无人机遥感的背景下提供新颖的方法；同样，这些主题可以极大地促进DNN的泛化能力。

声明“本人无意侵犯版权”,图片来源于网络，如有侵权联系删除。

缩略语

本手稿使用以下缩写：

AdaGrad Adaptive Gradient Algorithm

AI Artiﬁcial Intelligence

ANN Artiﬁcial Neural Network

CEM Context Enhanced Module