专栏首页arxiv.org翻译专栏无人机无线数据采集路径规划:一种深度强化学习方法(CS)
原创

无人机无线数据采集路径规划:一种深度强化学习方法(CS)

自主部署支持下一代通信网络的无人机需要有效的轨迹规划方法。我们提出了一种新的端到端强化学习(RL)方法,用于在城市环境中从物联网(IoT)设备收集无人机支持的数据。自主无人机的任务是从有限的飞行时间和避障中收集来自分布式传感器节点的数据。尽管以前基于学习和非学习的方法, 当重要的场景参数如传感器的数量、传感器的位置或最大飞行时间发生变化时必须执行昂贵的重新计算或重新学习行为,我们训练一个双深度q网络(DDQN)与联合经验回放来学习无人机控制策略,该策略可以概括不断变化的场景参数。通过利用通过卷积网络层反馈给代理的多层环境图表明,我们提出的网络体系结构使代理能够针对各种场景参数制定移动决策,从而平衡数据收集目标与飞行时间效率和安全约束。学习效率方面,在非中心地图上使用以无人机位置为中心的地图的优势也得以说明。

题目:UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement Learning Approach

原文: Autonomous deployment of unmanned aerial vehicles (UAVs) supporting next-generation communication networks requires efficient trajectory planning methods. We propose a new end-to-end reinforcement learning (RL) approach to UAV-enabled data collection from Internet of Things (IoT) devices in an urban environment. An autonomous drone is tasked with gathering data from distributed sensor nodes subject to limited flying time and obstacle avoidance. While previous approaches, learning and non-learning based, must perform expensive recomputations or relearn a behavior when important scenario parameters such as the number of sensors, sensor positions, or maximum flying time, change, we train a double deep Q-network (DDQN) with combined experience replay to learn a UAV control policy that generalizes over changing scenario parameters. By exploiting a multi-layer map of the environment fed through convolutional network layers to the agent, we show that our proposed network architecture enables the agent to make movement decisions for a variety of scenario parameters that balance the data collection goal with flight time efficiency and safety constraints. Considerable advantages in learning efficiency from using a map centered on the UAV's position over a non-centered map are also illustrated.

原文作者:Harald Bayerlein, Mirco Theile, Marco Caccamo, David Gesbert

原文地址:https://arxiv.org/abs/2007.00544

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 神经网络零空间分析的异常值检测 (CS)

    许多机器学习分类系统缺乏能力意识。具体而言,许多系统缺乏识别何时将异常值(例如,不同于训练数据分布且未在训练数据分布中表示的样本)呈现给系统的能力。检测异常值的...

    DDDDDaemon
  • 通过挖掘文档提取超参数模式 (CS )

    AI自动化工具需要机器可读的超参数模式来定义它们的搜索空间。与此同时,AI库通常带有良好的人类可读的文档。尽管这样的文档包含了大部分必要的信息,但不幸的是,它还...

    DDDDDaemon
  • 基于激光雷达的城市场景自动驾驶实时三维感知系统 (CS)

    本文针对城市场景下的自动驾驶,提出了基于激光雷达的实时三维感知系统。所设计的多层级系统能够同时对环境中静态和动态对象进行实时建模。该方法通过创新的细节增强功能扩...

    DDDDDaemon
  • 【Gym 100015B】Ball Painting(DP染色)

    There are 2N white balls on a table in two rows, making a nice 2-by-N rectangle....

    饶文津
  • python serial读串口

    由于项目需求,需要从传感器节点和GPS中读取数据,所以学习了如何用python读串口。

    py3study
  • 远程方法调用(RMI)原理与示例 转

      远程方法调用(RMI)顾名思义是一台机器上的程序调用另一台机器上的方法。这样可以大致知道RMI是用来干什么的,但是这种理解还不太确切。RMI是Java支撑分...

    wuweixiang
  • [LeetCode] 523. Continuous Subarray Sum

    【原题】 Given a list of non-negative numbers and a target integer k, write a fun...

    用户1148830
  • Vim 常用资源

    mojocn
  • Oracle 系统表

    Below is an alphabetical listing of the Oracle system tables that are commonly u...

    蒋金楠
  • Alink漫谈(二十一) :回归评估之源码分析

    Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和将带领大家来分析Al...

    罗西的思考

扫码关注云+社区

领取腾讯云代金券