连续时间马尔可夫决策过程的贴现模型

一、连续时间马尔可夫决策过程的折扣模型（论文文献综述）

马文^[1]（2021）在《基于深度强化学习的空战博弈决策研究》文中进行了进一步梳理随着空中作战在现代战争中占据越来越重要的地位,空战决策方法的研究所具备的现实意义也显得尤为突出。由于空中作战态势复杂多变,如何快速感知战场环境并生成一种有利且准确有效的空战策略成为了空战博弈的重要研究方向。在空战决策方法的研究进程中,有诸如专家系统、影响图、矩阵博弈和微分对策等方法的研究进展,但此类传统方法存在适应性较差、计算复杂、难以满足实时性等问题。随着近年来深度强化学习技术的兴起与发展,其在求解决策问题方面展现出极大的优势,本文提出了一种博弈论与深度强化学习相结合的算法,用于提高在博弈场景中空战决策方法的适应性和智能化水平。针对空战博弈态势瞬息万变导致传统强化学习算法面临的维度爆炸问题,以及在空战博弈对抗中难以预测对手决策导致的无法生成有效针对对手策略的问题,本文创新地提出了一种结合博弈论纳什均衡思想与深度强化学习深度Q网络（Deep Q Network,DQN）的空战决策算法,即Minimax-DQN算法。首先,该算法使用神经网络感知空战态势求解连续状态空间下的战机机动动作价值,并通过经验回放技巧和设置独立目标网络来解决样本间关联性导致的训练不稳定问题。其次,在训练过程中采用基于博弈论的ε-minimax探索利用策略,以保证训练样本的多样性和持续决策的合理性。再次,生成空战策略时使用Minimax算法通过线性规划求解最优策略,并采用轮盘赌选法解决在混合策略博弈中选择动作的概率分布问题,经过足够训练的神经网络能够在快速感知空战态势后实时地针对对手的机动策略输出最优空战决策序列,引导战机占据优势态势取得博弈胜利,具备较好的智能性和适应性。最后,通过构建足球游戏博弈场景进行仿真实验,验证了Minimax-DQN算法在博弈环境中的可行性,以及相较于传统DQN算法的优越性。空战仿真设计中,首先对二维及三维近距空战问题进行描述分析,根据战机运动学和动力学方程构建战机的动态模型。其次,分析影响空战态势的主要因素,设计战机飞行状态和机动动作集,并抽象出马尔可夫博弈模型。再次,针对复杂多变的战场对抗环境设计空战有利态势区域,并据此设置完备的优势奖励函数,来引导战机快速感知作战态势并学习生成最优机动策略。最后,构建二维及三维近距空战博弈仿真环境,展开战机博弈对抗的训练并进行决策评估,并在相同环境下使用传统DQN算法进行对比实验。实验结果表明,在复杂空战环境中Minimax-DQN算法通过自我学习,在不同初始态势及不同策略对手的情况下,皆可智能地调整自身态势规避风险并占据有利地位,在博弈场景中取得了远优于DQN算法的成绩,展现出很强的自适应性和充分的优势。此外,其能够在5ms的时间内生成一条机动决策,满足空战博弈对抗中实时性的要求。

王康^[2]（2021）在《基于生成对抗网络和策略梯度的投资组合管理研究》文中指出目前,利用深度强化学习进行投资组合管理是一个热点研究方向,但是在以往的研究方法中往往存在两个共同的问题,第一,训练强化学习智能体的回合数据都是从历史数据中获得的,此时环境的状态空间会因为历史数据的有限性而受到制约,导致智能体难以在环境中进行充分探索;第二,投资组合管理问题通常被建模为标准的马尔可夫决策过程,只利用最近一个时间窗口的数据来指导交易决策,忽略了交易决策可能对前面更多时间步数据的长期依赖情况。针对这些问题,本文的主要工作如下:第一,针对环境的状态空间受历史数据制约的问题,本文提出了一种金融数据增强生成对抗网络（Financial Data Augmentation Generative Adversarial Networks,FDA-GAN）,该模型利用WGAN-GP作为基础架构,使用时间卷积网络作为生成器和判别器,并利用Lambert W×Fx框架对数据进行高斯化处理。实验结果表明,与一些基准生成模型相比,FDA-GAN能够生成具有更高质量的回合数据。第二,针对投资组合管理交易决策可能对前面更多时间步数据长期依赖的问题,本文将投资组合管理建模为部分可观察的马尔可夫决策过程,并定义了在部分可观察马尔可夫决策过程建模下的投资组合管理问题的观察与状态空间、动作空间和奖励函数,然后提出了一种基于循环策略网络的策略梯度算法（Recurrent Policy Network based Policy Gradient algorithm,RPN-PG）投资组合管理模型,该模型中的循环策略网络是部分可观察的马尔可夫决策过程建模的具体实现。第三,本文结合FDA-GAN与RPN-PG,提出了一种基于数据增强的循环策略梯度（Data augmentation Recurrent Policy Gradient,DRPG）投资组合管理模型。本文利用DRPG模型在两个投资组合中进行了实验,实验结果表明,数据增强和部分可观察的马尔可夫决策过程建模都能够提高投资组合的收益,与单纯的PG模型相比,DRPG模型在两个投资组合中的年化收益率分别提升了8.33%和11.23%,同时在夏普比率、索提诺比率上也有不同程度的提升,而且数据增强也能降低最大回撤,充分验证了本文提出的DRPG模型在投资组合管理问题中的有效性。

王云鹏^[3]（2021）在《基于深度强化学习的移动边缘计算的资源优化方法研究》文中提出随着5G网络全球化部署进程不断提速,各行各业提出运行在用户设备（User Equipment,UE）上的计算密集型和时延敏感型的新型应用。虽然移动云计算（Mobile Cloud Computing,MCC）把高计算任务通过公用网络上传到集中式的云服务器上增强了UE的计算和降低UE的能耗,但是云服务器在空间上远离UE导致传输数据需要花费更高的时延。移动边缘计算（Mobile Edge Computing,MEC）将计算和存储资源传输到移动网络的边缘,使UE能够运行高计算资源需求的应用程序,同时满足严格的延迟要求。在传统的移动边缘计算场景下,为充分利用UE和基于固定基站的移动边缘计算云服务器两者的资源,大部分学者提出在通信、存储和计算等多方面资源的联合优化。然而,在具有高移动性的通信设施或者UE中,移动网络拓扑结构发生快速变化,传统优化方法很难解决多维异构的计算资源和通信资源分配问题。针对移动边缘计算场景的资源分配问题,特别是在交通领域,目前有大量学者采用集中式的基于离散动作空间的深度Q网络（Deep Q Network,DQN）进行决策控制。不同与上述研究,本文面向连续动作空间的研究。为解决场景所面临的问题,主要的研究工作如下:一、针对单无人机（Unmanned Aerial Vehicle,UAV）多用户的移动边缘计算场景中资源分配问题,提出一种联合用户调度、无人机移动性和计算卸载决策优化方案,降低了UE的处理时延。首先本文建立了网络通信和计算卸载模型,以最小化所有时隙的最大的处理时延作为优化目标。其次,考虑到计算卸载决策变量的连续性,采用一种基于连续动作空间的深度确定性策略梯度算法（Deep Deterministic Policy Gradient,DDPG）来联合优化用户调度、无人机移动性和计算任务分配。实验结果表明,所提算法能快速收敛到最优解。同时,与DQN等基线算法相比,该算法在处理延迟方面有了显着的降低。仿真结果表明了所提算法的收敛性,以及比较了在不同神经网络的超参数条件下算法的性能表现。相较于其他算法如DQN、Actor Critic和随机算法,在不同任务大小、UE的计算能力和带宽条件下所提算法均能获得最低的任务处理总时延。二、针对车联网中快速变化的信道条件下难以使用集中式采集环境信息进行资源分配的问题,采用一种基于连续动作空间的多智能体（Multi-Agent,MA）的分布式深度强化学习算法MADDPG优化共享的频谱资源,提高了所有V2I链路的总容量和所有的V2V链路的传输速率。每辆车作为一个独立的智能体,它们与车联网环境交互获取一个相同的奖励。通过集中式训练Critic网络和分布式执行Actor网络输出的决策,多智能体之间学会了相互合作。通过实验,本文依次验证了所提算法的收敛性、鲁棒性以及各个智能体的性能表现。相对于MADQN、DDPG算法和随机算法,所提算法在V2I链路总容量和V2V链路负载传输成功概率方面具有更高的性能表现。相较于随机算法,所提算法优化的V2V链路可以通过合作更快地完成负载传输。

王振宇^[4]（2021）在《基于连续控制任务的确定性策略梯度算法研究》文中研究指明无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强化学习的研究还是处于初级阶段,这些算法仍存在着一些问题和挑战,比如维度爆炸、随机环境下泛化能力差、样本数据使用效率低、脆弱的收敛特性和极易陷入局部最优策略。这些问题导致多数模型需要细致的超参数调优,严重限制了深度强化学习方法在复杂现实领域的适用性。在连续动作空间的行动者（Actor）-评论家（Critic）深度强化学习算法中,最先进的双延迟深度确定性策略梯度（TD3）算法缓解了深度确定性策略梯度（DDPG）算法中的过高估计问题,但它可能会导致某些动作严重被低估,TD3维护的这个下界远非真实的Q函数,从而会干扰行动者向最优动作收敛,多次选择次优动作导致行动者难以探索上界,同时也存在样本利用效率过低的问题。本文针对这些问题,对现有的确定性策略梯度算法进行改进,并提出了新的算法。本文的主要工作和研究成果包含以下几个方面:首先,对于连续控制问题,提出了一种对评论家网络平滑的方法。由于连续控制的动作空间是无限大的,我们每次却只能执行一个确定的动作,每次只根据这一个动作和回报对网络进行梯度更新,导致评论家网络产生很多的极点。针对此问题,本文认为理想情况下评论家函数应该是平滑连续的,提出了一种对评论家网络的目标函数平滑的方法,降低了行动者网络的收敛难度,提高了样本利用效率。为了验证新方法的效果,我们通过改进DPG、DDPG算法在Open AI开源的简单双足机器人环境下进行了实验,实验结果表明平滑后的算法收敛速度得到了提升。其次,针对值函数影响最优策略上限的问题,本文通过三种不同的思想提出三种平滑函数,1.两极分化思想:我们认为在行动者-评论家框架中,评论家对动作之间折扣累计估值的排序与真实的折扣累计值的排序一致性很重要,通过把动作估值差距拉大,使误差不足以影响关键动作之间的排序。2.保守思想:我们认为提升某一动作范围内的估值下限会使模型更加健壮。3.熵值思想:从估值准确性来看,估值高的动作熵值较低,估值低的动作熵值较高,所以低熵动作置信度更高,占的权重也高。在本文中,我们将三种不同的平滑方式应用到DDPG和TD3中,分别在两种环境下进行测试,实验表明本文提出的三种平滑函数可以提升最优策略的上限,但也会增加模型收敛不稳定的概率。然后,针对模型不稳定问题,我们发现训练中的行动者稳健性与模型的收敛能力成正相关,行动者陷入局部最优和评论家网络波动过快都会影响学习效果。针对此问题,本文提出了采用双行动者-双评论家架构、延迟更新的算法,降低了行动者陷入局部最优的概率,降低了评论家网络更新速率使行动者可以得到稳定的收敛。为了验证算法的有效性,我们在Open AI开源项目gym中的困难双足机器人环境下进行了大量试验,通过单行动者-双行动者对比试验,验证了双行动者可以使模型的收敛更加健壮,明显减少模型的“雪崩”现象。最后我们将几种方法融合得到的新算法——平滑的双延迟双网络深度确定性策略梯度强化学习算法,与多个最先进的深度确定性策略梯度强化学习算法进行了对比,表明提出的新算法的部分性能优于最先进的算法。

解靖怡^[5]（2021）在《基于航行策略学习的船舶航迹预测方法研究》文中进行了进一步梳理随着海上船舶数量的增加和船舶航速的提高,加强船舶航行的安全和安保管理已成为全球各国的当务之急。在海上交通管理任务中,船舶航迹预测在保障船舶航行安全,实现卫星对目标船舶的实时监控,完成海上交通流量预测等领域,都有着举足轻重的作用。船舶航迹预测主要是指根据目标船舶的历史航迹对未来某段时间内目标船舶在海域中的具体位置进行预测。开展船舶航迹预测的技术研究对提升海上交通管理智能化水平具有重要的理论以及应用价值。然而,船舶航迹预测问题仍面临着许多挑战,首先,由于探测数据的非线性,以及采样间隔的不均匀性,船舶的航迹数据呈现非连续和不均匀的特点;其次,船舶的航迹与动力学模型息息相关,但由于海域环境因素的影响,难以建立准确的船舶运动学模型。因此实现船舶航迹预测仍是一个巨大的挑战。现有的针对船舶航迹预测的研究方法主要包括经典的统计理论方法和神经网络方法两大类。这些方法大多依赖于船舶的运动学模型,导致预测目标运动模式较复杂时预测精度降低;同时,大多数方法主要以短期预测为主,没有考虑航迹数据的先后时序,无法挖掘数据在时间轴上的航迹规律,因此随着预测时长的增加,船舶航迹的预测精度逐渐降低。因此,建立一种免模型的、具有较高精度、且能够实现船舶航迹的中长期预测的航迹预测模型是十分有必要的。将航位预测定义为根据目标船舶的历史航迹信息,对船舶下一时刻航位的概率分布进行预测;航迹预测定义为根据历史信息对船舶未来多个时刻的位置进行预测,将预测得到的多个位置进行连接,进而形成航迹。本文主要聚焦于根据目标船舶的历史航迹,对未来时刻目标船舶的航位以及航迹进行预测估计的问题。主要的研究内容和创新点总结如下:首先,分析船舶航迹预测问题的关键要素,提出基于卷积神经网络的航位预测方法。针对船舶航位预测问题,本文首先对目标船舶的历史航迹数据进行特征提取,采用特征图堆叠的方法,构建多维航迹特征矩阵。然后基于卷积神经网络建立了航位预测问题的求解框架,挖掘历史轨迹在时空域上的规律,实现对目标船舶未来某个时刻的航位预测。实验结果表明,该方法能够提取历史航迹数据的潜在时序特征,实现目标船舶航位的中长期预测,并且具有较高的预测精度。然后,针对基于卷积神经网络的航位预测方法无法对未来多个时刻的航迹进行预测这一难题,建立了一种基于马尔可夫决策过程的船舶航迹预测模型,提出了一种基于航行策略学习的航迹预测方法。首先,将目标船舶的航迹当作其最优决策的结果,把航迹预测问题描述为马尔科夫决策过程,从而将预测问题转换成马尔可夫决策过程的最优策略求解问题。然后,由于航迹预测问题的复杂性,直接求解马尔科夫决策过程的最优策略是不现实的,因此本文采用卷积神经网络将策略网络参数化,并利用深度强化学习方法对目标船舶的航行策略进行拟合。对比实验结果表明,本文所提出的算法不仅适用于目标船舶的航位预测问题,并且在未来多个时刻的航迹预测问题中有明显的优势。

李家腾^[6]（2021）在《基于机器学习的风电功率超短期预测及AGC动态优化控制研究》文中提出二氧化碳排放所导致的全球变暖问题给生态环境带来了不可逆的破坏,实现“碳达峰、碳中和”目标已成为世界各国共同努力的方向。努力提升可再生能源发电占比则是持续推进碳减排,助力碳中和最终目标实现的重要手段。风电作为可再生能源发电的主要形式,也必将迎来大规模的发展。然而由于风电自身所固有的间歇性、随机性及波动性特点,其大规模并网会给电力系统带来较大的随机波动功率,对系统频率带来不利影响。自动发电控制（Automatic Generation Control,AGC）作为电网调度中心能量管理系统中的重要组成部分,是维持系统有功功率平衡、确保系统频率质量的主要手段。如何应对风电大规模接入带来的影响,提高系统频率控制能力,是AGC领域一个新的研究热点。本文利用机器学习技术,针对AGC动态优化控制中两个核心问题开展研究,一是分钟级风电功率预测,二是AGC动态优化控制策略。主要研究成果如下:（1）提出了一种基于长短期记忆（Long Short-term Memory,LSTM）神经网络的1分钟级风电功率超短期预测方法。首先,对风电场历史数据进行预处理,以定位并修正异常数据,提升数据整体质量;然后,利用Spearman秩相关系数法对影响风电功率的气象因素进行筛选,提升模型计算效率;其次,考虑到风电功率具有短时连续性,通过分析风电功率时间序列的自相关性,确定模型时间步长,以提高模型预测精度;最后,利用LSTM神经网络构建了1分钟级风电功率单步和多步预测模型。采用我国北部地区某风场实际数据对本文所提模型进行验证,结果表明本文所提方法可以有效提高风电功率超短期预测的精度。（2）提出了一种基于深度强化学习（Deep Reinforcement Learning,DRL）的AGC动态优化控制策略。首先,将考虑风电并网的AGC动态优化控制转化为马尔可夫决策过程,以最大化累积奖励为控制目标进行多个连续时间断面优化;其次,利用离散型强化学习算法深度竞争Q网络（Dueling Deep Q Network,Dueling DQN）构建AGC动态优化控制模型,并给出其求解策略和工作模式;进一步,考虑到离散化带来的误差以及在求解大规模问题时存在的维数灾难问题,提出基于连续型强化学习算法近端策略优化（Proximal Policy Optimization,PPO）的AGC动态优化控制策略。最后,利用改进的IEEE-14和IEEE-39节点系统,对所提出的基于深度强化学习的AGC动态优化控制策略的可行性和有效性进行验证。

葛红梅^[7]（2021）在《基于802.11p的车联网性能分析与优化研究》文中提出车联网（Internet of Vehicles,Io V）使得车辆间能够通过无线通信交换感知到的道路状况以及车辆运动状态等信息,并根据接收到的信息及时做出反应来减少交通事故、缓解交通拥堵以及节省能耗。然而,由于车辆在复杂多变的环境中高速运动,车辆运动状态时常发生变化,网络拓扑变化频繁,导致网络时延、数据传递率等通信性能实时变化。一旦车联网通信性能无法满足基本的通信需求,车辆无法及时地收到安全信息,道路安全将得不到保障。因此,分析车联网的通信性能是十分必要的。无人驾驶车队与车载雾计算系统是车联网的两个典型应用场景。随着车辆装备越来越多的传感器,车联网中车辆产生的数据量急剧增加。然而,单个车辆计算能力有限,无法及时处理如此庞大的数据。为此,研究人员提出在车载雾计算系统中进行任务卸载。综合考虑传输时延、任务需求、车辆移动、任务到达、离开系统等因素,优化卸载策略是一个挑战。车联网中广泛采取IEEE 802.11p协议进行通信。本文聚焦无人驾驶车队与车载雾计算系统,分析基于802.11p的车联网通信性能以及优化车联网任务卸载策略,全文研究内容如下:（1）分析干扰下基于802.11p的车队通信实时性能。车队稳定性是车队安全的关键,车队受到干扰后,通信性能实时变化,影响着车队稳定性。此部分工作考虑干扰影响,分析基于802.11p的车队通信实时性能。首先建立网络连通模型;其次采取逐点稳态流体流动近似方法（Pointwise Stationary Fluid-Flow Approach,PSFFA）模拟传输队列的排队行为,得到数据包平均数目的表达式;然后基于网络连通模型得到802.11p服务时间的均值和方差,基于均值和方差求得数据包平均数目;最后推导了实时的数据包时延以及传递率,并通过仿真验证了干扰下802.11p协议能够维持车队稳定性。（2）多种计算需求下802.11p车载雾计算系统的任务卸载策略研究。计算需求不同的任务由802.11p不同优先级队列传输,传输时延不同。此部分工作考虑任务多种计算需求影响,优化车载雾计算系统的任务卸载策略以最大化系统收益。首先定义状态集、动作集并推导状态转移概率以及奖励函数,将卸载问题转化为半马尔可夫决策过程（Semi-Markov Decision Process,SMDP）;其次基于贝尔曼方程求得最优的任务卸载方案;最后通过仿真验证了所提的任务卸载策略比贪婪策略具有更好的性能。（3）车载雾计算系统辅助下802.11p车队任务卸载策略研究。当将车队任务分配给多辆车处理时,计算时延减少,但传输时延增加,权衡传输时延以及计算时延来最大化系统收益是任务卸载过程中的难题。此部分工作考虑802.11p传输时延影响,优化车载雾计算系统辅助下的车队任务卸载策略。首先用半马尔可夫决策过程模拟任务卸载过程,并建立模型计算802.11p传输时延,其次应用值迭代算法求解半马尔可夫决策模型获得最优任务卸载方案,最后通过仿真验证了所提出的任务卸载方案优于贪婪策略。

李兆恩^[8]（2021）在《基于机器学习的无线Mesh网络路由算法研究》文中研究指明无线Mesh网络具备组网配置灵活、链路带宽高、非视距多跳传输、兼容性良好、动态适应性强、低成本的优点,已经被广泛部署到万物互联的网络场景。路由技术是无线Mesh网络路由器转发数据包的核心技术。传统无线Mesh网络路由算法的路由发现机制由数学模型驱动,无法快速适应实时改变的网络状态,容易造成网络资源配置不均匀不充分的现象。机器学习路由算法通常是以数据驱动的,因此其能够通过分析过去网络统计数据和性能数据来推断最佳决策。近年来用于解决路由问题的机器学习技术分类主要包括监督学习和强化学习。监督学习需要大量训练数据集进行训练,而现有网络环境中难以获得大量正确标记的数据集。基于强化学习的路由算法可以克服监督学习需要大量训练数据集的不足,更适用于路由问题。现有基于分布式多跳无线网络的强化学习路由算法主要根据优化目标对奖励函数进行研究,但是对于链路干扰、节点负载在内的路由负载均衡性能考虑不够充分。因此,基于强化学习对无线Mesh网络路由问题进行建模,并从负载均衡的角度设计奖励函数具有重要的研究意义。论文针对现有分布式强化学习路由方案对路由负载均衡性能考虑不足的问题,提出了符合多接口多信道无线Mesh 网络路由特性的基于Q学习及负载与干扰感知的路由算法（Q-Learning Load Interface Aware Routing Algorithm,QLNLIA）,设计了包括链路干扰以及节点负载在内的奖励函数,使其能够根据网络状态的变化不断进行学习以适应无线介质和网络拓扑的动态变化,并对其进行平滑处理以避免对网络变化过度反应。QLNLIA算法通过单跳Hello包广播的方式,动态地调整路由策略选择下一跳中继节点来转发数据包。仿真结果显示,QLNLIA算法有效避开了网络重负载区域,实现了负载均衡的效果,提升了网络吞吐量性能。无线Mesh网络中网关节点承载了内部网络与Internet网络交互的流量,无线Mesh网络研究通常为无线Mesh网络配备多个网关节点以缓解瓶颈网关节点压力。针对目前多网关无线Mesh网络场景下分布式强化学习路由算法未统一考虑网关负载与到达网关的路径质量问题,论文在QLNLIA算法基础上提出了基于Q学习及负载和干扰感知的多网关负载均衡选择路由算法（Q-Learning Gateway Selection Load Interface Aware Routing Algorithm,QLGSLIA）,该算法为Internet业务与非Internet业务分别设计了奖励函数,将网关侦听范围划分为热点区域,使非Internet业务主动避让网关节点;对于Internet业务,将网关负载同链路干扰负载等网络参数统一考虑,以强化学习的方式结合到达网关路径综合负载情况合理选择网关节点,从整体上提升网络吞吐量。仿真结果显示,本研究内容提出的强化学习方法综合考虑了无线Mesh网络的各项路由指标,可以灵活的调整路由策略,充分利用网关资源,保证服务质量,提高网络整体吞吐量,降低平均端到端时延。论文最后对全文研究工作做出总结,并对下一步研究工作做出展望。

黄晓峰^[9]（2021）在《基于强化学习的移动机械臂轨迹和路径规划方法研究》文中研究指明在工业机器人领域中,移动机械臂轨迹和路径协同规划的效果直接影响着仓储环境下的移动机械臂自动化分拣物品的效率。在以往的学术研究当中,移动机械臂轨迹规划和路径规划往往被当作独立问题进行研究,割裂了两者之间的联系,在一定程度上,降低了移动机械臂分拣物品的效率。针对在未知环境下建立移动机械臂轨迹和路径协同规划模型的需要,本文设计并实现了深度强化学习算法用于模型的训练,从而将移动机械臂轨迹规划和路径规划的问题联系了起来,使得移动机械臂在仓储环境下更高效率地分拣物品。本文主要工作包括:（1）搭建了实验仿真环境,并完善了相应的功能。参照仓储环境,本文使用Unity3D引擎搭建了实验仿真环境,并利用ML-Agents框架创建了移动机械臂智能体,并对该智能体完成了状态空间、动作空间以及奖赏函数的设计,规范了智能体的参数信息,便于后续基于该实验环境的深度强化学习算法的研究。（2）针对几种深度强化学习基础算法的实验情况,挑选出了基准算法。在对基础算法的内部参数进行了微调后,搭建了实验仿真环境的加载器,为相应的基础算法提供了移动机械臂智能体的环境信息,最后利用这些算法训练出了移动机械臂轨迹和路径协同规划模型,比较这些模型价值网络的损失值和获得的平均奖励值,选出了性能较优的TD3算法作为基准算法。（3）对基准算法提出了改进并进行了实验。TD3算法的双延迟机制能够稳定模型参数的更新过程,并且A3C算法的异步优势能够进一步加强经验数据间的不相关性且能提升模型的训练速度。因此,本文提出了一种融合异步优势和双延迟的深度确定性策略梯度算法,即AA-TD3算法,设计并实现了算法的总体架构和神经网络结构,比较了模型改进前后的实验效果。本文将深度强化学习算法首次应用到移动机械臂轨迹和路径协同规划模型的训练当中,并且同时在基准算法的内部结构上进行了优化改进,包含了理论和应用上的双重创新工作,这都为深度强化学习在工业机器人领域的应用和发展提供了实践基础,也为后续相关的科研工作提供了一定的参考价值。

马仲军^[10]（2021）在《面向无线携能通信的移动边缘计算任务卸载算法研究》文中研究指明现如今,物联网用户需求的不断增长以及相关应用的发展,给移动设备提出了更高的计算需求、带宽需求、存储需求等。但是受到电池容量以及计算能力的限制,用户不断增长的计算需求和设备有限的资源之间的矛盾成为目前移动物联网架构发展所面临的主要问题。为了解决上述问题,移动边缘计算（Mobile Edge Computing）以及无线携能通信（Simultaneous Wireless Information and Power Transfer）应运而生,并且自提出后就受到了广泛的关注,有着广泛的研究意义和应用前景。在现有研究中,大多数研究从用户角度出发,针对用户的实际体验,设计任务卸载策略,但是实际应用中,ISPs（Internet Service Providers）作为网络运营商也需要考虑相关收益问题。为此,本文着眼于运营商角度,研究面向无线携能通信场景下的任务卸载策略,以最大化运营商能量使用率为目标,建立了相应的物理模型。在求解方式上,为了解决传统算法求解复杂度过高、求解速度慢等问题,设计求解算法时引入机器学习网络自学习的特征,并使用Actor-Critic算法框架改善收敛性,提出了基于深度强化学习的任务卸载算法,提高了求解的速度,改善了解的质量。最后,通过仿真分析,验证了本文所提出的算法能够有效地提高基站能量的利用率,相较于部分卸载算法以及全卸载算法,我们所提出的卸载算法所提升的处理率分别至少达45.8%和64.2%。随着用户数量以及基站规模的增加,单小区场景下的算法局限性越发突出。本文提出了针对多小区场景下的无线携能通信任务卸载模型。针对优化问题的耦合性,将单个基站视作为单个Agent,其中每个Agent都采用深度确定性策略梯度算法来处理其连续动作问题,分别解决其对应的MDP问题。将模型重构为协作式智能体马尔科夫博弈模型,设计基于多Agent强化学习的任务卸载算法作为其解法,以提高求解速度和求解质量。通过仿真对比分析,所提出的多智能体算法性能相较于单智能体算法最少有12%的提升。

二、连续时间马尔可夫决策过程的折扣模型（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、连续时间马尔可夫决策过程的折扣模型（论文提纲范文）

（1）基于深度强化学习的空战博弈决策研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究工作的背景与意义

1.2 国内外研究历史与现状

1.2.1 空战博弈决策的国内外研究历史与现状

1.2.2 深度强化学习的国内外研究历史与现状

1.3 本论文的研究内容与组织结构

1.3.1 本论文的研究内容

1.3.2 本论文的组织结构

第2章相关研究基础

2.1 引言

2.2 深度强化学习理论基础

2.2.1 强化学习

2.2.2 深度强化学习

2.3 博弈论

2.3.1 博弈基础理论

2.3.2 马尔可夫博弈

2.4 本章小结

第3章 Minimax-DQN算法的提出及论证

3.1 引言

3.2 Minimax-Q算法

3.3 Minimax-DQN算法的提出

3.4 Minimax-DQN算法实验论证

3.5 本章小节

第4章一对一近距空战博弈仿真设计与验证

4.1 引言

4.2 二维近距空战博弈仿真

4.2.1 二维近距空战问题描述

4.2.2 二维近距空战博弈建模

4.2.3 二维近距空战仿真实验

4.3 三维近距空战博弈仿真

4.3.1 三维近距空战问题描述

4.3.2 三维近距空战博弈建模

4.3.3 三维近距空战仿真实验

4.4 本章小节

第5章总结与展望

5.1 全文总结

5.2 后续工作展望

参考文献

攻读学位期间取得的研究成果

致谢

（2）基于生成对抗网络和策略梯度的投资组合管理研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 基于值函数的强化学习方法

1.2.2 基于策略梯度的强化学习方法

1.2.3 研究现状的总结和分析

1.3 本文主要工作

1.4 本文结构安排

第2章相关背景知识

2.1 金融术语

2.1.1 证券投资组合

2.1.2 资产价格与收益率

2.2 神经网络

2.2.1 循环神经网络

2.2.2 生成对抗网络

2.3 强化学习

2.3.1 马尔可夫决策过程

2.3.2 贝尔曼方程与最优值函数

2.4 本章小结

第3章数据获取与预处理

3.1 投资组合构建

3.2 数据获取

3.3 数据预处理

3.4 训练数据形式化定义

3.5 本章小结

第4章基于生成对抗网络的金融时间序列生成

4.1 引言

4.2 FDA-GAN:金融数据增强生成对抗网络

4.2.1 WGAN-GP

4.2.2 生成器与判别器的构造

4.3 对数收益率实证分析中的重尾分布

4.4 金融时间序列的处理与转换

4.5 生成器的训练方法

4.6 实验结果与分析

4.6.1 评价指标

4.6.2 实验模型与参数

4.6.3 生成器的训练分析

4.6.4 生成器的质量分析

4.7 本章小结

第5章基于策略梯度与数据增强的投资组合管理

5.1 引言

5.2 投资组合管理作为部分可观察的马尔可夫决策过程

5.2.1 观察与状态空间

5.2.2 动作空间

5.2.3 奖励函数

5.3 RPN-PG:基于循环策略网络的策略梯度算法

5.3.1 蒙特卡洛策略梯度算法

5.3.2 投资组合循环策略网络

5.4 基于DRPG的交易策略训练方法

5.5 实验与结果分析

5.5.1 评价指标

5.5.2 实验模型与参数

5.5.3 基于DRPG的交易策略训练分析

5.5.4 DRPG投资组合管理性能分析

5.5.5 DRPG权重调整分析

5.5.6 DRPG交易信号分析

5.6 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

（3）基于深度强化学习的移动边缘计算的资源优化方法研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 移动边缘计算研究现状

1.2.2 无人机辅助的移动边缘计算的研究现状

1.2.3 车联网结合移动边缘计算的研究现状

1.3 主要研究内容

1.4 论文组织结构

2 相关技术介绍

2.1 移动边缘计算

2.1.1 传统移动边缘计算

2.1.2 无人机辅助的移动边缘计算

2.1.3 车联网相关技术

2.2 强化学习

2.2.1 马尔可夫决策过程

2.2.2 Q学习

2.2.3 深度Q学习

2.2.4 Actor Critic

2.3 本章小结

3 面向连续动作空间问题的资源分配

3.1 问题描述

3.2 数学建模

3.2.1 通信模型

3.2.2 计算模型

3.2.3 优化问题

3.3 基于DDPG的计算卸载算法

3.3.1 DDPG框架

3.3.2 状态空间

3.3.3 动作空间

3.3.4 奖励函数

3.3.5 状态归一化算法

3.3.6 训练和测试算法

3.4 实验仿真

3.4.1 仿真设置

3.4.2 参数分析

3.4.3 性能比较

3.5 本章小结

4 基于多智能体DDPG的资源优化策略

4.1 问题描述

4.2 数学建模

4.3 基于MADDPG的资源分配算法

4.3.1 部分可观测马尔可夫决策过程建模

4.3.2 状态空间

4.3.3 动作空间

4.3.4 奖励函数

4.3.5 多智能体强化学习MADDPG算法

4.4 实验仿真

4.4.1 仿真环境

4.4.2 基线算法

4.4.3 实验结果

4.5 本章小结

5 总结与展望

5.1 研究总结

5.2 未来展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

（4）基于连续控制任务的确定性策略梯度算法研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题研究的背景和意义

1.2 强化学习的研究现状

1.2.1 表格型强化学习

1.2.2 近似性强化学习

1.3 研究内容和论文组织结构

第2章基础知识与相关研究

2.1 强化学习

2.2 马尔可夫决策过程

2.2.1 马尔可夫性

2.2.2 马尔可夫过程

2.2.3 马尔可夫奖励过程

2.2.4 马尔可夫决策过程

2.3 贝尔曼方程

2.3.1 状态价值函数

2.3.2 动作价值函数

2.3.3 状态和动作价值函数的关系

2.4 传统强化学习算法

2.4.1 蒙特卡罗算法

2.4.2 时序差分方法

2.4.3 SARSA算法

2.4.4 Q学习算法

2.4.5 双Q学习算法

2.5 基于价值深度强化学习

2.5.1 DQN

2.5.2 Double DQN

2.6 基于策略梯度强化学习算法

2.6.1 随机策略梯度(SPG)

2.6.2 确定性策略梯度(DPG)

2.6.3 深度确定性策略梯度(DDPG)

2.6.4 双延迟深度确定性策略梯度算法(TD3)

2.7 本章小结

第3章基于确定性策略梯度的算法设计

3.1 引言

3.2 评论家网络的平滑优化

3.3 多种平滑方法的研究

3.3.1 两极分化函数

3.3.2 悲观平滑思想

3.3.3 乐观平滑思想

3.3.4 其他目标值计算方式

3.4 平滑策略梯度算法(SDPG)

3.5 平滑深度策略梯度算法(SDDPG)

3.6 实验分析

3.6.1 实验环境介绍

3.6.2 DDPG与 SDDPG在简单任务下对比试验

3.7 本章小结

第4章延迟双Actor策略梯度算法

4.1 引言

4.2 双Critic网络

4.2.1 过估计证明以及解决方法

4.2.2 双评论家的试验分析

4.2.3 TD3 与STD3 的实验分析

4.3 平滑的延迟双网络深度确定性策略梯度强化学习算法

4.3.1 双行动者网络

4.3.2 平滑的延迟双网络深度确定性策略梯度强化学习算法(SD4)

4.3.3 实验结果分析

4.4 本章小结

结论

参考文献

攻读硕士学位期间所发表的学术论文

致谢

（5）基于航行策略学习的船舶航迹预测方法研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 课题背景及研究意义

1.2 国内外研究现状

1.2.1 航迹预测研究现状

1.2.2 强化学习研究现状

1.3 论文的主要研究内容和创新点

1.4 论文组织结构

第2章船舶航迹预测技术基础

2.1 引言

2.2 典型船舶航迹预测方法

2.2.1 基于统计学的航迹预测方法

2.2.2 基于神经网络的航迹预测方法

2.2.3 实验结果与分析

2.3 本文预测方法理论基础

2.3.1 卷积神经网络

2.3.2 强化学习

2.4 小结

第3章基于卷积神经网络的航位预测方法

3.1 引言

3.2 航行状态的特征设计与建模

3.2.1 多维航迹特征提取

3.2.2 海洋环境栅格化建模

3.3 基于卷积神经网络的航位预测方法

3.3.1 神经网络模型设计

3.3.2 网络模型训练

3.4 小结

第4章基于航行策略学习的航迹预测方法

4.1 引言

4.2 基于马尔可夫决策过程的航迹预测问题建模

4.2.1 航迹预测过程描述

4.2.2 基于马尔可夫决策过程的航迹预测数学模型

4.3 基于深度强化学习的船舶航迹预测算法

4.3.1 航迹预测策略网络

4.3.2 基于PPO算法的航迹预测策略网络的训练

4.4 小结

第5章航迹预测实验及结果分析

5.1 实验数据预处理及评价指标

5.1.1 航迹数据预处理

5.1.2 预测方法评价指标

5.2 基于卷积神经网络的航位预测方法实验

5.3 基于航行策略学习的航迹预测方法实验

5.4 小结

总结与展望

参考文献

致谢

作者简历及攻读学位期间发表的学术论文与研究成果

（6）基于机器学习的风电功率超短期预测及AGC动态优化控制研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 绪论

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 风电功率超短期预测

1.2.2 AGC控制策略

1.3 本文主要工作

2 风电功率超短期预测和AGC动态优化控制理论基础

2.1 引言

2.2 基于深度学习的风电功率超短期预测理论基础

2.2.1 深度学习理论

2.2.2 循环神经网络

2.3 基于强化学习的AGC动态优化控制理论基础

2.3.1 AGC性能评价标准

2.3.2 AGC动态优化控制数学模型

2.3.3 强化学习理论

2.4 本章小结

3 基于LSTM神经网络的风电功率超短期预测

3.1 引言

3.2 预测模型训练样本集构建

3.2.1 数据预处理

3.2.2 关键气象因素识别

3.2.3 训练样本生成

3.3 基于LSTM神经网络的风电功率预测模型

3.3.1 LSTM神经网络

3.3.2 模型超参数确定

3.3.3 基于LSTM神经网络预测模型设计

3.3.4 预测模型工作模式

3.4 算例分析

3.5 本章小结

4 基于深度强化学习的AGC动态优化控制

4.1 引言

4.2 马尔可夫决策过程建模

4.2.1 系统状态空间

4.2.2 系统动作空间

4.2.3 系统状态转移

4.2.4 系统奖励函数

4.2.5 系统优化目标

4.3 基于Dueling DQN的 AGC动态优化控制策略

4.3.1 Dueling DQN算法

4.3.2 基于Dueling DQN的 AGC动态优化控制工作模式

4.4 基于PPO的 AGC动态优化控制策略

4.4.1 PPO算法

4.4.2 基于PPO的 AGC动态优化控制工作模式

4.5 算例分析

4.5.1 IEEE-14 节点测试系统性能分析

4.5.2 IEEE-39 节点测试系统性能分析

4.6 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

（7）基于802.11p的车联网性能分析与优化研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 选题研究背景及意义

1.2 国内外相关研究动态

1.3 本文主要工作与贡献

1.4 论文组织结构

第二章干扰下基于802.11p的车队通信实时性能分析

2.1 相关工作

2.1.1 其他车队通信技术

2.1.2 802.11p性能分析

2.2 系统模型

2.2.1 车队场景

2.2.2 802.11p EDCA机制

2.3 分析模型

2.3.1 网络连通模型

2.3.2 传输队列的动态行为

2.3.3 服务时间的均值和方差

2.3.4 性能分析

2.4 模型验证与性能分析

2.4.1 参数设置

2.4.2 实验结果

2.5 本章小结

第三章基于802.11p的车载雾计算系统任务卸载策略研究

3.1 相关工作

3.2 系统模型

3.2.1 任务卸载模型

3.2.2 802.11p EDCA机制

3.3 SMDP模型

3.3.1 系统状态集

3.3.2 动作集

3.3.3 状态转移概率

3.3.4 系统奖励函数

3.4 问题求解

3.5 数值结果与分析

3.5.1 参数设置

3.5.2 数值结果

3.6 本章小结

第四章基于802.11p的车队任务卸载方案研究

4.1 相关工作

4.2 系统模型

4.2.1 任务卸载模型

4.2.2 802.11p DCF机制

4.3 SMDP模型

4.3.1 系统状态集

4.3.2 动作集

4.3.3 系统状态转移概率

4.3.4 系统奖励函数

4.4 求解SMDP模型

4.5 结果与分析

4.5.1 参数设置

4.5.2 数值结果

4.6 本章小结

第五章总结与展望

5.1 本文总结

5.2 展望

致谢

参考文献

附录:作者在攻读硕士学位期间发表的论文

（8）基于机器学习的无线Mesh网络路由算法研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及其意义

1.2 国内外研究现状

1.2.1 传统无线Mesh网络研究现状

1.2.2 机器学习路由算法研究现状

1.3 论文研究内容

1.4 论文结构安排

第二章无线Mesh网络与机器学习路由关键技术

2.1 无线Mesh网络概述

2.1.1 无线Mesh网络结构

2.1.2 无线Mesh网络特点

2.1.3 无线Mesh网络关键技术

2.1.4 传统无线Mesh网络路由算法

2.2 机器学习路由技术概述

2.2.1 机器学习技术概述

2.2.2 机器学习路由算法概述

2.3 强化学习理论与算法概述

2.3.1 强化学习基本概念

2.3.2 马尔可夫决策模型

2.3.3 马尔可夫求解方法

2.3.4 Q学习算法介绍

2.4 本章小结

第三章基于Q学习及负载与干扰感知的无线Mesh网络路由算法

3.1 引言

3.2 相关基于Q学习路由算法介绍

3.2.1 Q学习路由机理

3.2.2 Q-Routing路由算法

3.2.3 QLAODV路由算法

3.3 问题建模

3.3.1 网络模型

3.3.2 马尔可夫决策模型

3.4 奖励函数设计

3.4.1 奖励函数设计标准

3.4.2 负载均衡奖励函数设计

3.5 QLNLIA路由算法设计实现

3.5.1 Q值表更新过程

3.5.2 算法流程

3.6 性能测试与分析

3.6.1 仿真环境参数设置

3.6.2 路由算法参数设置

3.6.3 仿真结果分析

3.7 本章小结

第四章基于Q学习及负载与干扰感知的多网关负载均衡无线Mesh网络路由算法

4.1 引言

4.2 问题建模

4.2.1 网络模型

4.2.2 马尔可夫决策模型

4.3 奖励函数设计

4.3.1 网关负载度量

4.3.2 多网关负载均衡奖励函数设计

4.4 QLGSLIA路由算法设计实现

4.4.1 Q值表更新过程

4.4.2 算法流程

4.5 性能测试与分析

4.5.1 仿真环境参数设置

4.5.2 路由算法参数设置

4.5.3 仿真结果分析

4.6 本章小结

第五章总结与展望

5.1 全文总结

5.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

（9）基于强化学习的移动机械臂轨迹和路径规划方法研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 移动机械臂研究现状

1.2.2 强化学习研究现状

1.2.3 移动机械臂运动规划研究现状

1.3 研究目标与内容

1.4 论文组织结构

第二章相关理论基础

2.1 强化学习理论

2.1.1 强化学习基本概念

2.1.2 马尔可夫决策过程

2.1.3 蒙特卡洛方法

2.1.4 时间差分方法

2.2 基于值与基于策略的更新方法

2.2.1 基于值的更新方法

2.2.2 基于策略的更新方法

2.2.3 演员-评论家方法

2.3 深度确定性策略梯度算法

2.4 本章小结

第三章实验仿真平台设计与搭建

3.1 实验仿真平台搭建

3.1.1 Unity3D引擎和Unity IDE简介

3.1.2 整合ML-Agents框架

3.1.3 仓储移动机械臂环境设计

3.2 环境建模与设计

3.2.1 状态空间设计

3.2.2 动作空间设计

3.2.3 奖赏函数设计

3.3 本章小结

第四章几种强化学习算法模型在仿真环境下的比较分析

4.1 几种强化学习算法基础模型原理

4.1.1 PPO算法

4.1.2 DDPG算法

4.1.3 TD3 算法

4.2 基础模型应用实验

4.2.1 实验环境介绍

4.2.2 实验环境加载

4.2.3 模型的实现

4.2.4 模型的训练及测试

4.2.5 结果对比与分析

4.3 本章小结

第五章一种融合异步优势和双延迟的深度确定性策略梯度算法设计

5.1 A3C算法

5.2 AA-TD3 设计与实现

5.2.1 模型的设计

5.2.2 模型的实现

5.3 AA-TD3 应用实验

5.3.1 模型的训练及测试

5.3.2 结果分析

5.4 本章小结

第六章总结与展望

6.1 全文总结

6.2 后续工作展望

致谢

参考文献

（10）面向无线携能通信的移动边缘计算任务卸载算法研究（论文提纲范文）

致谢

摘要

abstract

第一章绪论

1.1 课题的研究背景及意义

1.2 国内外研究现状

1.2.1 传统通信模型下的任务卸载问题研究

1.2.2 无线携能通信模型下的任务卸载问题研究

1.3 课题来源及章节结构安排

第二章相关理论与技术

2.1 无线携能通信

2.2 移动边缘计算卸载

2.3 深度强化学习算法

2.3.1 强化学习

2.3.2 深度学习

2.3.3 基于Actor-Critic框架的深度强化学习

2.3.4 多Agent强化学习

第三章单小区无线携能通信下的任务卸载算法

3.1 系统模型与问题描述

3.1.1 单小区边缘计算系统模型

3.1.2 任务卸载模型

3.1.3 能量补充模型

3.1.4 问题规划

3.2 基于近端策略优化的任务卸载算法

3.2.1 马尔可夫决策过程

3.2.2 Actor-Critic框架

3.2.3 算法描述

3.3 仿真实验及分析

3.4 本章小结

第四章多小区无线携能通信下的任务卸载算法

4.1 系统模型与问题描述

4.1.1 多小区边缘计算系统模型

4.1.2 任务卸载模型

4.1.3 问题描述

4.2 基于多Agent强化学习的任务卸载算法

4.2.1 多Agent马尔可夫决策过程模型

4.2.2 算法框架

4.3 仿真实验及分析

4.4 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间的学术活动及成果情况

四、连续时间马尔可夫决策过程的折扣模型（论文参考文献）

[1]基于深度强化学习的空战博弈决策研究[D]. 马文. 四川大学, 2021(02)
[2]基于生成对抗网络和策略梯度的投资组合管理研究[D]. 王康. 四川大学, 2021(02)
[3]基于深度强化学习的移动边缘计算的资源优化方法研究[D]. 王云鹏. 北京交通大学, 2021(02)
[4]基于连续控制任务的确定性策略梯度算法研究[D]. 王振宇. 哈尔滨理工大学, 2021(02)
[5]基于航行策略学习的船舶航迹预测方法研究[D]. 解靖怡. 中国科学院大学(中国科学院国家空间科学中心), 2021(01)
[6]基于机器学习的风电功率超短期预测及AGC动态优化控制研究[D]. 李家腾. 北京交通大学, 2021(02)
[7]基于802.11p的车联网性能分析与优化研究[D]. 葛红梅. 江南大学, 2021(01)
[8]基于机器学习的无线Mesh网络路由算法研究[D]. 李兆恩. 北京邮电大学, 2021(01)
[9]基于强化学习的移动机械臂轨迹和路径规划方法研究[D]. 黄晓峰. 电子科技大学, 2021(01)
[10]面向无线携能通信的移动边缘计算任务卸载算法研究[D]. 马仲军. 合肥工业大学, 2021(02)

标签：马尔可夫论文; 机器学习论文; 马尔可夫决策过程论文; 模型预测控制论文; 深度学习算法论文;

连续时间马尔可夫决策过程的贴现模型

一、连续时间马尔可夫决策过程的折扣模型（论文文献综述）

二、连续时间马尔可夫决策过程的折扣模型（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、连续时间马尔可夫决策过程的折扣模型（论文提纲范文）

（1）基于深度强化学习的空战博弈决策研究（论文提纲范文）

（2）基于生成对抗网络和策略梯度的投资组合管理研究（论文提纲范文）

（3）基于深度强化学习的移动边缘计算的资源优化方法研究（论文提纲范文）

（4）基于连续控制任务的确定性策略梯度算法研究（论文提纲范文）

（5）基于航行策略学习的船舶航迹预测方法研究（论文提纲范文）

（6）基于机器学习的风电功率超短期预测及AGC动态优化控制研究（论文提纲范文）

（7）基于802.11p的车联网性能分析与优化研究（论文提纲范文）

（8）基于机器学习的无线Mesh网络路由算法研究（论文提纲范文）

（9）基于强化学习的移动机械臂轨迹和路径规划方法研究（论文提纲范文）

（10）面向无线携能通信的移动边缘计算任务卸载算法研究（论文提纲范文）

四、连续时间马尔可夫决策过程的折扣模型（论文参考文献）

猜你喜欢