一、Nash Inequalities for Markov Processes in Dimension One(论文文献综述)
贾恩富[1](2021)在《分布式无线网络智能接入算法研究》文中提出随着物联网业务的蓬勃发展,物联网终端的通信变得尤为重要,无线通信技术在解决物联网中出现的问题的过程中扮演着非常重要的角色。分布式无线网络具备部署灵活、效率高、鲁棒性好等特点,所以受到研究者愈来愈多的重视。然而,随着物联网终端层出不穷,大规模终端如何高效智能地接入到网络已成为亟需解决的问题。因此,本文将针对分布式无线网络中大规模终端的竞争接入问题进行深入研究。本论文的主要研究成果和贡献如下:(1)基于生物启发的分布式无线网络自组织接入算法针对分布式无线网络中多节点竞争接入单信道碰撞率较高的问题,本文提出了一种基于生物启发的自组织接入算法。该算法是受蚁群共识主动性(Stigmergy)和蛙群短时间内交替呼叫行为的启发。在该算法中将节点的状态看作相位值,所有节点通过相位共振的方式实现信息的同步更新,节点根据不同行为改变自身的状态,当节点的状态达到一定的阈值时,该节点就可以接入信道中传输数据包。从发起接入请求到接入完成的过程中,各节点独立行动,相互协作和修正,完成自我状态的更新,所有节点以定好的“规则”实现单信道接入。最后对网络的碰撞率、吞吐量和时延做了分析计算。仿真结果表明,提出的自组织接入算法在分布式无线网络场景中可以有效减少接入碰撞的发生,并且改善了网络的性能。(2)基于平均场博弈的分布式无线网络智能接入算法针对分布式无线网络中多节点竞争接入多信道能效较差的问题,本文提出了一种基于平均场博弈的智能接入算法。该算法将节点之间的竞争接入描述为博弈过程,建立随机微分博弈模型,在满足信道接入要求的同时以最大化节点的能效为目标,得到最优的行为策略。然而,随着节点数量增多,造成用于表征节点之间交互的矩阵的维度过大,所以求解较困难。因此,通过引入平均场理论,将随机微分博弈转化为平均场博弈,可以将节点与节点之间的交互近似地转化为节点与平均场之间的交互,这样不但降低了复杂度,而且减少了计算开销。另外,通过迭代求解HJB-FPK方程,得到平均场博弈的纳什均衡。最后,提出基于马尔可夫模型的退避策略,节点根据网络情况和自身状态得到相应的退避策略。仿真结果表明,该算法对于优化多节点的竞争接入是有效的。(3)分布式无线网络接入管理平台本文使用Django和React框架设计并搭建了分布式无线网络接入管理平台,并应用于实际的物联网系统中。该平台分为前端开发和后端开发,前端负责展示可视化界面,主要的功能模块包括网络拓扑动态展示模块、数据展示模块、网络状态展示模块等。后端负责处理传感器终端上传的数据。经过实际网络环境的测试,平台的所有功能均正常工作,系统中的接入算法运行正常,而且达到了预期的结果,同时表明了该平台不仅可以增强分布式无线网络的可视性,也可以提高网络运维的便利性。
崔玉亚[2](2021)在《面向移动边缘计算的任务调度的关键技术研究》文中指出随着万物互联的不断发展,目前的网络带宽已经不能满足数据的爆炸式增长。并且,工业物联网、智慧城市、无人驾驶等高新技术对低延迟的需求更高。移动边缘计算(Mobile Edge Computing,MEC)将存储、计算和网络资源部署在网络的边缘,在地理位置上更加靠近用户。将计算任务卸载到边缘服务器上可以使任务得到及时的处理,能够有效的减少端到端延迟,提高网络效率,减轻云中心的负载。计算卸载是MEC中的研究重点,动态环境下设计高效的卸载策略能够有效的减少延迟以及能量消耗。同时移动管理也是MEC中难点之一,当用户在多个边缘服务器之间移动时,何时迁移服务、将服务迁移到哪直接影响用户的体验质量(Quality of Experience,Qo E)。本文研究了不同场景下任务卸载以及多用户服务迁移问题。针对不同的MEC场景,设计最优的卸载调度策略来减少边缘设备的延迟和能耗,另一方面,在迁移代价约束下,通过最优任务迁移算法来最小化平均延迟。本文的贡献如下:首先,针对多用户单服务器的粗粒度卸载场景,在考虑动态环境下信道的时变性以及多用户之间的干扰,本文研究了多用户粗粒度卸载问题。用户被看作博弈的玩家,执行计算的方式(本地或卸载到边缘服务器执行)被看作博弈的策略空间,将基于MEC的多用户计算卸载问题建模为一个演化博弈模型来最小化延迟和能耗。然后,通过复制者动态(Replicated Dynamic,RD)研究了多用户卸载策略的更新过程,并证明了在复制者动态模型下存在唯一的演化稳定策略(Evolu-tionary Stability Strategy,ESS)。最后在实际的应用环境中,设计了一个基于Q学习的演化博弈算法(Evolutionary Game Theory-Q Learning,EGT-QL),每个用户根据Q学习独自选择、更新策略,经过不断的学习最终达到ESS。通过实验证明所提出算法的收敛性,并且与5种相关算法进行对比,验证了EGT-QL的可靠性。然后,研究了多用户多服务器场景下的细粒度卸载问题,将全部任务都卸载边缘服务器处理并不是必须或者是最优的。本文,提出了一种面向移动边缘计算的多用户细粒度任务卸载调度方法。联合卸载调度策略,将计算任务建模为一个有向无环图(Directed Acyclic Graph,DAG)。通过分析本地和边缘服务器的并行处理来优化任务节点的执行位置和调度顺序。考虑系统的能耗和延迟把计算卸载看作一个约束多目标优化问题(Constrained Multi-object Optimization Problem,CMOP),然后提出了一个改进的带有精英策略的快速非支配排序算法(NSGA-Ⅱ)算法来解决CMOP。所提出的算法能够实现本地和边缘的并行处理从而减少延迟和能耗。最后通过大量的实验来证明算法的性能,实验结果表明,算法能够在实际应用程序中作出最优决策。最后,研究了MEC中的移动管理问题。当用户处在移动状态时,需要在多个边缘服务器之间动态迁移计算任务来保持服务的连续性。由于移动的不确定性,频繁的迁移会增加成本和延迟,不迁移会导致服务的中断,因此设计一个有效的迁移策略非常具有挑战性。本文研究了动态环境下多用户任务迁移问题,在考虑迁移成本、服务质量(Quality of Service,Qo S)、服务器上的迁移负载、频谱资源分配的情况下,提出了一个多用户任务迁移模型。在迁移代价约束下,将多用户任务迁移问题描述为最小化优化问题,最大程度的降低系统的延迟。在多代理深度强化学习(Multi-agent Deep Reinforcement Learning,MADRL)中,本文构造了一个自适应权重的深度确定性策略梯度(Adaptive Weight Deep Determinis-tic Policy Gradient,AWDDPG)算法来优化任务迁移的代价和延迟。采用集中训练分布式执行的方式来促进移动用户之间的协作通信,通过离线训练AWDDPG模型,移动用户能够实时做出迁移决策。大量实验表明,所提出的算法与相关算法相比大大降低了服务延迟和迁移代价。
周旭颖[3](2021)在《无线网络内容分发中基于经济学的资源协作及定价》文中研究表明随着无线通信技术的蓬勃发展和智能终端设备的大规模普及,无线网络的用户数量在近年急剧增加,导致网络流量呈爆炸式增长。与此同时,用户对无线网络提供的内容分发服务提出了越来越高的要求,如更低的服务时延和更新鲜的内容。以通信资源和缓存资源为例,无线通信系统中支持上述内容分发服务的网络资源是极为稀缺的。用户日益增长的内容需求导致的爆发式流量与受限的网络资源,己经成为阻碍当前无线通信发展的首要矛盾。一味采取硬件升级实现网络资源的扩容不仅给运营商带来巨大的开销并且难以追赶迅猛增长的无线服务需求。另一方面,内容分发业务已成为无线网络中主流业务,决定其用户体验的关键因素是服务质量。如何合理有效地利用当前网络中有限的资源为用户提供优质的内容服务,同时确保资源提供者的收益,是目前无线网络中最重要的研究方向之一。在网络运营侧,多元化的内容业务迅猛发展,促使新的运营模式产生。不断涌现的网络运营新角色会参与或影响网络资源的分配,从而影响用户的服务体验。首先,由于网络中个体往往属于不同的利益方,带有自私性并形成竞争关系;其次,资源分配过程中可能无法获取完整的网络状态或参与者信息,都会造成资源分配的不合理及低利用率。鉴于经济理论中拥有成熟理论研究背景的博弈论、拍卖理论和合同理论是解决具有竞争性现象的数学理论和方法,可以有效解决复杂的资源分配问题。本文基于相关经济学理论和方法,考虑用户请求驱动的内容分发,对无线网络中不同场景的资源协作和定价问题进行了研究。具体研究工作包括:1、通过设备到设备通信(Device-to-Device,D2D)技术支持节点间的资源协作完成内容分发。首先,设计适度的激励机制促进节点D2D中继完成内容分发,通过动态调节提供给中继节点的激励,实现系统效用最大化。基于委托-代理框架对中继节点激励问题进行建模,提出一种基于贪婪思想的激励设计算法,系统仅根据已知信息做出激励决策,并证明了该算法的最优性。仿真结果表明提出的动态激励机制可以实现更好的系统效用。其次,本文考虑节点间的内容合作缓存问题,合作节点通过D2D通信实现内容分发。采用博弈论中的联盟博弈进行建模,根据是否允许节点间的效用转让,是否可以忽略节点形成联盟的成本。分类讨论四种场景下节点形成联盟的结构及其稳定性,通过分析得出形成稳定大联盟的条件,并提出不存在稳定大联盟情况下的一种融合-分裂算法得到稳定的小联盟结构。仿真结果给出了不同场景下,节点参与联盟后的效用并分析不同场景对节点效用的影响。2、通过异质资源联合分配支持视频内容在用户端的平滑播放。针对视频流网络建立部分边缘缓存下的两跳视频传输模型,网络服务提供商(Network Service Provider,NSP)向视频流服务供应商(Video Streaming Service Provider,VSSP)提供包括缓存空间和传输带宽两种异质资源,提升视频播放的用户体验质量(Quality of Experience,QoE)。视频流队列具有随机的数据包到达和离开,均被建模成G/G/1队列,采用近似扩散的方法获得用户QoE的数值解。本文将异质资源联合优化问题建模为升价拍卖以获得异质资源的最优分配,基于VSSP估值的结构特征,提出的升价拍卖针对活跃用户做有限步升价最大化有限异质资源的社会效益,并确保VSSP在拍卖过程中反映出真实需求。仿真结果分析了资源总量和资源单位大小等系统参数对拍卖算法性能的影响,并表明本文提出的异质升价拍卖优于传统的同质拍卖。3、通过周期性更新边缘缓存内容支持用户对内容新鲜度的需求。考虑一种新的内容分发商业模式,NSP向内容供应商(Content Provider,CP)购买定期更新的内容并存于边缘缓存服务器,再将内容转售给用户。用户订阅费用由内容的新鲜度决定,即信息年龄(Age of Information,AoI)。NSP为了最大化有限缓存空间实现的效用并且保障用户对内容新鲜度的需求,根据CP提供的AoI和报价来确定合适的CP作为内容源。本文将NSP效用最大化问题分解为价格订阅子问题和内容购买子问题,使用斯坦伯格(Stackelberg)博弈和拍卖模型分别对两个子问题进行建模。在价格订阅子问题中,通过反向归纳推导出斯坦伯格博弈的均衡策略。在内容购买子问题中,本文根据两对关系之间(CP-NSP和CP-CP)是否存在信息不对称,提出四种场景下的内容购买问题并建模成相应的拍卖模型。为了确保拍卖的执行,根据AoI的特性设计了披露部分NSP信息的机制,并证明其不会带来NSP效用的损失。最后,通过仿真对比分析四种场景下NSP的效用,并研究参数对NSP及赢家CP效用的影响,结果表明CP间的自由竞争在一定条件下会提升NSP的效用。4、通过面向内容的边缘缓存更新支持用户对内容新鲜度和服务时延的需求。针对运营商拥有的内容分发平台,定期更新边缘缓存以满足用户对内容新鲜度的需求,同时考虑内容更新带来的服务时延对用户QoE的影响。本文设计一种基于合同理论的内容订阅定价机制,针对不同类型内容设计最优更新周期和订阅价格,实现内容平台效用最大化。本文首先推导出确保合同可行性的必要和充分条件,并给出包括更新周期和订阅费用在内的最佳合同结构。理论分析表明,重视内容AoI的用户可以获得更新鲜的内容,但需要承担大部分的更新成本。从运营商的角度,提供更新鲜的内容可以实现更大的效用,体现了考虑AoI进行定价的必要性。
黄熙[4](2021)在《DoS攻击下网络化切换系统的安全控制》文中提出近年来,由于各类工业系统模型的复杂程度不断上升,其对远程、低成本控制的需求也日益强烈,带有连续动态与离散信号的网络化切换系统受到了越来越多的关注。但由于工业网络的开放性,具有混杂特性的网络化切换系统在受到恶意网络攻击时的问题分析会相当棘手,目前其安全控制问题目前已成为控制领域的热点问题。现有网络安全控制的研究都是针对单一系统的,而对于网络化切换系统,不论是基于被动补偿思想的观测器、控制器设计及稳定性分析等安全控制问题,还是考虑主动抵抗的网络博弈建模与攻防策略设计等博弈论问题,都还未得到妥善解决。由此,本文针对上述问题进行研究,主要内容概括如下:针对包含不稳定子系统的切换系统通信网络中同时存在拒绝服务(Denial of Service,DoS)攻击和随机丢包的情况,根据DoS攻击和随机丢包引发通信故障的联合概率分布,利用成功接收到的系统输出构建状态观测器,并由其估计状态获得控制输入。进而在平均驻留时间方法下,利用稳定子系统激活的补偿作用,获得网络化切换系统几乎必然渐近稳定的结论。此外,针对所得结论中矩阵不等式变量耦合的情况,给出一种新的解耦方法得出观测器与控制器增益的可行解。针对切换系统通信网络中多个子系统通信信道遭到DoS攻击的情况,采用博弈论方法抵抗DoS攻击并降低其对系统的影响,将攻击者与入侵检测系统(Intrusion Detection System,IDS)之间的竞争过程建模为N联盟非合作博弈,由其纳什均衡解得出最优攻防策略。为了保证网络化切换系统的快速恢复能力,在根据动态规划原理给出各子系统的优化控制器增益后,采用遗传算法在无需给定切换信号顺序或时刻的情况下搜索优化的切换信号,并构成网络化切换系统弹性控制策略。而后,将该策略应用于网络式连续搅拌槽式反应釜(Networked Continuous Stirred Tank Reactor,NCSTR)系统,对比验证所得策略的有效性。针对切换系统状态与切换信号传输信道都面临DoS攻击的情况,为减低防御成本,进一步改进博弈论方法,直接将攻击者与控制器选取为博弈参与者。将网络数据递包率和控制器增益分别设置为攻击者和控制器的博弈策略,并根据参与者在控制系统中信息传输的先后顺序,将两者的切换非合作竞争过程建模为切换斯塔克伯格博弈。根据斯塔克伯格均衡解分别得出了最优领导策略与最优跟随策略。考虑到攻击者造成的系统开环和异步切换的情况,利用模型依赖平均驻留时间方法,得到网络化切换系统均方指数稳定的结论。
申晨[5](2021)在《具有退出选择的合作行为演化及网络拓扑的统计建模》文中认为合作行为的演化及维持是最具挑战的科学问题之一。目前的研究认为合作行为的维持主要依赖于五种互惠机制,即:直接互惠,间接互惠,网络互惠,亲缘选择,群体选择。这些机制潜在的共同假设是参与人不能退出博弈,而这一假设往往与实际情况不符,因此如何从理论和实验两方面研究退出机制对合作行为的影响具有重要的现实意义。此外在具有网络结构的行为决策研究中,如何对具有信号特征(0或1)参数进行准确估计以达成网络拓扑结构的重构是一个重要的研究课题。本论文基于上述两个方面的内容开展研究,首先利用演化博弈理论,从行为决策实验出发研究了退出选择对自私个体合作行为的演化及影响;其次,利用微分方程稳定性理论及数值模拟等方法分别在结构群体及非结构群体中研究了退出选择下合作行为演化的动力学特征?最后,针对具有信号参数特征的网络重构问题,提出了signal lasso的新方法,并通过理论和模拟讨论其性质。本文具体可分为下述三个部分。一、在具有退出选择的重复公共物品博弈的行为决策实验研究中,通过在不同高校组织在校大学生的方式我们进行了五种条件下的具有退出选择的公共物品博弈实验,这五种条件分别是:传统公共物品博弈(C0),退出预期收益较高的公共物品博弈(T0),退出预期收益适中的公共物品博弈(T1),退出预期收益较低的公共物品博弈(T2)及退出预期收益最低的公共物品博弈(T3)。之后利用行为决策实验数据,我们分别对比分析了这五种条件下的合作行为演化结果。我们发现,合作行为的演化依赖于退出者的期望收益,当退出者的期望收益过大时,公共组中的大部分参与人会选择退出博弈,而这进一步导致了合作系统的崩溃;当退出者的期望收益过小或为负时,退出选择将不起任何作用,此时的博弈转化为了传统的公共物品博弈;当退出者的期望收益适中时,退出通道的存在可动态调节组内的投资环境从而使得合作者可通过与背叛者及退出者之间的循环占优模式而稳定存在于系统中。二、在具有退出选择的囚徒困境博弈的理论研究中,我们首先在第四章第一部分构建了具有简单退出选择的囚徒困境博弈模型并研究了此模型下合作演化的动力学特征。在此模型中,在很小但为正的退出收益支持下,退出者可通过退出博弈的方式来逃离背叛者的剥削。通过复制动态方程稳定性分析,我们发现在充分混合的群体中(无结构群体),一次博弈的纳什均衡策略永远是相互退出,合作行为的维持依赖于互惠机制的存在。而在结构群体中,退出选择可通过与合作及背叛之间的循环占优模式使得合作稳定存在于网络中。当随着退出收益增大或者网络结构变化时,我们同样观察到了全局震荡及大度节点稳定性增强等效应。接着,在第四章第二部分,我们通过将退出策略分为可退出的条件合作者及可退出的条件背叛者对本章第一部分中的模型加以改进研究了条件退出选择下合作行为的演化问题。我们假设,可退出者在付出监测成本c的情况下,可知道对手的策略选择类型,进而可退出合作者及可退出背叛者在遇到背叛者时会在退出收益?的支持下选择退出博弈。通过计算固定概率(fixation probability),我们在有限群体中分别研究了三种退出条件下的合作行为演化:即只有合作者可退出博弈,只有背叛者可退出博弈,及合作者与背叛者可同时退出博弈。我们发现:在只有背叛者可退出博弈时,合作者并不能存在于系统之中,系统状态要么由全部背叛构成,要么由全部可退出的背叛者构成。当只有合作者可退出时,合作者可通过由合作,背叛,可退出合作三种策略之间的循环占优稳定存在于系统之中。当合作者及背叛者可同时退出博弈时,合作行为可通过多种循环占优的模式稳定存在,这里多种循环占优模型包括:C→D→CE→C的途径,C→DE→CE→C的途径,以及C→D→DE→CE→C。三、在网络重构问题的研究中,针对无权无向网络邻接矩阵的二值性质:网络邻接矩阵中的元素要么是0要么是1,我们提出信号lasso的方法来提高网络重构精度,该方法通过在lasso回归的惩罚项中加入一个L-1范数控制项进而保证了参数往0或者1进行压缩的性质,并克服了lasso在面对此二值问题时其参数只能往0压缩的限制。我们随后分别在网络博弈数据,复杂网络同步数据,行为决策实验数据及噪声数据中分别对比测试了lasso,压缩感知及信号lasso的表现。我们发现,对比另外两种方法,信号lasso估计出网络拓扑结构具有更高的精度及对噪声更强的鲁棒性。
董沛然[6](2021)在《基于移动边缘计算的通信与计算资源协同优化》文中进行了进一步梳理随着物联网、云计算、大数据等新一代信息通信技术不断融入工业研发、生产、服务和管理等各个环节,跨领域集成应用的需求日益迫切。然而,现阶段多数物联网应用仍针对特定领域的闭环应用,缺少跨领域跨行业的应用共享和资源优化,成为制约物联网发展的重要因素。为了实现移动物联网内计算卸载的跨领域应用共享,本文将基于边缘计算对其资源协同优化进行深入研究。首先,针对延迟敏感的医疗物联网远程健康监测场景,本文提出了一种基于边缘计算的远程健康监测模型。该模型将无线人体医疗物联网分为内外两部分。考虑医疗物联网的特征,健康监测的性能取决于监测数据的紧急性以及相应的数据分析任务延迟和能耗。对于无线人体局域网内部和外部,本文分别建模合作博弈和非合作博弈进行资源协同优化,降低医疗物联网健康监测成本。其次,针对车联网运行异构应用程序的场景,本文提出了一种基于边缘计算的车联网部分计算卸载模型,包括计算卸载资源分配,任务调度和服务定价三部分。本文提出一种适用于部分计算卸载的自适应任务调度算法,用于计算卸载比率决策和信道资源分配。考虑用户的激励相容性和个人理性等因素,本文基于用户与运营商之间的博弈进行计算卸载服务定价,用户和运营商能够达到均衡。最后,针对用户具有高度移动性的场景,本文提出了一种基于移动边缘计算的动态服务部署模型,协同多边缘服务器构建泛在低延迟计算卸载服务网络。为了适应物联网中部分用户的高移动性,解决边缘服务器存储能力有限的缺点,本文提出基于李雅普诺夫优化的服务迁移策略,确保边缘服务器的存储队列保持动态稳定,提升计算卸载系统的鲁棒性。基于真实交通流数据的仿真实验表明,本文提出的基于边缘计算的移动物联网资源协同优化策略能够适用于医疗物联网和车联网;和现有方案相比,本文提出的方案能够大幅提升移动物联网计算卸载的性能。
王洪生[7](2021)在《学习驱动的群智感知隐私保护与激励机制研究》文中提出随着物联网(Internetofthings,IoT)技术的发展,各种具有感知和计算能力的智能设备急剧增加,这促进了群智感知的极大发展,其中群智感知中的智能设备通过收集数据、分析数据以及提供算力来完成平台交付的感知任务。但是,在这个过程中参与者可能会泄露自已的敏感信息,受于保护隐私的意图,导致参与者参与感知任务的积极性降低,从而严重降低了平台的效用。另外,群智感知网络中参与者和终端的多样性,因此设计合理的感知任务分配策略、激励机制去提升参与者的任务完成度尤为重要。针对当前群智感知网络在隐私保护、参与者参与度低以及感知任务的不合理分配等方面存在的突出问题,本文主要的创新性贡献包括如下两个方面:(1)针对由于参与者隐私泄露和平台补偿参与者不足等所导致的平台效用过低以及参与者参与积极性不高等问题,提出了一种支付隐私保护级别(Payment-Privacy Protection,PPL)博弈,即每个参与者都以特定的PPL提交自己的感知数据,然后平台选择相应的支付(Payment)。此外,本文还推导了该博弈的纳什均衡(Nash Equilibrium,NE)点。考虑到Payment-PPL模型在实践中各个参数是未知的,因此采用了一种强化学习技术,即Q-learning来动态获得Payment-PPL博弈中的Payment-PPL策略。进一步地,使用深度Q网络(Deep Q Network,DQN),其结合了深度学习技术和Q-learning来加快学习的速度。通过大量的仿真,验证了所提出的使用DQN的算法在平台和参与者的效用以及数据聚合精度方面都比使用Q-learning算法取得了更好的性能。(2)针对由于参与者隐私泄露等问题,导致感知质量极低等问题,本文提出了一种针对参与者的激励机制,通过将不同的感知任务分配给不同的参与者,保护参与者的隐私免受泄露,以确保感知数据的可用性,从而使平台和参与者的效用最大化。具体地说,本文将平台和参与者之间的交互形式化为多领导多追随者的斯坦伯格博弈,并推导出该博弈的 Stackelberg 均衡(Stackelberg Equilibrium,SE)。由于通过理论计算的方式很难获取最优策略,因此采用了一种强化学习算法Q-learning来获取参与者的最优感知贡献,为了加快学习速度,减少高估的失误,提出了一种结合Dueling网络结构下的深度Q网络的深度学习算法,即具有Dueling网络结构的双深Q网络(Double Deep Q Network with Dueling architecture,DDDQN),以获取平台的最优支付策略。为了评估所提出的结构的性能,文章中进行了大量的仿真,证实了所提出算法与最先进的方法相比的优越性。
韩晔[8](2021)在《基于大数据分析的新能源汽车智能充电管理研究》文中研究说明新能源汽车(New Energy Vehicles,NEVs)正在以其环境友好、能源清洁的优势,逐渐替代传统化石能源车辆。大力推广NEVs成为世界各国应对日益严重的环境恶化和能源枯竭问题的主流可行方案之一。同时,NEVs的广泛使用也带动了能源系统、经济系统和服务系统的一系列改革。越来越多的企业希望能够通过运营充电站,获得可观的经济利润。新能源出租车(New Electric Taxis,NETs)作为运营商的主要服务对象,在完成传统出租汽油车接送乘客需求的过程中,面临着更为严重的“里程焦虑”。传统单纯考虑接送乘客的出租车运营模式己经无法满足NETs运营过程中产生的多方面综合需求。先进的大数据分析技术为解决NEVs推广过程中面临的能源、经济和服务问题提供了智能管理方案。本文基于车辆大数据分析研究NEVs(包括NETs)的智能充电管理理论与技术。本文主要研究工作包括以下三点:1)针对运营商在复杂多变的市场竞争中动态定价问题,文中构建了一种新型的NEVs市场三层框架,提出基于充电需求分析的运营商动态定价方法,最大化运营商的长期利润。本文构建了由智能电网、充电站运营商和服务NEVs的充电站组成的三层框架,表征NEVs市场的经济模式。利用马尔科夫博弈论将该框架的第二层建模为竞争市场模式,设计了一种基于多代理强化学习的动态定价方法,以实现运营商更高的长期利润。通过利用北京市NEVs实际数据验证上述所提方法,实验结果表明,该方法在运营商的长期利润的提升效果随着时间的推移而增加,与随机定价方案和贪婪定价方案相比,其在运营商长期利润方面分别提升约31%和21%。2)针对NETs在推广过程中充电过程、服务过程存在矛盾的问题,本文引入双队列模型建模NETs、充电站和乘客之间的耦合关系,给出基于出租车乘客需求分析的NETs充电调度算法,旨在最大限度地提高充电站的利润,同时保障NETs和乘客的需求。文中首先通过双队列模型将充电调度建模为随机优化的数学问题,然后提出基于李雅普诺夫优化的动态充电调度算法(Dynamic Charging Scheduling Al-gorithm,DCSA)求解,并在理论上分析证明了 DCSA 的有效性。通过北京市NETs和乘客需求的真实数据的实验分析,结果表明在保障乘客需求的条件下,与就近充电方式和随机充电方式相比,DCSA在充电站长期平均利润分别提升了33.485%和29.897%。3)针对NETs在推广过程中因充电导致无服务时段的成本问题,文中提出一种NETs顺风送客运营新模式,并给出了基于最快最短路径算法(Shortest Path Faster Algorithm,SPFA)的 NETs 路由方法。本文首先将研究区域划分为大小相同的方形区域,使用接客概率来刻画在每个区域NETs的经过时的潜在顺风送客概率,通过数据分析得到了北京市出租车乘客出行需求的时间分布特征。然后,考虑NETs在充电路由过程中的能源、时间成本和顺风送客产生的收益,利用SPFA算法求解运营模式中最小成本路由问题。通过对北京市真实数据集的实验分析,实验结果表明,与能源最优方案和距离最优方案对比,在工作日所提方法的成本降低可达17.06%和30.52%;在周末所提方法的成本降低可达10.18%和20.67%。
王杰[9](2021)在《无线传感器网络中几类远程状态估计问题研究》文中研究表明随着传感器技术的更新发展,无线传感器网络在众多邻域中得到了广泛的应用。无线传感器网络集成了微机电技术、传感器技术、无线通信技术以及分布式信息处理技术,一直以来都是研究的热点。目标状态估计作为无线传感器网络的最典型的应用之一,在军事领域、环境监测、交通管理、医疗监护和工业自动化等众多领域发挥着巨大的作用。一方面,基于无线传感器网络的目标状态估计具有稳健性强和估计精度高等优势,但同时也受到传感器能量与通信带宽限制。目前的研究工作主要集中考虑单个系统过程或者单个传感器在能源或者带宽约束下的最优调度问题,而对多个系统过程和多个约束条件情形下的最优调度策略以及多个传感器节点的分布式状态估计问题的研究严重不足。例如,目前的分布式状态估计算法仅考虑传统固定拓扑的情形并且忽略传感器能源有限的约束。另一方面,无线传感器网络通常部署在无人维护、不可控制的环境中,因此将面临拒绝服务攻击、欺骗攻击等多种威胁并造成信息丢失、信息篡改等。人们无法接受并部署一个具有安全隐患的无线传感器网络,因此无线传感器网络在进行远程状态估计时,必须充分考虑无线传感器网络可能面临的安全问题,并把安全机制集成到系统设计中去。目前关于拒绝服务攻击下的状态估计问题主要还是集中在从单个角度出发的最优性问题的研究。对于同时考虑传感器和攻击者行动下对系统所造成的影响,设计防御或者进攻方案就会变得很复杂,这方面的研究还比较匮乏。因此,本文正是针对这些不足之处展开研究,主要包含两个方面:(1)传感器网络通信环境面临带宽和能源等多个约束条件下的最优调度以及分布式状态估计问题;以及(2)传感器网络在受到攻击情形下的状态估计性能分析以及相应的攻防策略设计问题。本文具体的工作和创新如下:1)有限资源下无线传感器网络状态估计问题。在保证估计精度条件下如何减少对通信能量和通信带宽的需求是无线传感器网络目标状态估计的关键问题。论文致力于设计有限资源情况下的二阶高斯-马尔可夫系统最优调度方案。考虑了传感器具有较强的计算能力和传感器计算能力有限这两种情形。论文给出了传感器最优调度方案的一个必要条件。基于这个必要条件,在满足传输能量和信道带宽的约束前提下,提出了一种显式的周期性最优调度方法,并且严格证明了该方法在估计中心的估计误差最小。2)有限资源下无线传感器网络分布式状态估计问题。考虑到无线传感器网络中由于新的传感器节点的加入和旧的传感器的失效,传感器节点之间的拓扑连接是时刻变化的,传统的固定拓扑下的一致性算法对于传感器网络并不是最高效的。论文结合随机谣传算法设计一种新颖的分布式状态估计方法,很好的解决了时变拓扑带来的影响。该随机谣传算法需要传感器节点的拓扑连接是联通的但不要求拓扑连接固定不变。但该随机谣传算法带来的困难是收敛性分析和性能研究都是基于概率意义下,论文将构建新的分布式估计算法的收敛性分析方法并和已有的分布式估计算法进行性能比较。在给出的一个充分条件下,论文证明了提出的算法与已有的分布式状态估计算法相比具有较好的均方估计误差性能。并且证明了对于特殊的标量系统,我们提出的算法能一直获得较好的估计性能。3)拒绝服务攻击下无线传感器网络的最优能源控制问题。考虑到现实环境中攻击者和传感器的行动是交互的,论文将引进一般和随机博弈模型来刻画传感器和攻击者之间的冲突特性。此外,与现有的大部分工作都是基于平稳信道环境情形不同,论文引用有限状态马尔科夫链模型来研究时变信道下的最优能源控制问题。通过强化学习算法推导出一个纳什均衡下的最优策略。同时,在一个充分条件下,论文也构造了具有单调结构的最优平稳策略。最后,论文采用贝叶斯博弈的框架对部分信道状态信息可知的情形进行了分析并且获得了一个基于自身信道信息的纳什均衡策略。4)隐蔽欺骗攻击下无线传感器网络的估计性能分析问题。论文首次提出严格隐蔽欺骗攻击和ε-隐蔽欺骗攻击的概念。对于严格隐蔽欺骗攻击,论文给出了该攻击存在的充分必要条件。从攻击者角度出发,论文还给出了设计这种严格隐蔽欺骗攻击的方法。除此之外,由于该严格隐蔽欺骗攻击是和正常系统与受攻击系统的状态差分方程的不可检测点有关,论文提出了一个算法来找到所有的这些不可检测点。相应的防守策略可以通过设计系统参数避免落入这些点集里。对于ε-隐蔽欺骗攻击,论文提供了该攻击存在的必要条件。进一步地,基于上述正常系统和受攻击系统状态差分方程的系统矩阵没有不稳定的特征值,论文证明了该ε-隐蔽欺骗攻击是不存在的。
斯可汗[10](2021)在《平均场下状态切换系统的线性二次随机微分博弈》文中提出众所周知,博弈论是对多个主体制定策略的研究。从控制论的角度来说,我们可以把它看作是一个高维最优控制问题。博弈问题中的数学模型有很多种,例如,按参与者之间的关系来划分,可以是合作关系,也可以是冲突(非合作)关系,它在金融市场、管理科学、计算机科学、物理、化学等领域有着广泛的应用。最早的研究是关于零和博弈的,即所有参与者的总利润是等于他们的总损失的。这是非合作博弈的一个特例,现在我们把纳什均衡策略称为这种非合作博弈中的一种“最优”策略。随着博弈论的发展,越来越多的科学家运用博弈论来解决各自领域的问题。在许多数学模型中,参与者总是有相互冲突的目标。因此,纳什均衡分析在这样的环境下变得非常重要。结合随机分析,博弈论逐渐发展出一个新的分支,称为随机微分博弈(简称SDG)。这是博弈论从确定性发展到随机性的一大进步。随机微分博弈的数学模型在含噪声的动态系统建模中是非常有用的。在文献中,对随机微分博弈的研究可以追溯到20世纪60年代(参见[6,7,9,50,80,92])。近年来,受控的平均场随机微分博弈(简称MFG)在决策分析、工程应用、投资组合选择、金融市场等领域得到了广泛的研究,平均场博弈的一个应用是处理大种群系统。许多关于平均场博弈的研究已经展开。自从Huang-Caines-Malhame[43,44]和Lasry-Lions[58,59,60]的相关研究以来,平均场博弈理论及其应用得到了迅速发展。平均场博弈理论的相关研究包括Bardi[8],Bensoussan-Frehse-Yam[13],Carmona-Delarue[23],Garnier-Papanicolaou-Yang[38],Gueant-Lasry-Lions[37]等等一些参考文献。这里需要注意,平均场博弈和平均场类型的控制问题是不同的概念,例如[2,30]。在随机微分博弈问题中,斯塔克尔伯格博弈问题(又称主从博弈)是由H.Von S-tackelberg于1934年首次提出的。斯塔克尔伯格博弈描述了参与者地位或者信息不对等的情况下进行的博弈问题。它将参与者分为领导者和跟随者。人们对斯塔克尔伯格随机微分博弈进行了大量的研究。Basar[9]研究了线性二次系统下的斯塔克尔伯格博弈。Bensoussan-Chau-Yam[10]研究了平均场下的斯塔克尔伯格博弈。斯塔克尔伯格随机微分博弈的最大值原理由Bensoussan-Chen-Sethi[12]给出。Demiguel-Xu[29]则是研究了斯塔克尔伯格随机微分博弈中存在多个领导者的案例。Du-Huang-Qin[30]研究了带延迟的斯塔克尔伯格随机微分博弈的最大值原理。与平均场下斯塔克尔伯格随机微分博弈非常相似的一个主题就是平均场下的主次随机微分博弈问题。这是大种群系统中的一个概念,在大种群系统中,虽然次要参与者的个体影响可以忽略不计,但是次要参与者可以通过改变他们的状态平均来影响整个大种群系统,而主要参与者则通过改变自己的策略就可以直接影响大种群系统。有大量的文献研究了平均场下的主次随机微分博弈。据我所知,Huang[46]最早提出了这个模型。此后,Nourian-Caines[70]验证了其纳什确定性等价理论。Huang-Wang-Wu[41]研究了倒正向随机微分方程(简称BFSDE)系统中的主次平均场博弈。平均场博弈的一个显着特点是,状态方程和代价泛函都与平均场项存在一种弱耦合结构。在求解平均场博弈问题时,我们首先想到的就是解耦,因此我们考虑可以引入某些黎卡提方程用来对相应的正倒向随机微分方程进行解耦求解。一个有趣的结果是,我们在研究斯塔克尔伯格平均场博弈时,如果将其状态方程设为正向随机微分方程(简称SDE),那么辅助极限问题中,领导者的状态方程最终仍然是一个正倒向随机微分方程(简称FBSDE)。本文主要讨论线性二次(简称LQ)情形,其中状态动态由一个线性方程驱动,代价函数为关于状态和控制的二次型。它是博弈论和控制论领域中的一个经典的基本问题。在过去的几十年里,确定性和随机性的线性二次控制问题都得到了广泛的研究。Kushner[50]首先利用动态规划原理研究了随机线性二次(简称SLQ)最优控制问题。此后.Won-ham[92]研究了随机线性二次滤波问题中出现的扩展版的矩阵值黎卡提方程。利用泛函分析理论,Bismut[6]证明了黎卡提方程解的存在性,并导出了随机系数线性二次最优控制问题中具有随机反馈形式的最优控制的存在性。基于线性二次系统的良好结构,目前已有许多基于线性二次模型的平均场博弈建模工作。Li-Sun-Yong[54]研究了线性二次平均场博弈的开环(简称OL)可解性;Sun[85]研究了线性二次平均场博弈的闭环(简称CL)可解性。此外,大种群系统中的线性二次博弈类似于线性二次平均场博弈,关于大种群系统中线性二次博弈的研究也有很多文献。Huang-Malhame-Caines[44]研究了参与者状态非均匀的大种群系统中的线性二次博弈,并证明了其ε-纳什均衡性质。在[45]中,Huang-Caines-Malhame研究了一类具有N个参与者的线性二次博弈,他们的共同目标是最小化他们N个参与者的代价泛函之和的代价泛函,称为社会最优问题。这是一种合作博弈,在实际问题中有相应的应用。有关线性二次平均场博弈的更多文献,请参考[41,42,31]等。随机线性二次问题的另一个扩展是考虑状态方程和代价泛函中的系数包含随机跳变的情况,如泊松跳变或状态切换跳变。近年来,越来越多的人研究了状态切换模型在金融和随机线性二次问题中的应用,并发表了大量的文献。例如,Wu-Wang[93]首先考虑了带泊松跳的随机线性二次问题,得到了确定性黎卡提方程的解的存在唯一性。此外,还讨论了带跳随机黎卡提方程的解的存在唯一性,以及带跳随机黎卡提方程与随机线性二次最优控制问题的哈密顿系统之间的联系。Yu[103]研究了带跳扩散模型状态系统下的一类不定的倒向随机线性二次最优控制和博弈问题。Li等人[55]解决了带泊松跳的不定随机线性二次问题。状态切换系统中的线性二次随机最优控制问题在期权定价、科学、工程、金融投资和经济学等领域都具有重要的现实意义。在应用概率论和随机控制理论中,状态切换模型及其相关问题得到了广泛的研究。近年来,人们对这类随机线性二次最优控制问题及其金融应用的研究越来越感兴趣。例如,Li-Zhou[53]以及Li-Zhou-Ait Rami[55]引入了带马尔科夫跳的不定随机线性二次最优控制问题,Liu-Yin-Zhou[57]考虑了带不定权重控制的代价泛函的状态切换线性二次问题的近似最优控制,Donnelly[32]分析了状态切换扩散模型关于最优控制的随机最大值原理,Tao-Wu[88]研究了正倒向状态切换系统关于最优控制的随机最大值原理。从金融领域来看,人们通常会发现两种市场状态,一种是价格上涨的牛市,另一种是价格下跌的熊市。因此,状态转换模型下的投资组合选择问题在金融投资中具有重要的现实意义。适用的典型例子包括但不限于Yiu-Liu-Siu-Ching[102],Donnelly-Heunis[33]等。基于上述的研究,本文的主要思想是将线性二次平均场博弈与状态切换系统相结合。如我们所知,如果直接研究具有随机系数的平均场博弈,那么我们就缺乏一些必要的数学工具来处理相应的正倒向随机微分方程。但随着马尔科夫链理论的迅速发展,我们足以处理具有状态切换系统的线性二次平均场博弈问题。此外,我们还对其它一些问题感兴趣,例如由倒正向随机微分方程系统驱动的斯塔克尔伯格平均场博弈;在同一平均场博弈中斯塔克尔伯格博弈与主次博弈的结合;以及状态切换系统在金融市场中的应用。本论文包括以上所有的待讨论的主题。在处理随机系数平均场博弈问题时,我们不能避免E[A(t,α(t))X(t)]≠A(t,α(t))E[X(t)]所带来的这一困难,而在确定性系数下可以避免,是因为E[A(t)X(t)]=A(t)E[X(t)]。虽然在离散时间下已经有文献给出了一些划分状态空间的方法,但它不能应用于连续时间模型。因此,在这种困难的限制下,我们无法引入黎卡提方程来解耦相应的正倒向随机微分方程以获得最优控制的反馈形式。然而,我们仍然可以讨论状态切换系统中平均场下线性二次最优控制问题的开环可解性。本文具体的结构如下:首先我们在第一章综述了各个研究问题的背景,以及研究的动机和目的,便于读者快速了解论文内容。接着第二章,我们研究了具有倒正向状态的大种群系统,并建立了相应的线性二次平均场博弈模型。对于领导者和跟随者,分别构造了辅助极限问题,并求解了相应的最优控制。由于倒正向系统的特点,我们不能通过引入黎卡提方程来解耦一致性条件(简称CC)系统。因此,我们给出了一些单调性条件,并用压缩映射方法证明了它的适定性。此外,分散化策略也从CC系统中被推导出。此外,基于一些正倒向随机微分方程解的估计,我们还验证了原问题的ε-纳什均衡性质。更进一步,我们在第三章中研究了主次博弈与斯塔克尔伯格博弈耦合的情况。我们将参与者整体上分成三组:主要领导者、次要领导者和(次要)跟随者。在实际应用里,它们可以代表金融市场上的三种主体:主要供应商、次要供应商和(次要)生产商。在这样的平均场博弈中,我们推导出了近似斯塔克尔伯格-纳什-古诺(简称SNC)均衡。虽然我们假设了所有的参与者都是正向状态,但是斯塔克尔伯格-纳什-古诺分析告诉我们,由于斯塔克尔伯格结构的存在,主要领导者最终会自然地形成正倒向状态。这一结果不同于标准平均场博弈框架文献中所得出的结果,主要是由于我们这里采用了斯塔克尔伯格结构。通过变分分析,一致性条件系统可以用一些完全耦合的具有高维块结构的正倒向随机微分方程来表示。为了充分说明相应方程的可解性,我们还通过一些耦合的黎卡提方程导出了近似斯塔克尔伯格-纳什-古诺均衡策略的反馈形式。最后,我们验证了ε-斯塔克尔伯格-纳什-古诺均衡性质,并给出了在我们模型下的一些实际应用。在第四章中,我们研究了状态转换系统中的最优投资组合问题。所谓的状态切换就是指状态方程的系数是带有马尔科夫链的,一旦给定马尔科夫链所取值的状态,此时的系数就变成了确定性的连续函数。金融模型一般采用无摩擦市场、完备信息、无交易成本、无税收、无限制借贷和卖空的标准假设。全球金融危机后,全球各地的卖空禁令以及COVID 19期间的多家交易所的卖空禁令变得越来越重要。本章在文献中首次提出了一个模型,明确同时考虑通货膨胀、信息成本和卖空在状态切换模型下的投资组合绩效。我们的模型可以被投资组合经理用来评估这些市场缺陷对投资组合决策的影响。最后,第五章研究了平均场下状态切换系统的线性二次随机最优控制问题开环可解性。利用算子技术,推导出了代价泛函的泛函表达。结果表明,代价泛函的凸性是问题有限性的必要条件,而代价泛函的一致凸性最优控制问题的开环可解的充分条件。通过考虑一类一致凸代价泛函,给出了问题有限性的刻画,构造了一个与问题的可解性等价的极小序列。通过几个例子证明,我们的结果可以用于解决一些投资问题,例如均值方差模型中的投资组合选择问题。
二、Nash Inequalities for Markov Processes in Dimension One(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Nash Inequalities for Markov Processes in Dimension One(论文提纲范文)
(1)分布式无线网络智能接入算法研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 论文安排 |
第二章 相关背景知识介绍 |
2.1 无线网络随机接入技术 |
2.1.1 随机接入概述 |
2.1.2 常见的接入控制机制 |
2.2 群体智能 |
2.2.1 群体智能概述 |
2.2.2 蚁群群体智能 |
2.2.3 蛙群群体智能 |
2.2.4 基于群体智能的自组织网络 |
2.3 平均场博弈理论 |
2.3.1 平均场博弈理论概述 |
2.3.2 平均场博弈模型 |
2.4 马尔可夫模型 |
2.4.1 马尔可夫过程 |
2.4.2 马尔可夫链 |
2.5 本章小结 |
第三章 基于生物启发的分布式无线网络自组织接入算法 |
3.1 引言 |
3.2 系统模型 |
3.2.1 问题分析 |
3.2.2 系统建模 |
3.3 基于生物启发的自组织接入算法 |
3.4 系统性能分析 |
3.4.1 性能分析模型 |
3.4.2 数据包传输概率 |
3.4.3 信道吞吐量 |
3.4.4 接入时延 |
3.5 实验仿真 |
3.6 本章小结 |
第四章 基于平均场博弈的分布式无线网络智能接入算法 |
4.1 引言 |
4.2 系统模型和问题建模 |
4.2.1 系统模型 |
4.2.2 问题建模 |
4.3 基于平均场博弈的智能接入 |
4.3.1 基于平均场博弈模型的问题求解 |
4.3.2 HJB和FPK方程的求解 |
4.3.3 基于平均场博弈的智能接入算法 |
4.4 基于马尔可夫模型的退避策略 |
4.4.1 退避分析模型 |
4.4.2 信道接入碰撞概率和竞争窗口 |
4.5 实验仿真 |
4.6 本章小结 |
第五章 分布式无线网络接入管理平台 |
5.1 系统硬件配置 |
5.2 网络接入管理平台实现 |
5.2.1 前端开发 |
5.2.2 后端开发 |
5.3 网络接入管理平台测试 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间撰写的论文 |
附录3 攻读硕士学位期间参加的科研项目 |
附录4 攻读硕士学位期间参加的科研竞赛 |
致谢 |
(2)面向移动边缘计算的任务调度的关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景 |
1.2 MEC的研究现状 |
1.2.1 MEC中卸载问题及研究现状 |
1.2.2 MEC中移动性管理问题及研究现状 |
1.3 研究的意义 |
1.4 论文的研究内容和结构安排 |
第二章 移动边缘计算中任务调度的相关理论与技术 |
2.1 移动边缘计算 |
2.1.1 系统框架 |
2.1.2 MEC的特点 |
2.1.3 MEC的应用场景 |
2.2 博弈论和演化博弈论 |
2.3 强化学习 |
2.3.1 基于值函数的方法 |
2.3.2 基于策略的方法 |
2.3.3 Actor-Critic方法 |
2.3.4 深度强化学习 |
2.4 NSGA-Ⅱ算法 |
2.5 本章小结 |
第三章 基于演化博弈策略的计算卸载新方法 |
3.1 引言 |
3.2 系统模型构建 |
3.2.1 通信模型 |
3.2.2 任务模型 |
3.3 多用户计算卸载演化博弈策略 |
3.3.1 演化博弈模型 |
3.3.2 复制者动态 |
3.3.3 演化稳定策略分析 |
3.4 分布式环境下边缘计算卸载方法 |
3.4.1 基于强化学习的分布式演化博弈算法(EGT-QL) |
3.4.2 基于Q学习演化博弈算法(EGT-QL)的收敛性 |
3.4.3 EGT-QL算法复杂度分析 |
3.5 实验测试与结果分析 |
3.5.1 收敛性分析 |
3.5.2 算法对比 |
3.6 本章小结 |
第四章 基于多用户的细粒度卸载调度策略 |
4.1 引言 |
4.2 系统模型 |
4.2.1 计算延迟模型 |
4.2.2 计算能耗模型 |
4.3 调度约束和卸载策略 |
4.3.1 调度约束 |
4.3.2 卸载策略 |
4.4 多用户细粒度任务卸载调度方法 |
4.4.1 传统的NSGA-Ⅱ算法 |
4.4.2 基于改进的NSGA-Ⅱ卸载调度决策方法 |
4.4.3 算法复杂度分析 |
4.5 实验结果和分析 |
4.5.1 实验环境 |
4.5.2 实验结果 |
4.5.3 对比实验 |
4.6 本章小结 |
第五章 基于深度强化学习的分布式服务迁移方法 |
5.1 引言 |
5.2 系统模型和问题描述 |
5.2.1 回程延迟 |
5.2.2 通信延迟 |
5.2.3 计算延迟 |
5.2.4 迁移成本 |
5.2.5 问题描述 |
5.3 基于AWDDPG的分布式任务迁移算法 |
5.3.1 AWDDPG算法 |
5.3.2 AWDDPG架构 |
5.3.3 复杂度分析 |
5.4 性能评估 |
5.4.1 实验环境 |
5.4.2 实验结果 |
5.4.3 实际应用场景 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 研究总结 |
6.2 未来展望 |
参考文献 |
在学期间取得的科研成果和科研情况说明 |
致谢 |
(3)无线网络内容分发中基于经济学的资源协作及定价(论文提纲范文)
致谢 |
摘要 |
Abstract |
缩写、符号清单、术语表 |
1 绪论 |
1.1 研究背景 |
1.1.1 未来无线网络发展趋势 |
1.1.2 无线网络中的内容分发 |
1.1.3 无线网络运营模式的发展趋势 |
1.2 研究意义 |
1.3 经济学理论基础 |
1.3.1 博弈理论 |
1.3.2 拍卖理论 |
1.3.3 合同理论 |
1.4 内容分发中资源协作及定价相关研究现状 |
1.5 主要研究内容 |
1.6 论文主要贡献与创新点 |
1.7 论文组织结构 |
2 无线网络中针对节点资源协作的激励机制设计 |
2.1 D2D中继节点协作传输机制 |
2.1.1 系统模型 |
2.1.2 面向D2D中继的委托-代理MDP框架 |
2.1.3 委托-代理MDP模型的最优贪婪解 |
2.1.4 仿真结果 |
2.2 异构节点的协作缓存机制 |
2.2.1 系统模型 |
2.2.2 基于联盟博弈的问题建模 |
2.2.3 效用可转移的缓存合作问题 |
2.2.4 效用不可转移的缓存合作问题 |
2.2.5 仿真结果 |
2.3 本章小结 |
3 视频流中的异质资源联合分配与定价 |
3.1 系统模型 |
3.2 部分缓存视频流的QoE推导 |
3.3 异质资源联合分配及定价求解 |
3.4 仿真结果 |
3.5 本章小结 |
4 基于新鲜度的内容转售定价机制 |
4.1 系统模型 |
4.1.1 效用模型 |
4.1.2 构建问题 |
4.2 基于Stackelberg博弈的订阅价格问题 |
4.3 基于拍卖的内容购买问题 |
4.3.1 AoI拍卖中NSP的收益披露 |
4.3.2 相关概念 |
4.3.3 场景1:完整信息下的第一/第二价拍卖 |
4.3.4 场景2:不完整信息下的第一/第二价拍卖 |
4.3.5 场景3/4:完整/不完整信息下的反向Myerson拍卖 |
4.3.6 扩展到多CP的场景 |
4.4 仿真结果 |
4.5 本章小结 |
5 基于新鲜度和时延的内容定价机制 |
5.1 系统模型 |
5.1.1 视频用户QoE |
5.1.2 平台与用户效用 |
5.2 可行合同设计 |
5.2.1 合同约束 |
5.2.2 合同可行性的必要条件 |
5.2.3 合同可行性的充分条件 |
5.3 合同的最优结构 |
5.4 仿真结果 |
5.5 本章小结 |
6 总结与展望 |
6.1 本文总结 |
6.2 下一步工作展望 |
参考文献 |
攻读学位期间的学术论文及研究成果 |
(4)DoS攻击下网络化切换系统的安全控制(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 切换系统 |
1.2 网络化切换系统安全控制 |
1.3 论文主要研究内容 |
2 DoS攻击和随机丢包下网络化切换系统事件触发安全控制 |
2.1 引言 |
2.2 问题描述 |
2.3 观测器设计 |
2.4 事件触发机制设计 |
2.5 主要结果 |
2.5.1 稳定性分析 |
2.5.2 控制器与观测器增益设计 |
2.6 仿真验证 |
2.7 本章小结 |
3 基于博弈论的DoS攻击下网络化切换系统弹性控制 |
3.1 引言 |
3.2 问题描述 |
3.3 网络安全博弈 |
3.4 网络化切换系统优化成本函数设计 |
3.5 弹性控制策略设计 |
3.5.1 网络安全博弈的纳什均衡解 |
3.5.2 网络化切换系统优化控制策略设计 |
3.6 仿真验证 |
3.7 本章小结 |
4 基于博弈论的DoS攻击与异步切换下网络化切换系统安全控制 |
4.1 引言 |
4.2 问题描述 |
4.3 切换斯塔克伯格博弈 |
4.4 主要结果 |
4.4.1 控制器最优反应设计 |
4.4.2 切换斯塔克伯格均衡解 |
4.4.3 稳定性分析 |
4.5 仿真验证 |
4.6 本章小结 |
结论与展望 |
参考文献 |
附录A 符号说明 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(5)具有退出选择的合作行为演化及网络拓扑的统计建模(论文提纲范文)
摘要 |
abstract |
第一章 引言 |
第一节 研究目的及意义 |
第二节 国内外研究综述 |
一、合作行为演化 |
二、网络拓扑结构的统计建模 |
第三节 问题提出及选题背景 |
第四节 研究内容及创新之处 |
第五节 论文结构安排 |
第二章 预备知识 |
第一节 博弈论基础 |
第二节 演化博弈理论 |
一、无限群体博弈 |
二、有限群体博弈 |
第三节 复杂网络动力学模型简介 |
一、复杂网络基本概念 |
二、复杂网络演化博弈动力学 |
三、复杂网络同步动力学简介 |
第四节 微分方程稳定性基本概念 |
第五节 行为决策实验方法分析方法简介 |
一、行为决策实验常用的统计模型 |
二、非参数检验方法 |
三、广义线性模型介绍 |
四、二项分布族 |
第六节 压缩估计理论简介 |
一、压缩感知理论 |
二、岭回归 |
三、Lasso回归 |
四、ElasticNet |
第三章 具有退出选择的合作行为实验研究 |
第一节 引言 |
第二节 模型 |
一、实验设计 |
二、实验理论模型 |
第三节 结果 |
一、有限群体中的结果 |
二、行为决策实验结果 |
第四节 讨论 |
第四章 具有退出选择的合作行为动力学理论研究 |
第一节 具有简单退出选择合作行为演化 |
一、引言 |
二、模型 |
(4.1.2.1)混合群体 |
(4.1.2.2)网络群体 |
三、结果 |
(4.1.3.1)混合群体 |
(4.1.3.2)网络群体 |
四、讨论 |
第二节 具有条件退出选择的合作行为演化 |
一、模型 |
二、结果 |
三、讨论 |
第五章 复杂网络拓扑结构的统计建模:信号lasso |
第一节 引言 |
第二节 模型 |
一、信号lasso |
二、信号lasso的数值计算 |
三、信号lasso的数值计算的参数选择 |
四、模型评价指标 |
第三节 结果 |
一、信号lasso的理论性质 |
二、基于最后通牒博弈模型的网络重构 |
三、基于同步动力学kuramoto模型的网络重构 |
四、基于行为决策实验模型的网络重构 |
第四节 讨论 |
第六章 总结 |
第一节 总结 |
第二节 展望 |
参考文献 |
附录 |
致谢 |
在读期间完成的科研成果 |
(6)基于移动边缘计算的通信与计算资源协同优化(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 医疗物联网相关研究 |
1.2.2 车联网相关研究 |
1.2.3 服务迁移相关研究 |
1.3 本文研究内容和贡献 |
1.3.1 本文研究目的和主要工作 |
1.3.2 本文创新点 |
1.4 本文结构安排 |
2 基于边缘计算的医疗物联网资源优化 |
2.1 医疗物联网模型 |
2.1.1 医疗信息重要性 |
2.1.2 数据新鲜度监测 |
2.1.3 能耗监测 |
2.2 问题描述 |
2.2.1 系统开销最小化问题 |
2.2.2 IWS子问题 |
2.2.3 BWS子问题 |
2.3 无线人体医疗物联网内部合作博弈 |
2.4 无线人体医疗物联网外部非合作博弈 |
2.5 实验评估 |
2.5.1 实验环境及参数设置 |
2.5.2 系统性能分析 |
3 基于边缘计算的车联网资源优化 |
3.1 5G车联网模型 |
3.1.1 5G车联网场景介绍 |
3.1.2 卸载策略 |
3.1.3 系统利润函数 |
3.2 问题描述 |
3.3 部分卸载和自适应任务调度算法 |
3.3.1 传输调度策略 |
3.3.2 最优卸载比率 |
3.3.3 计算卸载服务定价 |
3.4 实验评估 |
3.4.1 实验环境及参数设置 |
3.4.2 系统性能分析 |
4 基于移动边缘计算的动态服务迁移 |
4.1 服务迁移模型 |
4.1.1 服务执行效用 |
4.1.2 服务迁移开销 |
4.2 问题描述 |
4.3 基于移动边缘计算的动态服务迁移算法 |
4.3.1 基于李雅普诺夫优化的队列稳态 |
4.3.2 基于采样平均近似的未来效用估计 |
4.3.3 基于马尔可夫优化的动态服务部署 |
4.4 实验评估 |
4.4.1 实验环境及参数设置 |
4.4.2 系统性能分析 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(7)学习驱动的群智感知隐私保护与激励机制研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 群智感知隐私机制研究现状 |
1.2.2 群智感知激励机制研究现状 |
1.3 研究内容及安排 |
第二章 相关理论与技术 |
2.1 群智感知 |
2.2 差分隐私机制 |
2.3 深度强化学习 |
2.4 斯坦伯格博弈 |
2.5 本章小结 |
第三章 隐私保护的群智感知单平台多参与者激励机制研究 |
3.1 系统模型和设计 |
3.1.1 系统概述 |
3.1.2 感知任务模型 |
3.1.3 隐私保护模型 |
3.1.4 数据评估和聚合模型 |
3.2 单平台多参与者激励机制理论分析 |
3.3 单平台多参与者激励机制动态学习 |
3.3.1 基于Q-learning的支付学习 |
3.3.2 基于Q-learning的PPL学习 |
3.3.3 基于DQN的支付学习 |
3.4 性能评估 |
3.4.1 参数设置 |
3.4.2 参与者的性能 |
3.4.3 平台的性能 |
3.5 本章小结 |
第四章 隐私保护的群智感知多平台多参与者激励机制研究 |
4.1 系统模型和设计 |
4.1.1 参与者模型 |
4.1.2 平台模型 |
4.2 多平台多参与者激励机制理论分析 |
4.2.1 模型建模 |
4.2.2 模型求解 |
4.3 多平台多参与者激励机制动态学习 |
4.3.1 基于Q-learning的感知贡献学习 |
4.3.2 基于DDDQN的支付学习 |
4.4 性能评估 |
4.4.1 参数设置 |
4.4.2 系统性能 |
4.5 本章小结 |
第五章 结束语 |
5.1 论文工作总结 |
5.2 下一步研究工作 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(8)基于大数据分析的新能源汽车智能充电管理研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 充电站运营商定价策略研究 |
1.2.2 新能源出租车充电调度研究 |
1.2.3 新能源出租车路径规划研究 |
1.3 课题来源 |
1.4 主要研究工作与创新点 |
1.5 论文结构安排 |
第2章 基于充电需求分析的充电站运营商定价策略研究 |
2.1 引言 |
2.2 系统模型 |
2.3 市场竞争模型和动态定价算法 |
2.3.1 市场竞争模型 |
2.3.2 动态定价策略算法 |
2.4 仿真结果 |
2.4.1 数据集介绍 |
2.4.2 实验设置 |
2.4.3 性能对比 |
2.5 结论 |
第3章 基于乘客需求分析的新能源出租车充电调度研究 |
3.1 引言 |
3.2 系统模型 |
3.2.1 场景描述 |
3.2.2 充电站模型 |
3.2.3 出租车乘客需求模型 |
3.2.4 新能源汽车接受率模型 |
3.3 新能源汽车充电调度算法 |
3.3.1 优化问题 |
3.3.2 动态充电调度算法 |
3.3.3 算法可行性 |
3.4 仿真结果 |
3.4.1 真实数据的描述 |
3.4.2 实验设置 |
3.4.3 对比算法 |
3.4.4 性能分析 |
3.5 结论 |
第4章 基于接客概率分析的新能源出租车路径规划研究 |
4.1 引言 |
4.2 系统模型 |
4.3 路径规划算法 |
4.3.1 接客概率大数据分析 |
4.3.2 最小成本路由算法 |
4.4 仿真结果 |
4.4.1 实验设置 |
4.4.2 对比算法 |
4.4.3 性能分析 |
4.5 结论 |
第5章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
致谢 |
攻读学位期间取得的学术成果 |
(9)无线传感器网络中几类远程状态估计问题研究(论文提纲范文)
摘要 |
ABSTRACT |
符号说明 |
第1章 绪论 |
1.1 无线传感器网络的研究背景 |
1.1.1 无线传感器网络产生背景 |
1.1.2 无线传感器网络的应用 |
1.1.3 无线传感器网络中的安全问题 |
1.2 国内外研究现状 |
1.3 研究动机与内容 |
1.3.1 研究动机 |
1.3.2 研究内容及创新点 |
1.4 论文组织结构 |
第2章 有限资源下双线性系统远程状态估计中最优调度问题 |
2.1 引言 |
2.2 问题建模 |
2.2.1 传感器具有足够计算能力的情形建模 |
2.2.2 传感器具有有限计算能力的情形建模 |
2.2.3 研究问题的数学描述 |
2.2.4 重要引理 |
2.3 最优调度方案的必要条件 |
2.4 最优传感器调度方案设计 |
2.4.1 传感器具有足够计算能力情形的最优调度方案 |
2.4.2 传感器具有有限计算能力情形的最优调度方案 |
2.5 仿真评估 |
2.6 本章小结 |
第3章 有限资源下多个传感器节点分布式状态估计问题 |
3.1 引言 |
3.2 问题建模 |
3.2.1 系统模型 |
3.2.2 图论预备知识 |
3.2.3 估计算法 |
3.2.4 随机谣传算法 |
3.2.5 研究问题描述 |
3.3 基于随机策略的集中式卡尔曼滤波算法 |
3.4 基于随机一致性机制的分布式卡尔曼滤波估计算法 |
3.4.1 非合作分散式卡尔曼滤波估计算法 |
3.4.2 基于随机谣传机制的分布式卡尔曼滤波估计算法 |
3.5 基于随机谣传机制的分布式卡尔曼滤波估计算法的收敛性分析 |
3.6 最优无线传感器网络节点连接方案设计 |
3.7 仿真评估 |
3.8 本章小结 |
第4章 拒绝服务攻击下远程状态估计的最优能源控制问题 |
4.1 引言 |
4.2 问题建模 |
4.2.1 基于时变衰落信道上的通信建模 |
4.2.2 远程状态估计模型建立 |
4.2.3 基于博弈论框架下研究问题的描述 |
4.3 主要结果 |
4.3.1 基于随机博弈论框架描述攻击者和传感器之间的交互行动 |
4.3.2 攻击者与传感器之间均衡策略的存在性 |
4.3.3 攻击者-传感器博弈纳什均衡策略的实际求解 |
4.3.4 NashQ-learning算法收敛性分析 |
4.3.5 攻击者-传感器博弈最优纳什平稳策略的严格递增结构 |
4.4 攻击者-传感器的不完全信息博弈-贝叶斯博弈框架 |
4.4.1 不完全信息博弈问题建立 |
4.4.2 贝叶斯博弈框架 |
4.5 仿真评估 |
4.6 本章小节 |
第5章 隐蔽欺骗攻击下远程状态估计的性能分析与攻防策略研究 |
5.1 引言 |
5.2 问题建模 |
5.2.1 线性系统模型 |
5.2.2 欺骗攻击模型建立 |
5.3 严格隐蔽欺骗攻击 |
5.3.1 严格隐蔽欺骗攻击下估计系统性能分析 |
5.3.2 严格隐蔽欺骗攻击策略设计 |
5.3.3 严格隐蔽欺骗攻击下的估计防守策略设计 |
5.4 ε-隐蔽欺骗攻击 |
5.4.1 ε-隐蔽欺骗攻击的定义 |
5.4.2 ε-隐蔽欺骗攻击存在的必要条件 |
5.4.3 主要结论 |
5.5 仿真评估 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(10)平均场下状态切换系统的线性二次随机微分博弈(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 平均场下线性二次倒正向随机微分方程系统中的斯塔克尔伯格博弈问题 |
1.2 平均场下线性二次随机微分方程系统中的混合型斯塔克尔伯格博弈问题 |
1.3 状态切换系统中长期最优投资组合:通货膨胀、信息成本和卖空 |
1.4 平均场下状态切换系统的线性二次随机最优控制问题的开环可解性 |
第二章 平均场下线性二次倒正向随机微分方程系统中的斯塔克尔伯格博弈问题 |
2.1 提出问题模型 |
2.2 辅助极限问题 |
2.3 辅助问题的最优决策 |
2.3.1 跟随者的最优决策 |
2.3.2 领导者的最优决策 |
2.4 一致性条件系统 |
2.5 ε-纳什均衡分析 |
2.5.1 领导者的摄动 |
2.5.2 跟随者的摄动 |
第三章 平均场下线性二次随机微分方程系统中的混合型斯塔克尔伯格博弈问题 |
3.1 提出问题模型 |
3.2 混合型斯塔克尔伯格-纳什-古诺均衡性分析 |
3.3 混合型斯塔克尔伯格博弈的开环策略 |
3.3.1 跟随者的开环策略 |
3.3.2 主要领导者的开环策略 |
3.3.3 次要领导者的开环策略 |
3.4 一致性条件系统 |
3.4.1 开环策略的解耦 |
3.4.2 反馈策略的解耦 |
3.5 近似斯塔克尔伯格-纳什-古诺均衡 |
3.5.1 主要领导者的摄动 |
3.5.2 次要领导者的摄动 |
3.5.3 跟随者的摄动 |
3.6 应用:凯恩斯选美大赛博弈 |
第四章 状态切换系统中长期最优投资组合:通货膨胀、信息成本和卖空 |
4.1 背景介绍 |
4.2 提出问题模型 |
4.3 最优投资组合的选择 |
4.4 数值模拟 |
4.5 本章小结 |
第五章 平均场下状态切换系统的线性二次随机最优控制问题的开环可解性 |
5.1 提出问题模型 |
5.2 问题(M-MF-SLQ)的有限性和开环可解性 |
5.3 应用实例 |
5.3.1 例子1 |
5.3.2 例子2 |
5.3.3 例子3:均值-方差投资组合选择问题 |
5.4 本章小结 |
参考文献 |
攻读博士学位期间发表及完成的论文 |
致谢 |
学位论文评阅及答辩情况表 |
四、Nash Inequalities for Markov Processes in Dimension One(论文参考文献)
- [1]分布式无线网络智能接入算法研究[D]. 贾恩富. 南京邮电大学, 2021
- [2]面向移动边缘计算的任务调度的关键技术研究[D]. 崔玉亚. 天津理工大学, 2021(02)
- [3]无线网络内容分发中基于经济学的资源协作及定价[D]. 周旭颖. 浙江大学, 2021(01)
- [4]DoS攻击下网络化切换系统的安全控制[D]. 黄熙. 大连理工大学, 2021(01)
- [5]具有退出选择的合作行为演化及网络拓扑的统计建模[D]. 申晨. 云南财经大学, 2021(09)
- [6]基于移动边缘计算的通信与计算资源协同优化[D]. 董沛然. 大连理工大学, 2021(01)
- [7]学习驱动的群智感知隐私保护与激励机制研究[D]. 王洪生. 北京邮电大学, 2021(01)
- [8]基于大数据分析的新能源汽车智能充电管理研究[D]. 韩晔. 北京邮电大学, 2021
- [9]无线传感器网络中几类远程状态估计问题研究[D]. 王杰. 中国科学技术大学, 2021(09)
- [10]平均场下状态切换系统的线性二次随机微分博弈[D]. 斯可汗. 山东大学, 2021(10)