摘要:
随着信息技术的不断发展,信息服务的空间范畴不断扩大,各种天基、空基、海基、地基网络服务不断涌现,对多维综合信息资源的需求也逐步提升。空天地一体化网络可以为陆海空天用户提供无缝信息服务,满足未来网络对全时全域全空通信和网络互联互通的需求。首先,对空天地一体化网络技术及协议体系的发展趋势进行了分析,探讨了低轨卫星通信系统以及空地网络融合的研究进展。针对网络结构复杂、动态性高、资源高度约束等问题,提出了基于强化学习(RL,reinforcement learning)的空天地一体化网络设计与优化框架,以进行高效快速的网络设计、分析、优化与管控。同时给出了实例分析,阐明了利用深度强化学习(DRL,deep RL)进行空天地一体化网络智能接入选择的方法。并通过搭建空天地一体化网络仿真平台,解决了网络观测稀疏与训练数据难以获取的问题,极大地提升了RL的训练效率。最后,对空天地一体化网络中的潜在研究方向进行了探讨。1 引言随着科学技术的发展和人类生产、活动空间的不断扩大,以物联网技术为代表的新型网络技术将逐渐成为未来网络需求的主体。相对于普通人员的通信需求,物联网通信无论是空间范围还是通信内容都将会有极大的扩展。多种多样的物联网设备和服务将涵盖山区、沙漠、海洋、深地、天空、太空等更广阔的区域。近年来,随着无线网络的迅速发展,5G 网络技术为虚拟现实、自动驾驶、智能城市等新型网络应用提供了更灵活的服务、更大的容量和更高的效率,并进入部署和实际商用阶段。对于物联网应用,5G 网络专门规划了两种重要的服务场景,即超高可靠低时延通信(uRLLC,ultra-reliable and low latency communication)以及大规模机器类通信(mMTC,massive machine type communication)。5G网络技术积极推进的窄带物联网(NB-IoT,narrow band Internet of things)、波束赋形、上/下行解耦等技术可以解决广域覆盖、能耗、大连接等物联网关键技术问题。然而,大规模 5G网络部署需要高昂的成本,密集的基站部署、回传网络建设等会产生昂贵的基建费用以及光缆的安装租赁和维护费用。同时,地基网络也难以覆盖极偏远地区、海洋、深地、天空甚至深空等地理范围。因此,5G 地基网络技术难以满足网络空间极大扩展的泛在通信需求。此外,未来信息服务对多维综合信息资源的需求逐步提升,国家战略安全、防灾减灾、航空航天航海、教育医疗、环境监测、交通管理等领域的服务的高效运行都依赖于空、天、地等多维信息的综合应用。在这样的背景下,建设空天地一体化网络,深度融合天基网络、空基网络、地基网络,充分发挥不同网络维度的功能,可以打破各自独立的网络系统之间数据共享的壁垒,实现广域全覆盖和网络的互联互通,将引发前所未有的信息革命。空天地一体化网络是以地基网络为基础,天基网络和空基网络为补充和延伸,为广域空间范围内的各种网络应用提供泛在、智能、协同、高效的信息保障的基础设施,空天地一体化网络架构如图1所示。在空天地一体化网络中,地基网络主要由地面互联网、移动通信网组成,负责业务密集区域的网络服务;空基网络由高空通信平台、无人机自组网络等组成,具有覆盖增强、使能边缘服务和灵活网络重构等作用;天基网络由各种卫星系统构成天基骨干网和天基接入网,实现全球覆盖、泛在连接、宽带接入等功能。通过多维度网络的深度融合,空天地一体化网络可以有效地综合利用各种资源,进行智能网络控制和信息处理,从而游刃有余地应对需求迥异的网络服务,实现“网络一体化、功能服务化、应用定制化”的目标。其中,天基网络(主要是各种卫星网络)技术处于核心地位,是构建无所不在、无所不连、无所不知的空天地一体化网络的关键使能技术。近年来,随着以美国 Starlink 计划为代表的低轨卫星星座技术的逐渐成熟,数量庞大的低轨卫星将组成具有全球覆盖、大容量宽带接入、低通信时延的互联网基础设施,为全球用户提供无缝的高速互联网接入。低轨卫星星座、中高轨卫星以及各种导航、遥感、气象等功能性卫星将共同构建功能多样、智能程度高、轨道互补、扩展方便的异构天基基础设施网络。随着天基网络的重要性逐渐凸显,对地基网络与天基网络相融合的研究也引起了人们的极大关注。尽管现有 5G 网络标准与商业部署尚未融合卫星通信,但与其相关的标准化工作一直在推进。从Rel-16开始,5G网络开始研究非陆地通信网络(NTN,non-terrestrial network)技术特性。第三代合作伙伴计划(3GPP,3rd Generation Partnership Project)在近期的提案中对将卫星网络集成到 5G 网络的潜在技术问题、业务特性和网络结构、部署场景等进行了定义和讨论。随着6G网络研究的启动,为了满足“任何人(anyone)在任何时间(anytime)、任何地点(anywhere)可以与任何人(anyone)进行任何业务(anyservice)”的“5A”泛在通信需求,空天地一体化网络将成为6G网络不可或缺的组成部分。对中国而言,空天地一体化网络的建设具有重大意义。“一带一路”和“走出去”等一系列战略决策对全球全域全时信息服务提出了新的要求,而现有网络覆盖出不去,网络结构僵化、服务响应慢等是亟待解决的关键问题。空天地一体化网络可以提供全时空信息连续支撑能力,实现“一带一路”周边区域覆盖以及“四海两边两洋”覆盖,满足陆上重要经济带、海外热点区域等信息服务的需求。卫星系统尤其是低轨卫星星座系统具有通信覆盖、宽带接入等重要的潜在功能。此外,卫星轨位、空间通信频谱等资源的稀缺性使得国际上对这些资源的争夺异常激烈。因此,快速发展空天地一体化网络技术、形成完善的网络体系,有利于占领空天技术制高点,抢占资源与技术的先机。中国已在“十三五”规划中将“天地一体化信息网络”纳入“科技创新2030重大项目”。同时,卫星互联网首次被明确列入新基建信息基础设施范围,与5G网络、物联网并列,体现了国家对空天地一体化网络建设的高度重视。空天地一体化网络是一种异质多维网络,多种网络融合导致网络结构极为复杂、网络资源多样,而空、天、地网络动态特性的不同导致网络整体的移动特性相比地基网络的移动特性更复杂,因此,难以对网络进行精确的描述和建模。同时,空天地一体化网络为各种天基、空基、地基和海洋信息业务提供网络服务,多样化的服务特性和服务质量(QoS,quality of service)需求使得网络资源分配和服务编排极为困难,从而导致传统的优化方法效率不高、响应速度慢,无法适应空天地一体化网络复杂、动态的网络环境,难以满足各种网络应用的服务需求。人工智能方法被认为是面向难以建模的复杂动态问题的一种具有极大潜力的解决方案,该方法通过对大量数据的提取和分析,可以建立对网络环境与网络控制的最优映射模型,从而高效且智能地进行网络设计、控制、管理与优化。RL作为机器学习方法中的一类重要方法,可以通过智能体与环境交互的反馈学习最佳行动策略,并可以应对未知网络环境下的学习决策,非常适合于空天地一体化网络复杂、动态且网络数据收集成本较高的特性,是解决最优网络控制、资源分配、服务编排等问题的关键方法。本文对空天地一体化网络技术及协议体系的研究现状和发展趋势进行分析,在此基础上重点讨论了RL方法在空天地一体化网络中的应用场景、方法以及潜在优势。同时,本文给出了一种利用综合仿真平台的基于 DRL 的空天地一体化网络接入选择方法,并在最后对空天地一体化网络中潜在的研究方向进行了探讨。2 空天地一体化网络发展现状与趋势2.1 天基网络发展现状2.1.1 对地静止轨道卫星星座1) 国际海事卫星通信系统InmarsatInmarsat 是利用对地静止轨道(GEO,geostationary orbit)通信卫星作为中继站的一种船舶无线电通信系统。第一代Inmarsat卫星系统主要通过租用卫星实现。20 世纪 90 年代初,Inmarsat 发射了第一个专用卫星星座 Inmarsat-2,主要用于海事用途(已正式停止使用)。1996—1998 年,Inmarsat 的第三代卫星系统Inmarsat-3发射升空。该卫星星座由5颗L波段卫星组成,主要为全球航运提供低带宽通信和安全服务。从1999年开始,Inmarsat开发并推出了第一个提供全球覆盖的卫星通信系统——BGAN(Broadband Global Area Network),这项服务由2005—2013 年发射的4 颗Inmarsat-4 卫星提供。从2010年开始,Inmarsat开始开发高通量卫星(HTS,high throughput satellite)星座——Global Xpress(GX),该卫星星座工作于Ka频段。GX系统共包括 5 颗卫星,于 2013—2019 年陆续发射,为包括航运和航空在内的各个市场提供全球卫星通信。GX 系统中的卫星采用点波束覆盖方式,每颗卫星有 89 个固定点波束,每个固定波束的下行速率可达50 Mbit/s。此外,每颗卫星还配备6个大容量机动点波束,可灵活覆盖任何热点区域,最高能够提供两个100 MHz的信道。2) 天通一号卫星移动通信系统天通一号 01 星作为中国卫星移动通信系统的首发卫星,于2016年8月6日发射升空。天通一号卫星采用了新塑天线、单机集成、混合集成电路等技术,用户链路工作于S频段,馈电链路工作于C频段,可同时支持百万用户使用,可为车辆、飞机、船舶和个人等移动用户提供语音、数据、短信等通信服务。2.1.2 非静止轨道卫星星座1) Iridium卫星系统Iridium 卫星系统是美国摩托罗拉公司(Motorola)提出的第一个低轨全球个人卫星移动通信系统。第一代Iridium系统(发射于1997—2002年)由72颗卫星(6颗备用星)组成,分布在6个高度约为780 km的极地圆轨道面上。该系统主要为全球用户提供语音服务,并采用了星上处理、星上交换和星际链路技术,构成完整的天基网络。Iridium公司于 2007 年提出第二代 Iridium 卫星系统(Iridium Next)计划,并于 2017—2019 年发射了75颗在轨卫星。该卫星星座可在L波段为移动终端提供高达128 kbit/s的数据速率,为Iridium Pilot航海终端提供高达1.5 Mbit/s的数据速率,在Ka波段为固定/可移动终端提供高达8 Mbit/s的数据速率。Iridium Next瞄准IP宽带网络化和载荷能力的可扩展、可升级,这些能力使得它能够适应未来空间信息应用的复杂需求,但对于当前日益增多的移动互联网需求,尤其是面对5G通信时代的来临,Iridium Next的数据传输能力仍显不足。2) StarlinkStarlink是SpaceX公司正在进行的卫星星座开发项目,旨在开发低成本、高性能的基于空间的互联网通信系统。Starlink将部署大量卫星于超低地球轨道上来实现全球网络覆盖,Starlink 的目标是在2020 年实现为美国北部和加拿大提供服务,并在2021年将服务范围扩大到全球大部分地区。Starlink项目将发射约12 000颗卫星,首先在550 km轨道部署约1 600颗卫星,然后在1 150 km轨道部署约2 800颗Ku波段卫星和Ka波段卫星,最后在340 km轨道部署约7 500颗V波段卫星。截至2020年4月22日,最新一批卫星发射,Starlink已发射422颗卫星(417 颗卫星在轨)。SpaceX 公司采用快速可重复使用的发射系统降低发射大量卫星带来的成本。SpaceX公司表示,Starlink将为地球上的用户提供数据速率至少为 1 Gbit/s 的宽带服务和最高可达23 Gbit/s的超高速宽带服务,端到端时延范围为25~35 ms,可与电缆和光纤的时延媲美。3)“鸿雁”全球卫星星座通信系统“鸿雁”全球卫星星座通信系统由中国航天科技集团有限公司提出,计划到 2025 年部署 300 余颗卫星,首批60颗将在2023年左右部署完成。“鸿雁”全球卫星星座通信系统首颗试验星于 2018 年12月被送入1 100 km高度的预定轨道。该星具有L/Ka波段的通信载荷、导航增强载荷以及航空监视载荷等。未来全面部署后,该系统将能通过低轨道卫星和全球数据业务处理中心实现全天候、全时段及在复杂地形条件下的实时双向通信,可以为用户提供全球实时数据通信和综合信息服务。除了上述卫星系统,还有大量 LEO 卫星星座系统正在筹备中。如Boeing公司计划在2022年前发射1 396~2 956颗卫星于1 200 km高度的轨道上,Samsung公司计划在2028年前发射4 600颗卫星于1 400 km高度的轨道上,Telesat公司计划在2021年前发射117~512颗卫星于1 000 km和1 200 km高度的轨道上。2.2 空天地融合相关项目及研究上述天基网络均可为地面用户提供网络接入服务。但是,这类卫星网络的接入服务通常需要特定设备才可以与卫星进行通信,且这类通信与传统地面通信相对独立。随着地面移动通信系统的不断更替,卫星网络与地基网络的融合也不断发展。在过去几十年中,越来越多的人逐渐关注空天地融合网络,特别是天地通信网络系统的集成。相应地,多个企业和研究组织均为空天地一体化的研究工作做出了显著贡献。1) CoRaSat(Cognitive Radio for Satellite Communications)CoRaSat启动于2012年,旨在研究、开发和演示认知无线电(CR,cognitive radio)技术在卫星通信系统中的应用,将CR技术与卫星网络结合,提高有限频率资源的利用率。CoRaSat 将未被充分利用的频谱资源分配给卫星服务,实现灵活、智能的频谱利用。在提高资源利用率的同时,CoRaSat 不会对共享频谱的卫星/地面系统产生有害干扰,开辟了新的业务前景并潜在地降低了传输成本。2) SANSA(Shared Access Terrestrial-Satellite Backhaul Network Enabled by Smart Antennas)SANSA 是 2015 年启动的欧洲联盟“地平线2020”研究项目,旨在提高空地网络中移动无线回程网络的性能。为了消除数据流量爆炸式增长造成的回程网络压力,SANSA 提出结合空地网络增加回程网络的吞吐量和弹性,同时为低密度和高密度的区域提供更有效的网络覆盖。3) VITAL(Virtualized Hybrid Satellite-Terrestrial Systems)VITAL(启动于2015年)通过将网络功能虚拟化(NFV,network functions virtualization)和软件定义网络(SDN,software defined network)引入卫星网络,在混合的卫星—地基网络中提供联合资源管理,实现具有弹性和灵活性的未来网络。该项目主要着眼于3个关键场景:卫星虚拟网络运营商(SVNO,satellite virtual network operator)服务、卫星回传服务和卫星—地面的混合接入服务。VITAL将通过卫星网络和地基网络的灵活集成,带来更广的覆盖范围、更高的通信资源使用率和更好的网络弹性,并且提高了混合网络部署的创新能力和业务敏捷性。4) SATNEX IV(Satellite Network of Experts IV)SATNEX IV是在2017年启动的一项由欧洲航天局资助的项目,其主要目标包括对卫星电信网的早期探索和科学评估、检测,并评估地面电信技术在空间网络中的应用,进一步加强欧洲/加拿大工业界和研究机构之间的合作,从而推动空间网络的应用研究。到目前为止,该项目主要关注下一代卫星集群、空中自组织网络(FANET,flying Ad-Hoc network)、纳米卫星群的网络架构以及针对卫星场景的接入方案评估等。5) SaT5G(Satellite and Terrestrial Network for 5G)SaT5G是欧洲联盟“地平线2020”5G PPP的第二阶段项目,于2017年6月启动,为期30个月,由SES、Avanti Communications、British Telecom、Thales Alenia Space、University of Surrey等16家企业及研究机构联合进行。该项目旨在为 5G 网络开发低成本的“即插即用”卫星通信(SatCom,satellite communication)解决方案,实现电信运营商和服务提供商共同提供 5G 网络服务,同时为 SatCom 行业利益相关者创造新的且不断增加的市场机会。SaT5G的主要目标是将卫星集成到5G网络中,确保 5G 网络的无缝接入。其工作内容包括网络架构研究、商业价值体系、关键技术及验证等,同时, SaT5G 参与推进欧洲电信标准化协会(ETSI,European Telecommunications Standards Institute)和3GPP关于空地融合5G网络的标准化工作。6) SATis5(Satellite-Terrestrial Integration in the 5G Context)SATis5(启动于2018年)旨在为5G卫星地面集成网络构建大规模、实时、端到端的概念验证测试平台,展示主要技术进展以及卫星技术在 5G 网络应用场景中的优势。该项目强调了卫星技术在各种情况下的优势,明确了卫星行业在 5G 网络环境中的定位,并且推动了 5G 网络中卫星集成的标准化进展。此外,中国在“十三五”规划中将“天地一体化信息网络”纳入“科技创新2030重大项目”,研究天基网和地面互联网的融合互联互通,并将低轨卫星互联网纳入了实施规划。规划中的新一代天地一体化信息网络将使中国具备提供全球无缝覆盖、高度安全可信、高机动随遇接入、区域大容量传输等服务的能力。在学术研究方面,各国学者也提出了关于空地和空天地等网络架构的见解,并在研究工作中针对这些架构提出了一些开放性的问题。文献提供了有关卫星地面集成/混合网络的详细定义和示例,并考虑了物理层、链路层和网络层的相关问题。文献提出了一种用于大型紧急场景的混合空天地系统,该系统集成了卫星网络、低空平台网络以及地基网络。文献还讨论了将SDN、设备到设备通信和软件定义无线电等多项技术融合进该系统的可能性。为了以更经济有效且灵活的方式满足车联网场景中不同的QoS要求,文献提出了一种支持 SDN 的空天地集成车联网,其中地基网络为个人车辆用户提供城市/城郊的高数据速率单播服务,高空平台网络用来提高地基网络覆盖不足或拥挤地区的容量,而卫星则帮助实现了非城镇和偏远地区的无缝覆盖。此外,文献开发了空天地集成网络的仿真平台,通过集中式或分布式的控制器实现网络功能的优化,并通过各种接口实现平台功能的扩展,允许用户进行自定义网络场景设置和功能控制。文献对天地网络融合进行了全面的调查,总结了现有文献并对空地网络的现有研究进行了分类,指出了当前未解决的问题以及未来的研究方向。2.3 空天地融合网络标准化进程随着 5G 网络技术的日益成熟,卫星与 5G 网络的融合也引起了许多人的关注,包括3GPP、ETSI在内的标准化组织成立了专门工作组着手研究天地融合的标准化问题。天地网络融合标准进展情况如表1所示。1) 3GPP3GPP TR 38.913旨在开发下一代接入技术的部署场景和需求,并提出了将卫星网络作为地基网络扩展的场景。3GPP TS 22.261研究了5G网络系统的新功能、市场需求以及满足上述需求所必需的性能指标和基本功能要求,研究中把卫星接入技术纳为 5G 网络的基本接入技术之一。3GPP TR 22.891提出了使用卫星进行5G网络连接的场景,并指出当前地基网络技术需要进一步提升以实现全球无缝覆盖、时延不超过275 ms的空中接口以及地面与卫星网络之间的无缝切换。为了实现卫星与下一代通信网络的集成,3GPP TR 23.799将通过卫星的 5G 网络连接列为下一代移动网络系统架构中的关键问题。卫星网络可实现高效的路径重选,并以最小的服务中断支持服务的连续性。3GPP TR 38.811是支持NTN的新无线研究项目,研究考虑并比较了卫星网络、空中接入网以及地面蜂窝网络的架构原理和信道模型差异。该项目的研究内容包括 5G 网络中卫星网络的作用、业务特性、网络结构、部署场景、非地基网络信道模型,并在引入新空口技术后对卫星网络的潜在应用进行了分析。3GPP TR 22.822在将卫星接入网集成到5G网络系统时,将服务应用案例分为3类,即服务的连续性、普遍性和可扩展性。该项目提出了基于 5G 卫星网络的架构,并确定了未来以及现有的服务在设置、配置和维护方面的需求以及卫星和地基网络之间切换的监管问题。上述3GPP标准表明,卫星网络已被公认为 5G 网络不可或缺的一部分,以提供无处不在的接入和回传功能并保证QoS。

2) ETSIETSI 也提出了一些有关卫星和地基网络融合的标准。ETSI TR 103 124确定了结合卫星网络和地基网络场景的定义和分类。ETSI TR 102 641提出了卫星网络在灾害管理中的作用,并列出了地球观测、卫星导航和卫星通信等应用的资源需求。ETSI TR 103 263确定了在卫星通信中引入CR技术时须遵守的法规,并强调了在 Ka 波段使用 CR技术的不同场景。ETSI TR 103 351则解决了无线接入网中的流量分配问题,并考虑了卫星和地基网络融合的典型场景,即乡郊地区的回程问题。ETSI TR 103 293细化了卫星网络与3G毫微微基站的合作信息,并提供了大量使用卫星地基网络的回程解决方案。此外,ETSI TS 102 357提出了卫星独立服务接入点(SI-SAP,satellite independent service access point)并规范了卫星地基网络中宽带服务的物理空中接口。3) 其他标准组织除了3GPP和ETSI,还有其他组织正在推动卫星和地基网络融合的标准化。在文献中,欧洲邮政和电信管理局会议(CEPT,European Conference of Postal and Telecommunications Administrations)电子通讯委员会(ECC,Electronic Communications Committee)报告了5G集成网络中卫星网络的功能定位以及基于卫星的几种典型用例。数字视频广播(DVB,Digital Video Broadcast)组织将卫星视为向地面提供数字电视和IP服务的广播者,提出了一系列技术标准,其中包括超过100份的规范文档。空间数据系统咨询委员会(CCSDS,Consultative Committee for Space Data Systems)旨在为空间网络通信和空地通信进行国际标准化,提出了一系列协议以实现任务控制中心与航天器和地基网络系统之间的互联互通。CCSDS协议体系是针对空间通信特点制定的空间通信协议标准,可适用于具有长传输距离、高动态节点、时变连接和间歇性通信的空间链路数据传输。但其无法与地面网直接互联,需要进行协议转换,协议兼容问题仍需进行研究。3 RL方法在空天地一体化网络中的应用3.1 RL简介作为机器学习领域最重要的研究方向之一,在过去20年中,RL对人工智能的发展产生了重大影响。RL 是一个学习过程,在该过程中,智能体(agent)可以定期做出决策,观察结果,然后自动调整其策略以实现最佳策略。尽管这种学习过程的收敛性已经被证明,但要保证收敛到最佳策略,通常需要大量时间探索并获得整个系统的知识。因此,简单的 RL 并不适用于空天地一体化网络这种大规模、高复杂度的网络环境。为了克服RL的局限性,DRL 作为一种新的突破技术得到了越来越多的关注。不同于传统RL通过Q表枚举环境状态与最佳策略动作之间的映射关系,DRL 采用深度神经网络(DNN,deep neural network)替代Q表,在理论上可以拟合任意特性的复杂映射关系,从而提高了学习速度和RL算法的性能。在实践中,深度学习已经成为机器人控制、计算机视觉、语音识别和自然语言处理等新兴产业的理论支撑。最著名的应用当属屡次击败人类的围棋人工智能AlphaGo Zero。在通信和网络领域,深度学习已被用作有效解决各种问题和挑战的新兴工具。对于以空天地一体化网络为代表的未来网络,其内部包含多种异构且复杂的网络切片或元素,如物联网设备、移动用户、无人机(UAV,unmanned aerial vehicle)基站、低轨卫星节点等。这些异构网络实体需要通过集中或分布式的方式做出各种不同时空尺度上的决策,如网络和频谱选择访问、数据速率和发射功率控制、基站和卫星切换等,以实现包括吞吐量在内的不同网络优化目标的最大化和网络能耗最小化。在高度动态和不确定的网络环境下,大多数决策问题可以建模为马尔可夫决策过程(MDP,Markov decision process)。尽管MDP在理论上可以采用动态规划、启发式算法和 RL技术来解决,但考虑规模庞大且复杂的现代网络,动态规划和启发式算法等技术会因计算量过于庞大而无法使用。因此,DRL已经发展成为克服该挑战的核心解决方案。在空天地一体化网络中应用DRL方法具有以下优点。1) DRL 可以解决复杂环境下的网络优化问题。通过在网络控制器(如基站或核心网控制器)上部署 DRL 算法,能够在没有完整和准确的网络信息的情况下,对非凸和复杂的问题进行优化。2) DRL 允许网络实体在学习过程中建立网络环境的知识,不需要预设信道模型或用户移动性模式。如在空天地一体化网络中,通过使用DRL,网络可以实时监测用户分布或网络环境变化,逐步学习到最优的基站选择、信道选择、切换决定、缓存和卸载等决策,而不必基于抽象或不准确的环境模型。3) DRL 极大地提高了响应速度,尤其是在状态和动作空间较大的复杂问题中。因此,在以空天地一体化网络为代表的大规模网络中,DRL允许网络控制器根据相对实时的环境信息,动态控制大量移动用户和异构设备。4) 空天地一体化网络中的一些其他问题,如网络物理攻击、干扰管理和数据卸载,可以建模为博弈论相关问题。而 DRL 最近也被用作解决一些复杂博弈论问题的有效工具,如在没有完整信息的情况下找到纳什均衡。3.2 RL在空天地一体化网络中应用基于上述优点,利用RL解决空天地一体化网络中的各种问题和挑战,已成为未来无线网络研究领域炙手可热的方向之一。根据应用的不同,RL在空天地一体化网络中主要涉及以下4个方面。3.2.1 基于RL的网络控制对空天地一体化网络的控制方式是直接影响网络性能的最重要的因素之一。对RL而言,经典的单智能体RL(single agent RL)和多智能体RL (MARL,multi-agent RL)分别对应中心式和分布式两种经典的控制架构。在空天地一体化网络中,分布式管理架构可以无缝匹配异构网络切片,为每个切片甚至具体网络节点(如低轨卫星)配置本地控制智能,从而减少控制信令瓶颈和响应时间。但同时,MARL必须依靠设计精巧的智能体间协作和信息共享保证全网优化,这种协同操作会增加MARL交互机制和网络的复杂性。另一方面,中心式控制方式可以简化网络结构和RL算法的部署,但考虑空天地一体化网络中不同网络元素响应时延和覆盖范围之间的巨大差异,如何部署控制中心、如何协调同步不同网络元素都会显著影响网络性能。因此,在未来的空天地一体化网络中,将两种控制方式进行融合的分层混合控制架构必将成为主流,以增强空天地一体化网络对异构复杂环境的适应度。这里的分层是指通过层级式的控制器,将控制行为在不同时空尺度上进行分配。小尺度精细化控制(用户接入某个基站或无人机)行为交由底层控制器作本地决策,而大尺度宏观控制(某个区域分配多少卫星频谱资源让用户接入)则由上层控制器根据底层控制器反馈的用户分布和环境变化直接调整底层控制器的策略,这种分层混合控制架构能够将复杂策略分解为子目标分层决策控制的分层DRL(HDRL,hierarchical DRL)。目前,在空天地一体化网络控制研究中,RL最主要的应用是无人机的轨迹控制。无人机是一种移动模式完全受控、可根据具体需求调整部署位置和轨迹的智能网络设备,RL 框架天然适用于无人机的控制和轨迹规划问题。基于RL的无人机轨迹规划问题最近几年已被相关学者广泛研究,作为代表,文献利用确定性策略梯度(DPG ,deterministic policy gradient)方法规划单个无人机的轨迹以最大化用户吞吐量;文献根据自创的感知—发送协议,设计了一种分布式的RL框架,用于多个无人机的轨迹规划。RL 在空天地一体化网络控制领域的另一个新型研究点是优化低轨卫星网络接入和切换机制。不同于地面基站、无人机等移动速度慢、覆盖范围有限的接入节点,低轨卫星具有移动速度快、覆盖范围大、传输时延较长、切换频繁等特性,因此,传统地基网络的接入或切换机制将无法应用于用户接入低轨卫星网络。另一方面,巨大的覆盖面积、频繁的切换频率导致低轨卫星网络的环境高度动态化且多变,难以被建模为简单的数学模型,因此需要借助 RL 优化接入切换策略。随着越来越多的研究者开始关注低轨卫星网络,这方面的研究预计将井喷式涌现。如文献根据剩余服务时间和历史信号质量数据,采用 Q-learning 的方法选择下一跳要接入的 LEO;文献根据当前用户终端分布和信道分配状态,通过包含卷积神经网络(CNN,convolutional neural network)的深度Q-learning(DQN,deep Q-learning)学习动态卫星信道选择策略。3.2.2 基于RL的资源分配作为空天地一体化网络研究的核心,通信、计算资源分配和资源切片策略一直面临着复杂异构网络环境的挑战,而引入RL方法可以为空天地一体化网络的异质资源分配带来以下两点优势。首先,RL 方法可以学习到准确的流量或用户移动变化趋势,从而定制动态的资源分配策略。只有基于这种准确的环境变化趋势,不同层次的控制器才能够有效地分配通信、计算资源或划分网络切片。不同于DNN、长短期记忆(LSTM,long short-term memory)等监督学习方法,RL不会直接输出下一步网络环境变化的预测结果,而是内涵式地学习到变化趋势后,直接输出下一步所需采取的最优策略,因此RL可以说是一种更直观、易于部署的整体化资源分配解决方案。此外,考虑空基、天基和地基网络在资源分配问题上不尽相同的时空尺度, RL 可以灵活定义下一步策略的时间步长和控制精度,从而适配不同层次、不同场景中的控制器。另一方面,一个经过足够长时间学习训练达到收敛状态的RL神经网络,可以以极低的计算复杂度得出复杂环境下的资源分配策略。在空天地一体化网络这种高度复杂且异构的环境中,相比于计算复杂度超高的传统方法,RL 是一种快速响应并且高效的资源分配方案。在目前的空天地一体化网络研究中,基于 RL的资源分配已有不少成果涌现。多数研究通常利用RL 方法对包括发射功率、频谱带宽、计算容量等在内的多种资源进行联合分配,有些还会结合空基、天基平台的特点对无人机轨迹、低轨卫星轨道和切换特性等进行联合优化。目前,多数研究基本只涉及空天地一体化网络中空—地或天—地两种网络的联合资源优化,真正考虑空—天—地3种网络的联合资源优化是未来一个重要的研究方向。3.2.3 基于RL的网络接入选择由于卫星网络的存在,空天地一体化网络可以实现全球的网络全覆盖。然而,在一些用户密集区域(如城市等),多种网络(如卫星、地面 LTE、Wi-Fi 等)会产生覆盖的重叠,而用户接入不同的网络会对网络性能和用户体验带来极大的影响。同时,空基、天基和地基网络具有不尽相同的频谱资源、接入技术和协议。因此,用户接入选择,即通过优化选择用户的接入网络以提升网络性能,成为空天地一体化网络研究领域的重中之重。与传统网络切换(切换的目标一般是保持服务的连贯性)不同,网络接入选择(RAT selection,radio access technology selection)的目标是实时优化网络性能。因此,实施方法也由位置变更触发的(被动)切换变为主动选择,即在每个时隙对用户的接入网络进行决策。这种网络接入选择问题通常也被称为用户分配(user association)问题。在空天地一体化网络中采用传统的、基于优化方法的网络接入选择策略会面临以下两个挑战。首先,多数用户分配问题最终会被构造为一个整数或混合整数组合优化问题,这类问题不但是非凸的,而且通常被证明是NP难问题。采用优化方法解决这类问题会导致大量的计算量和较长的计算时间,无法应对空天地一体化网络大规模、高复杂度的环境特性。另一方面,基于优化的方法高度依赖于对网络拓扑的先验知识和模型化假设(如网络拓扑模型、用户分布模型、用户移动性模型、信道特性统计模型、服务到达模型等),这些模型无论是大颗粒度的网络行为建模或是只针对特殊网络场景的建模,都无法满足现阶段空天地一体化网络的需求,降低了优化结果的有效性。不同于基于优化的方法,RL 方法提供了一种基于“观察和试错”的方式学习未知网络环境,而不必预设任何先验模型。此外,经过一段时间的运行、达到收敛状态的RL神经网络在理论上可以拟合高度复杂的网络环境,并保证以极快的速度输出优化结果,从而以低计算复杂度实现实时网络接入选择。基于RL的网络接入选择目前处于初始研究阶段。依据RL智能体的部署位置,网络接入选择主要分为两种类型。1) RL智能体部署在每个用户上,由用户做出纯分布式的接入选择。这种方式可以快速响应用户当前所处环境的变化,通过在用户本地进行数据收集和决策,减少了数据收集的信令开销。但受限于单个用户对环境有限的观测能力,这种分布式方式难以实现在大范围内对多用户接入选择策略的联合优化。2) RL智能体部署在接入节点(基站、无人机)或边缘控制器上,方便多个用户共享特定的接入资源。这种中心化部署方式可以轻松地对大范围内众多用户进行联合优化,但受限于用户数据收集和决策分发过程中的无线传输数据、信令开销,该方式难以做到和分布式部署一样对用户环境实时响应。3.2.4 基于RL的移动缓存更新受益于地面基站、无人机甚至低轨卫星所支持的本地存储能力,空天地一体化网络可以充分发挥移动边缘存储(mobile edge caching)的优势,为用户提供全天候无缝衔接的内容服务,同时大幅度降低骨干网内容传输的压力。与网络接入选择类似,大多数空天地一体化网络中的移动缓存也可以被构造为组合优化问题,所以传统优化方法同样面临非凸—NP难以及依赖先验模型这两大挑战。因此,在空天地一体化网络移动缓存研究中引入RL方法具有极大的优势和广阔的应用前景。对于RL,多变的瞬时存储空间、已存储内容、内容需求等变量可以被直接建模为环境状态,而缓存内容更新可被建模为行为。因此,RL 方法可以直接应用于解决移动缓存问题。需要注意的是,RL方法默认环境状态的变化具有马尔可夫性,这可能不够准确。如果想要更精确地描述缓存内容和需求的变化,一些附加的数学模型和方法需要被引入环境状态的定义中。此外,在多数情况下,缓存的更新可以和通信、计算等其他资源的更新一起,被一个统一的RL算法联合优化决策,一些经典案例可以参考文献。4 应用范例:基于RL的空天地一体化网络接入选择机制空天地一体化网络需要满足用户多样化的服务需求。在异构、多层次、多维度的空天地一体化网络中,不同的接入网络具有不同的特点,如覆盖范围、控制模式、资源数量、接入性能等方面。因此,用户的网络接入选择将极大地影响用户QoS和网络性能。接下来以复杂空天地一体化网络中的网络接入选择问题为应用范例,解释RL方法在空天地一体化网络中的应用。本研究具有如下特点。1) 空天地一体化网络结构复杂、动态性强,难以进行准确建模。因此,本研究采用RL方法,通过与环境的交互进行学习,从而保证在动态的环境中进行快速决策,提升网络性能。此外,该方法仅在训练阶段需要信道测量,而在学习模型应用阶段仅需要用户的位置信息,可大幅度减轻网络信令交互负担。2) 由于空天地一体化网络建设复杂、成本高,利用真实网络进行学习模型的训练面临训练成本高、真实网络观测较稀疏、训练速度慢等问题。为了解决这些问题,本研究提出利用空天地一体化网络仿真平台进行主要训练、真实网络进行辅助训练的方法,极大提升网络训练的速度,降低成本。通过搭建空天地一体化网络仿真平台,以极低的成本得到大量训练样本,从而提升训练效率。3) 由于空天地一体化网络动态性极强,当网络的统计特性发生变化时,RL 模型将不再适用于变化后的环境。因此,在模型应用过程中,可持续收集网络状态信息,并反馈给仿真平台,进行模型的修正,以适应不断变化的网络环境。4.1 仿真平台介绍空天地一体化网络仿真平台不仅应兼具支持通信与网络协议和支持现有空天地应用服务的功能,还需要具有对新协议、新算法、新控制架构以及未来应用的超前兼容性。因此,设计了多层次的空天地仿真架构,分别是物理基础层、网络模块层以及应用控制层,空天地一体化网络仿真平台系统架构如图2所示。在每层中,设计了不同的系统函数支持本层以及上层的功能实现。为保证调用系统函数的准确性、可延展性与便捷性,该平台提供了定制化的应用程序接口,从而更方便地支持各种算法的仿真实现。4.1.1 仿真平台结构1) 物理基础层物理基础层在空天地一体化网络仿真平台中主要针对不同的物理环境进行建模仿真。物理基础层通过位置生成、移动性仿真、数字地图建模以及各类信道建模,实现对卫星、无人机、高空气球、物联网设备、移动通信设备等真实的空地通信设备的仿真验证。不同于传统基于地基网络的仿真平台,空天地一体化网络仿真平台通过对物理基础层的空天地三位一体的实现以及对精确的空天地通信设备移动轨迹的生成,可以更好地支持卫星轨道和无人机轨迹的建模。平台仿真的应用程序接口可以同时满足与其他仿真平台的数据互通,实现了与其他数据源的互联互通。2) 网络模块层网络模块层主要通过仿真复杂空天地一体化网络实现支持通信和网络协议的功能,如天基网络通信、LTE地基网络、Wi-Fi以及NB-IoT等协议。在平台中,通过不同的网络协议模块实现对不同协议的灵活调用操作。用户设备可以通过所集成的调用接口实现在不同环境下对空、天、地不同网络模块的接入使用,需要强调的是,不同于地基网络仿真,空天地一体化网络仿真平台集成了对低轨卫星模块的实现。网络模块化的特点也使得整个仿真平台的调用更灵活,并且极大提升了对于其他未来协议的兼容性。
图2   空天地一体化网络仿真平台系统架构
3) 应用控制层应用控制层主要为不同控制算法和空天地应用提供接口,实现对网络模块层相应模块的调用和对物理基础层的物理实体的仿真,应用控制层的设计可以极大地促进不同算法在仿真平台中的性能评估。以空天地一体化网络中的资源调度为例,由于网络的复杂性与异构性,多种资源调度算法可能需要并存且同时运行于仿真平台中,这将给真实网络仿真带来极大挑战。而应用控制层的设计旨在为不同算法与控制架构提供定制化的应用程序接口,实现用户的不同算法和应用服务在仿真平台的运行。4.1.2 仿真平台实现细节本节将详细展示仿真平台的实现细节。由于空天地一体化网络仿真平台融合了多种仿真工具来实现平台的各种功能(如设备移动轨迹生成和管理、网络控制、空天地通信协议和仿真结果分析及其可视化等),为了整合不同仿真工具,采用NS-3作为核心仿真器,并实现其他仿真工具的接口。仿真平台实施细节如图3所示,展示了仿真平台主要支持的功能及仿真工具的集成情况。1) 仿真场景仿真场景的建立包括网络组成部分的配置、网络的拓扑结构、节点的移动性以及网络服务的部署等内容。如图3所示,仿真平台主要由两类网络功能模块组成:异构网络接入和多维一体化。异构网络接入由 NS-3 提供的通信模块及其配套模块(如LTE通信模块、P2P通信模块以及无人机通信模块)实现。在 NS-3 提供的基础通信模块上做了定制化升级与功能重构,使其适用于空天地一体化的应用场景,如无人机对地通信大尺度衰落模型的引入和源代码修改。另外,为了更好地支持低轨卫星通信的仿真,首次在 NS-3 中加入低轨卫星通信模块的建立和定制化函数调用方案。基于NS-3的静态同步卫星通信模块,对低轨卫星模块的修改主要分为3个方面。第一,STK生成的低轨卫星轨道数据替代了静态同步卫星轨道数据,以支持低轨卫星动态轨迹的仿真。第二,对波束以及天线参数等根据现行实际的低轨卫星参数做出了相应的修改。第三,根据低轨卫星星座支持多颗卫星覆盖的实际情形,设计了低轨卫星的切换函数,以支持卫星间切换的算法需求。通过以上3个方面的修改,设计的L-SNS-3模块能够良好地支持低轨卫星星座的通信仿真。
图3   仿真平台实施细节
仿真平台的多维一体化通过空、天、地网络各部分的集成移动性管理实现,平台设计的应用程序接口支持对不同平台的移动轨迹数据的联合调用与管理。如针对生成移动车辆轨迹的VISSIM和生成卫星轨道的STK,都设计了调用函数,实现数据在 NS-3 的可读导入。因此,基于此接口,各种通信网络协议的联合仿真得以在空天地一体化网络仿真平台中配置并测试。2) 中心化与去中心化控制网络控制层在空天地一体化网络仿真平台中扮演了两个重要的角色。其一是控制网络各组成部分的行为准则,其二是实现用户定义的应用控制以及控制策略。第一,将网络控制器部署在网络的边缘与云端。这些控制器通过监测回传的实时网络信息实现对网络各组成部分的行为控制,包括中心化控制和去中心化控制两种模式。边缘控制器负责网络边缘的控制,而云端控制器负责各边缘控制器间的协调与统筹。运用P2P链路完成不同控制器到网络各组成部分的仿真,如卫星与地面站和基站之间的互通。这些链路通常具有不同的时延和数据速率,网络用户可以通过这些链路将位置、速度、信道质量、QoS要求等实时信息上报控制器,帮助控制器做出网络级别的决策。因此,空天地一体化网络仿真平台通过对往返时延等网络参数的仿真,帮助控制器更好地做出部署决策。第二,网络控制层可以实现用户接口对不同应用和控制算法的定制化。由于大量的研究工作围绕空天地一体化网络展开,仿真平台允许用户自行对仿真的环境、变量、算法等按需定制。仿真平台的可扩展性则源于部署于一体化网络中的控制器收集实时网络信息并进行传播控制的能力,如用户自定义的资源分配方案可以根据不同的设计目标和网络信息最优地部署各种网络资源。3) 核心仿真基于仿真环境和网络控制算法,仿真程序得以在NS-3上运行。因此,NS-3可以作为日志输出监测和程序修改的载体。由于空天地一体化网络仿真平台的设计初衷是对所设计的空天地一体化通信协议和控制算法的性能评估,同时设计了数据解析器和分析工具研究NS-3输出的仿真数据。4.2 研究实例:基于RL的空天地一体化网络接入控制在空天地一体化网络中,多无线接入技术被广泛应用于车辆用户的不同服务。因此,最优的接入控制一直是提升网络性能的关键问题之一。空天地一体化网络仿真平台可以对此场景不同的接入策略进行仿真。受益于云端控制器对全局信息的收集,对车辆用户最优的接入方案做出研究,并选择网络数据速率最大化的接入方案。在本研究中,利用仿真平台进行DRL模型的初步训练,从而解决空天地一体化网络训练样本难以获取、训练效率低等问题,仿真平台辅助的 DRL 模型训练与使用如图4 所示。同时,由于网络的统计特性可能发生变化,在真实网络中收集网络环境信息,进而改进模型,使其适应动态的空天地一体化网络环境。
图4   仿真平台辅助的DRL模型训练与使用
通过网络中部署的地面基站、无人机以及低轨卫星,车辆用户可以被不同的接入方式服务。以西安市区作为实验场景,采用了滴滴出行GAIA开源数据集,将位于西安市南二环地区的网约车的车辆轨迹作为用户的位置信息。同时,通过导入LTE基站、无人机轨迹和低轨卫星星座轨道信息,联合仿真了空天地一体化网络中车辆用户接入模式的选择。另外,考虑空天地一体化网络的复杂性,设计了基于 RL 的空天地融合车载网络的接入模式选择方法。RL是通过不断学习外部环境(如用户信道条件等复杂环境)信息而逐渐寻找到最优策略的方法,可以很好地适应空天地一体化网络中网络环境复杂、用户多的场景。采用了Actor-Critic的 RL 算法学习最优接入策略,分别定义两个神经网络:Actor和Critic,并初始化参数。其中, Actor 网络根据当前的网络信息决策每个用户的接入方式,Critic 网络对采取的接入方式进行评价,从而影响 Actor 网络在未来的状态下做出更好的选择。在每一次学习的时刻,将当前时刻各车辆用户的位置信息输入Actor网络,根据Actor网络输出的概率分布决定各车辆用户的接入策略。再根据各车辆用户的接入决策以及车辆的位置信息可以得到每一时刻的奖励值,即车辆平均数据速率。同时,Critic网络根据当前时刻所得到的实际奖励值和估计奖励值进行误差比较,不断提升对 Actor 网络动作输出的评价的准确性。通过大量的数据输入以及迭代学习,基于 RL 的策略性能将趋近于最优,网络接入选择实验结果如图5所示,虽然由于网络的复杂性,基于神经网络的学习类算法难以收敛到全局最优,但神经网络正向传播所需的计算量极小,算法运行时间短、响应快,使其更适用于空天地一体化网络中的多种实时业务。算法所需运行时间对比如表2所示,可以看出,相对于最优搜索方法,本文提出的算法可以极大地降低算法运行时间,并且对网络规模的变化不敏感(最优搜索方法的运行时间随网络规模的增大呈指数级增加),这些特性使其非常适用于大规模、高动态的空天地一体化网络。
图5   网络接入选择实验结果

5 未来研究方向展望尽管对空天地一体化网络的研究已经全面展开,并吸引了学术界和工业界的关注,但由于网络的大时空尺度、动态性强、结构复杂、业务种类繁多等特点,许多问题难以用传统网络理论和技术解决。本节将重点讨论空天地一体化网络的一些重要研究方向,分析现有研究及趋势,并探讨利用人工智能和机器学习方法解决这些问题的可能性及潜在优势。5.1 大时空尺度异构多网融合空天地一体化网络实现高效无缝服务的关键是网络的融合能力,即打破天、地界限,实现互操作、共资源、同服务的一体化网络。空天地一体化网络涵盖多种不同时空跨度的异构网络,包括天基卫星网络、空基网络、地基无线网络、互联网等,其架构呈现立体多层次化,且各个网络具有各自不同的网络体系结构、协议和服务场景,对网络的深度融合提出了高度挑战。为解决这一问题,一方面需要提出大时空尺度异构网络自适应融合的网络体系架构,解决天地多网系统功能部署、大尺度异构网络分布式互联互通等问题。文献[47]提出了一种“自聚合”网络架构,利用网络内生智能,实现不同类型网络智能动态的自聚合能力,自适应地满足多样化场景及业务需求。另一方面,需要在TCP/IP、移动自组织网络等现有体系架构的基础上,设计适用于空天地融合场景的网络协议体系,解决大规模异构节点标识、大尺度动态路由、多维资源分配、多体系协议互联等问题。如前文所述,5G网络已经启动地基网络与非地基网络融合项目,对星地融合服务需求、网络架构、空口协议、切换算法等进行了初步研究和探讨。5.2 基于SDN/NFV的灵活弹性协议设计传统网络受制于复杂的操作逻辑和物理受限的网络资源,对网络的扩展性和服务的灵活性支持不足。如现有网络功能一般是由对应的硬件实现,与设备高度耦合,因此,当网络需要部署新的功能时,网络更新的周期和成本都过高。对于空天地一体化网络,其多维异质资源局限于网络不同层级,缺乏互操作性和统一的全局调配,难以满足多样化服务的需求。同时,由于网络涵盖了未来人类生产生活空间,需要支持各种层出不穷的新型网络架构、设备、功能和服务,这对网络的可扩展性提出了更高的要求。近年来,以SDN/NFV为代表的一系列网络泛用化、虚拟化技术为提升网络的可扩展性、复用性和灵活性提供了新的可能。借助于此类技术,网络的控制面和数据面得以解耦,各种网络资源和功能通过虚拟化可以更灵活地部署与分配,从而实现服务和需求导向的网络控制与优化。文献提出了一种低轨卫星星座网络中的动态SDN控制器部署方法,以应对网络流量随用户地理位置和时区产生的动态变化。按需服务是空天地一体化网络中的重要问题,文献利用SDN/NFV技术,将空天地一体化网络由基于连接的模型转化为基于服务的模型,具有极高的服务自定义和自适应能力,从而实现资源的按需分配。空天地一体化网络中资源的动态性和服务的不确定性使得传统方法不适用于对效率和响应速度需求较高的决策任务,如服务功能链部署和映射等。RL方法作为一种自学习、自适应的决策方法,在 SDN/NFV 网络中已经进行了一定研究。然而,现阶段RL方法在SDN/NFV空天地一体化网络中的研究还比较少见。5.3 多维复杂移动性管理天基、空基和地基网络具有各自的移动特性,导致空天地一体化网络具有独特的“多移动”特性,使其相对于地基网络移动特性更复杂,动态性更高,更难以描述和预测,有碍于提供高效连贯的服务保障。因此,空天地一体化网络的移动管理是一项亟待解决的重要挑战。其中,设计高效的切换机制是解决移动性带来的服务间断的有效方法。然而,由于卫星信号的接收信号强度通常较低,传统的基于信号强度或误比特率阈值的切换方法不再适用。因此,综合考虑多种判断准则,并利用机器学习算法进行切换决策的方法更适合于复杂的空天地一体化网络环境。文献提出了一种切换方法,综合考虑链路质量、QoS、误码率和信号强度等切换指标,并利用深度学习网络对这些指标进行模糊,以适用于不同的网络环境。空天地一体化网络中移动性管理的另一个重要任务是设计动态混合网络路由协议,优化网络端到端传输性能。大时空尺度传输服务的路由通常需要地基网络、天基接入网络和天基骨干网络共同完成。其中,地基网络路由技术已经较成熟,而天基网络路由协议随着低轨卫星网络和星间通信技术的兴起,逐渐引起学术界的重视。现有天基路由协议研究主要面向快照式网络路由、低轨卫星星座路由、多层卫星网络路由、移动自组织路由以及时延容忍式路由等不同网络形式,现有研究进展可参考文献。6 结束语空天地一体化网络可以融合大尺度多维异构网络,有效利用各种资源,满足未来网络对扩展服务空间、提升QoS、海量数据处理等的需求,极大地提升了网络信息服务能力,使其能实现广域高速接入、防灾减灾、航天信息支援等服务,保障国家的战略需求、人民群众的安居乐业,并促进社会各行各业的高速发展。将RL尤其是DRL方法应用于空天地一体化网络,可以有效解决网络时空跨度大、结构复杂、动态性强、资源和业务多样所带来的网络设计与优化困难,适用于未来空天地一体化网络建设中业务编排、资源调度、网络接入、移动性管理等重要任务。