天地一体化信息网络 ›› 2022, Vol. 3 ›› Issue (3): 65-71.doi: 10.11959/j.issn.2096-8930.2022033

所属专题: 专题:天地融合软件定义网络

• 专题:天地融合软件定义网络 • 上一篇    下一篇

基于深度强化学习的卫星互联网路由优化研究

魏琳慧1, 刘国文1, 刘雨1,2, 望育梅1   

  1. 1 北京邮电大学人工智能学院,北京 100876
    2 鹏城实验室,广东 深圳 518000
  • 修回日期:2022-07-24 出版日期:2022-09-20 发布日期:2022-09-01
  • 作者简介:魏琳慧(1997-),女,北京邮电大学人工智能学院博士生,主要研究方向为卫星互联网、软件定义网络、多媒体传输技术等
    刘国文(1998-),男,北京邮电大学人工智能学院硕士生,主要研究方向为卫星互联网、机器学习在低轨卫星网络中的应用等
    刘雨(1978-),女,北京邮电大学人工智能学院副教授,博士生导师,鹏城实验室网络与通信研究中心副教授,主要研究方向为卫星互联网、图像处理、分布式源编码等
    望育梅(1974-),女,北京邮电大学人工智能学院副教授,硕士生导师,主要研究方向为卫星互联网、多媒体信号处理、无线多媒体传输和分布式视频编码等
  • 基金资助:
    国家重点研发计划资助项目(2019YFB1803103);北京邮电大学博士生创新基金项目(CX2021113)

Research on Routing Optimization in Satellite Internet Based on Deep Reinforcement Learning

Linhui WEI1, Guowen LIU1, Yu LIU1,2, Yumei WANG1   

  1. 1 School of Artifi cial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China
    2 Peng Cheng Laboratory, Shenzhen 518000, China
  • Revised:2022-07-24 Online:2022-09-20 Published:2022-09-01
  • Supported by:
    National Key Research and Development Program of China(2019YFB1803103);BUPT Excellent Ph.D.Students Foundation(CX2021113)

摘要:

随着卫星通信技术的飞速发展,卫星互联网成为6G网络实现全球覆盖、全时接入、全场景服务的核心关键技术。卫星网络的高动态性及有限的卫星容量,导致面临以异构网络管理、动态资源分配为代表的一系列管控挑战。由于机器学习技术在网络设计等方面具有显著优势,因此提出软件定义的卫星互联网智能化架构。针对卫星互联网的智能路由问题,利用基于双延迟深度确定性策略梯度的深度强化学习算法,解决网络的实时路由优化问题。实验结果表明,TD3算法相较于DDPG算法,平均网络时延降低了19.19%。

关键词: 卫星互联网, 深度强化学习, 软件定义网络, 路由优化

Abstract:

With the rapid development of satellite communication, the satellite internet is one of the core technologies of 6G network to realize global coverage, full-time access and full scene service.The high dynamics and limited capacity of satellite network lead to a series of management and control challenges such as heterogeneous network management, dynamic resource allocation and so on.Since the machine learning-based technologies have strength in network design, the intelligent architecture of software-defi ned satellite internet was put forward.In view of the intelligent routing in satellite internet, and leverages the deep reinforcement algorithm based on double delayed deep deterministic policy gradient (TD3) to solve the network routing optimization problem.The experimental results showed that compared with DDPG algorithm, the TD3 algorithm reduced the delay by 19.19%.

Key words: satellite internet, software-defi ned networking, deep reinforcement learning, routing optimization

中图分类号: 

No Suggested Reading articles found!