通信学报 ›› 2022, Vol. 43 ›› Issue (8): 121-130.doi: 10.11959/j.issn.1000-436x.2022163

• 学术论文 • 上一篇    下一篇

基于深度强化学习的可见光定位通信一体化功率分配研究

马帅, 李兵, 盛海鸿, 谷荣妍, 周辉, 王洪梅, 王悦, 李世银   

  1. 中国矿业大学信息与控制工程学院,江苏 徐州 221000
  • 修回日期:2022-08-08 出版日期:2022-08-25 发布日期:2022-08-01
  • 作者简介:马帅(1986- ),男,山东日照人,博士,中国矿业大学副教授,主要研究方向为语义通信和可见光通信定位一体化等
    李兵(1997- ),男 ,河南商丘人,中国矿业大学硕士生,主要研究方向为可见光通信和可见光定位
    盛海鸿(1998- ),女,江苏泰州人,中国矿业大学硕士生,主要研究方向为无线通信和可见光通信
    谷荣妍(1999- ),女,安徽六安人,中国矿业大学硕士生,主要研究方向为可见光通信和可见光定位
    周辉(1997- ),男,湖北荆州人,中国矿业大学硕士生,主要研究方向为可见光通信和定位通信一体化
    王洪梅(1983- ),女,山东诸城人,博士,中国矿业大学副教授,主要研究方向为无线通信
    王悦(1994- ),女,吉林四平人,博士,中国矿业大学副教授,主要研究方向为光通信、微波光子学、集成光子器件等
    李世银(1971- ),男,四川犍为人,博士,中国矿业大学教授、博士生导师,主要研究方向为煤矿信息化和移动目标定位
  • 基金资助:
    中央高校基本科研业务费专项资金资助项目(2022QN1052);江苏省自然科学基金资助项目(BK20221115);中国矿业大学未来科学家计划基金资助项目(2022WLJCRCZL108)

Research on power allocation of integrated VLPC based on deep reinforcement learning

Shuai MA, Bing LI, Haihong SHENG, Rongyan GU, Hui ZHOU, Hongmei WANG, Yue WANG, Shiyin LI   

  1. School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221000, China
  • Revised:2022-08-08 Online:2022-08-25 Published:2022-08-01
  • Supported by:
    The Fundamental Research Funds for the Central Universities(2022QN1052);The Natural Science Foundation of Jiangsu Province(BK20221115);Funded by the Graduate Innovation Program of China University of Mining and Technology(2022WLJCRCZL108)

摘要:

为了实现定位通信一体化功率分配,提出了一种基于深度强化学习的可见光定位通信(VLPC)一体化系统的功率分配方案。首先,提出了定位通信一体化帧结构设计;其次,利用定位信息实现了信道状态信息的估计,并推导了定位误差的克拉美罗下界(CRLB);再次,阐明了定位精度和通信速率的内在耦合关系;最后,提出了基于深度确定性策略梯度的VLPC动态功率分配方案。仿真结果表明,所提方案可同时实现高精度定位和高速通信。

关键词: 可见光定位通信一体化, 克拉美罗下界, 功率分配, 强化学习

Abstract:

A power allocation scheme for integrated visible light position and communication (VLPC) system based on deep reinforcement learning was proposed to achieve power allocation for communication positioning integration.First, the frame structure design of integrated VLPC was proposed.Then the channel state information could be estimated by using the positioning information, and the CRLB of the positioning error was derived.Furthermore, the internal coupling relationship between positioning accuracy and communication rate was clarified.On this basis, a dynamic power allocation scheme based on deep deterministic policy gradient was proposed.Simulation results show that the proposed scheme can simultaneously achieve high-precision positioning and high-speed communication.

Key words: integrated VLPC, Cramér-Rao lower bound, power allocation, reinforcement learning

中图分类号: 

No Suggested Reading articles found!