智能科学与技术学报, 2021, 3(2): 179-184 doi: 10.11959/j.issn.2096-6652.202118

专题:智能交通系统与应用

基于AlphaZero的地铁列车大量速度曲线自动生成算法

芦玉琦1, 陈德旺2,3, 赵钊林2

1 福建工程学院计算机科学与数学学院,福建 福州 350118

2 福建工程学院交通运输学院,福建 福州 350118

3 福州大学数学与计算机科学学院,福建 福州 350108

Algorithm for automatically generating a large number of speed curves of subway trains based on AlphaZero

LU Yuqi1, CHEN Dewang2,3, ZHAO Zhaolin2

1 School of Computer Science and Mathematics, Fujian University of Technology, Fuzhou 350118, China

2 School of Transportation, Fujian University of Technology, Fuzhou 350118, China

3 College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350108, China

通讯作者: 陈德旺,dwchen@fzu.edu.cn

修回日期: 2021-05-13   网络出版日期: 2021-06-15

基金资助: 国家自然科学基金资助项目.  61976055
福建省财政厅教育科研专项资金资助项目.  GY-Z21001

Revised: 2021-05-13   Online: 2021-06-15

Fund supported: The National Natural Science Foundation of China.  61976055
Special Fund of Education and Scientific Research of Fujian Provincial Finance Department.  GY-Z21001

作者简介 About authors

芦玉琦(1996-),女,福建工程学院计算机科学与数学学院硕士生,主要研究方向为机器学习、列车智能驾驶 。

陈德旺(1976-),男,福建省“闽江学者”特聘教授,福州大学数学与计算机科学学院教授、博士生导师,福建工程学院交通运输学院特聘教授,主要研究方向为计算智能、机器学习、列车运行控制和智能交通系统 。

赵钊林(1973-),女,福建工程学院交通运输学院副教授,主要研究方向为企业信息化、大数据分析及应用、数据建模技术等 。

摘要

在以往的地铁列车自动驾驶研究中,驾驶数据通常通过仿真生成单条运行曲线、对人工驾驶数据进行采样得到,不但实现方式比较复杂,而且效率较低、通用性不强。受AlphaZero系统启发,创新性地提出了人工生成虚拟地铁运行数据的思想。首先,根据一种五段式地铁列车速度曲线的运行方法,实现了虚拟数据的计算;然后,结合人类专家的经验设置牵引制动的区间分级、实际运行速度的分级、车站间距及变速距离分级等实际参数,缩小曲线数据范围,使其合理化;最后,通过Python编程得到大量数据,保存为数据集,绘制地铁列车运行时间频次分布图。通过观测发现,该虚拟数据覆盖各种运行时间,比传统数据更有利于地铁列车智能驾驶算法的研究。

关键词: 人机混合增强智能 ; 地铁列车速度曲线 ; AlphaZero思想 ; 虚拟数据生成

Abstract

In the previous research on subway trains automatic driving, subway driving data is usually obtained through simulation to generate a single operating curve and manual driving data sampling.Not only is the implementation method more complicated, but also the efficiency is low and the versatility is not strong.Inspired by AlphaZero system, the idea of artificial generation of virtual metro operation data was put forward.Firstly, according to a running method of five section subway trains speed curve, the calculation of virtual data was realized.Then, combined with the experience of human experts, the actual parameters such as the classification of traction braking section, the classification of actual running speed, the classification of station spacing and variable speed distance were set to narrow the range of curve data and rationalize it.Finally, a large amount of data was obtained by Python programming, saved as a data set, and the frequency distribution map of subway trains operation time was drawn.It can be observed that the virtual data covers all kinds of operation time, which is more conducive to the research of subway trains intelligent driving algorithm than traditional data.

Keywords: human-machine hybrid enhanced intelligence ; subway trains speed curve ; AlphaZero idea ; virtual data gen-eration

PDF (1862KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

芦玉琦, 陈德旺, 赵钊林. 基于AlphaZero的地铁列车大量速度曲线自动生成算法. 智能科学与技术学报[J], 2021, 3(2): 179-184 doi:10.11959/j.issn.2096-6652.202118

LU Yuqi. Algorithm for automatically generating a large number of speed curves of subway trains based on AlphaZero. Chinese Journal of Intelligent Science and Technology[J], 2021, 3(2): 179-184 doi:10.11959/j.issn.2096-6652.202118

1 引言

近年来,地铁列车运行数据的获取方式可分为仿真生成单条运行曲线和人工驾驶数据的采样两种。其中,关于仿真生成单条运行曲线有以下研究:2013年,王勇博[1]通过读入数据、数据预处理、设定计算区间、计算并输出结果4个步骤仿真生成参考运行曲线;2018年,Wang G Y等人[2]采用遗传算法找出列车关键点的位置和加速度,然后利用列车运动学知识得到速度曲线;2020年,何之煜等人[3]采用非参数化的迭代学习方法优化单条列车速度曲线;同年,Gong D D等人[4]采用PSO-CS算法为列车提供最优控制目标曲线。但这种获取列车运行数据的方法生成过程比较复杂,优化时间长,并且生成的曲线只能适应一种运行时间。

另外,有的研究从人工驾驶专家的运行曲线中获取数据进行挖掘,如杨杰等人[5]每0.5 s对列车的状态进行采样,得到列车的速度-位移曲线,这种方法费时费力且效率不高,得到的数据也只能适用于该段运行区间以及所设定的运行时间,通用性不强。

作为近年来战胜人类顶尖棋手的人工智能, AlphaGo引起了多方面的关注[6]。在学习棋谱的过程中,它也面临效率低及通用性不强的问题。其进阶版 AlphaZero 在设定围棋规则和判定围棋输赢的监督条件下,进行大量的自我对弈,再通过多次条件筛选(例如胜负评估优化、输出策略优化、胜率筛选等)提升棋力,本质上是一种基于深度强化学习的人机混合增强智能[7]解决方案,弥补了 AlphaGo在结构复杂、经验羁绊、性能瓶颈等方面的不足[8]。这种无师自通、自我认知、自我进化的新型人工智能模式使众多人工智能问题的解法得到了优化。

人机混合增强智能是由郑南宁院士[9]提出的人工智能五大发展方向之一,在人机混合系统中,人可以根据计算机的输出及时调整输入参数,计算机也可以帮助人更深刻直观地分析问题,形成“1+1>2”的智能增强形态。2014 年,冷勇林等人[10]在列车自动驾驶研究方向将人类专家的驾驶经验和在线学习算法结合起来,完成了节能、舒适、智能的新型列车驾驶算法。同年Yin J T等人[11]以北京地铁亦庄线为例设计了基于专家经验和强化学习的地铁列车智能驾驶算法。2020年,程瑞军等人[7]也在研究中提到,运用数据挖掘技术挖掘有经验的驾驶员的驾驶数据对于优化地铁列车驾驶曲线有重要意义。

本文基于人机混合增强智能,学习 AlphaZero的先进思路,摒弃传统地铁列车运行数据的采集方式,根据专家经验和曲线生成算法生成大量数据,再进行筛选、绘图。即把地铁列车驾驶看作在一维空间下围棋,根据地铁列车速度曲线生成算法提出所需参数,并结合专家经验设置参数范围,大幅度缩小地铁列车驾驶数据的数量级,并且满足各种运行时间和区间情况的需求。通过绘制地铁列车运行时间频次分布图观测到该虚拟数据覆盖的各种运行时间,可满足不同情况的数据需求,比传统数据更有利于地铁列车智能驾驶算法[12]的研究。

2 地铁列车速度曲线的生成方法

2.1 五段式运行法

在理想运行状态下,把列车看成一个刚体,假设其无摩擦力,无空气阻力,无车厢作用力,提出五段式运行法,地铁列车运行示意图如图1所示。

首先把曲线分为5段(图1中以红色虚线进行划分)。在第一次变速阶段,地铁列车以预设第一次变速加速度 amax1加速到预设列车第一次加速限制速度vmax1,然后匀速行驶完第一次变速阶段剩余预设加速距离 lef1;在第二次变速阶段,列车以预设第二次加速度 amax2加速到预设列车第二次加速限制速度vmax2,然后进行匀速运动,行驶完第二次变速阶段剩余预设加速距离 lef2;匀速行驶阶段,列车保持预设列车第二次加速限制速度 vmax2匀速行驶完预设匀速行驶距离 runtance;后两段为减速行驶,在第三次变速阶段,列车先行驶完第三次变速剩余预设变速距离 lef3,再以预设第三次变速加速度amax3进行减速运动,使列车速度减到预设列车第一次减速限制速度vmax3;第四次变速阶段与第三次变速行驶相同,先匀速行驶完第四次变速剩余预设变速距离lef4,再以预设第四次变速加速度amax4减速行驶,使列车速度减小到0,即列车到站。

2.2 两种典型运行状态

以地铁列车的最快运行状态和最慢运行状态为例,分析五段式运行法(如图2所示)。第一种运行状态是紧贴列车限制速度曲线运行的最快运行状态,在此状态下,把预设列车第一次加速限制速度vmax1、第一次减速限制速度 vmax3设置为预设列车最低限制速度Emin,把列车第二次加速限制速度vmax2设置为列车最高限制速度Emax;变速阶段的加速度amax1、amax2、amax3、amax4均为最快加速度。第二种运行状态是把预设列车第一次加速限制速度vmax1、第一次减速限制速度 vmax3设置为预设列车最低限制速度 Emin的一半,把预设列车第二次加速限制速度 vmax2设置为预设列车最低限制速度Emin;变速阶段的加速度amax1、amax2、amax3、amax4均为最慢加速度,得到最慢运行状态。

图1

图1   地铁列车运行示意图


图2

图2   两种运行状态示意图


这两种运行状态可生成曲线的上边界和下边界,其他的生成曲线都在两者之间,如图3所示。

图3

图3   地铁列车速度-距离图像


3 相关参数计算

本文提出的五段式运行法分为第一次变速阶段、第二次变速阶段、匀速行驶阶段、第三次变速阶段、第四次变速阶段,其相关参数可通过以下计算得到。

3.1 第一次变速阶段

首先,第一次变速阶段的加速时间t1可由第一次加速限制速度vmax1和第一次变速加速度amax1计算得到,如式(1)所示:

t1 =vmax1amax1    (1)

第一次变速阶段的匀速行驶时间 th1可由第一次变速阶段剩余预设变速距离 lef1和第一次加速限制速度vmax1计算得到,如式(2)所示:

th1=lef1vmax1    (2)

其中,第一次变速阶段剩余预设变速距离 lef1由预设变速距离dis和第一次加速距离s1计算得到,如式(3)所示:

lef1=diss1   (3)

第一次加速距离s1由第一次变速阶段的加速时间t1和第一次加速限制速度vmax1计算得到,如式(4)所示:

s1=12vmax1t1    (4)

则第一阶段的总运行时间 T1可由加速时间 t1和匀速行驶时间th1计算得到,如式(5)所示:

T1=t1+th1    (5)

3.2 第二次变速阶段

第二次变速阶段运行时间的计算与第一阶段原理相同,可通过式(6)~式(10)计算得出。其中涉及的计算变量分别为第二次变速阶段的加速时间t2、第一次加速限制速度vmax1、第二次加速限制速度vmax2、第二次变速加速度amax2、第二次变速阶段的匀速行驶时间 th2、第二次变速阶段剩余预设变速距离lef2、预设变速距离dis、第二次加速距离s2

t=vmax2vmax1amax2  (6)

th2=lef2vmax2     (7)

lef2=diss2     (8)

s2=12(vmax2vmax1)t2  (9)

T2=t2+th2     (10)

3.3 匀速行驶阶段

匀速行驶阶段列车的运行时间 runtime 可由列车第二次加速限制速度 vmax2 和匀速行驶距离runtance计算得到,如式(11)所示:

runtime=runtancevmax2   (11)

3.4 第三次变速阶段

第三次变速阶段运行时间可通过式(12)~式(16)计算得出。其中涉及的计算变量分别为第三次变速阶段的减速时间t3、第一次减速限制速度vmax3、第二次加速限制速度vmax2、第三次变速加速度amax3、第三次变速阶段的匀速行驶时间th3、第三次变速剩余预设变速距离lef3、预设变速距离dis、第三次加速距离s3

t=vmax3vmax2amax3   (12)

th3=lef3vmax2     (13)

lef3=diss3     (14)

s3=12(vmax2vmax3)t3  (15)

T3=t3+th3     (16)

3.5 第四次变速阶段

第四次变速阶段运行时间可通过式(17)~式(21)计算得出。其中涉及的计算变量分别为第四次变速阶段的减速时间t4、第一次减速限制速度vmax3、第四次变速加速度amax4、第四次变速阶段的匀速行驶时间th4、第四次变速阶段剩余预设变速距离lef4、预设变速距离dis、第四次减速距离s4

t4 =vmax3amax4     (17)

th4=lef4vmax3     (18)

lef4=diss4     (19)

s4=12vmax3t4     (20)

T4=t4+th4     (21)

3.6 最快运行状态运行时间计算

最快运行状态下的运行时间 alltime 可由4次变速阶段运行时间T1、T2、T3、T4和匀速运行时间runtime计算得到,如式(22)所示:

alltime=T1+T2+T3+T4+runtime  (22)

4 曲线相关参数设置

4.1 牵引制动的区间分级

为了使研究产生的数据集包括各种牵引制动情况,笔者查询了福州市地铁运行资料[13-14],得出以下数据:地铁列车运行速度在0~40 km/h时,平均加速度大于 0.83 m/s2;运行速度在 0~80 km/h时,平均加速度大于 0.5 m/s2。因此地铁列车运行速度曲线数据集生成算法的加速度区间应大于实际地铁列车加速度区间,即大于最大加速度,小于最小加速度,具体数据设置为0.3~1.3 m/s2,步长设置为0.1 m/s2

4.2 实际运行速度的分级

同样,经过资料查阅,得到以下信息:截至2020年12月,福州市地铁1号线线路全长29.582 km,全部为地下线;共设置 25 个车站,全部为地下车站;采用 6 节编组 B 型列车,最高运行速度为80 km/h [13],福州市地铁2号线初期配置泉州中车唐车轨道车辆有限公司31列地铁车辆,列车为4动2拖6辆编组,最大载客量1 880人,最高运行速度 80 km/h[14]。为了使虚拟数据集概括所有的运行情况,设置虚拟数据的速度区间大于实际运行的速度区间,即虚拟最快运行速度应大于实际最快运行速度为100 km/h。考虑乘客的乘坐体验,最慢运行速度不可过低,在此设置为20 km/h,从而将运行速度区间设置为20~100 km/h,步长设置为5 km/h。

4.3 车站间距及变速距离分级

根据资料显示,调整后的福州市地铁1号线工程(一期)起点站为象峰站,终点站为火车南站站,正线线路长约 24.618 km,共设 21 个车站,平均站间距为1.202 km[13];截至2019年4月,福州市地铁2号线共设置22个车站,全部为地下车站,最大站间距为2.827 km(厚庭站至桔园洲站),最小站间距为0.745 km(桔园洲站至洪湾站),平均站间距为1.392 km[14]。因此,设置车站间距为700~3 000 m,即小于最小站间距、大于最大站间距,以包括所有车站间距,步长设置为 100 m;因为列车速度生成算法包括4段变速过程和一段匀速过程,所以将变速距离设置为100~600 m,步长设置为50 m。

4.4 大量参考运行曲线的自动生成

根据上述假设进行数据分级,可得到列车运行数据集,共3 128 000条数据,通过Python编程实现并导出为 CSV 文件,其中列变量包括最低限制速度、最高限制速度、加速度、预设加速距离、两站距离、4段加速距离、运行时间等参数。在生成的数据集中,剔除不符合实际情况(如运行时间大于600 s、不符合预设运行模型)的曲线后,得到2 090 050条数据,这些数据的运行时间频次分布情况如图4所示。

图4

图4   地铁列车运行时间频次分布


5 结束语

本文在理想状态下构建了列车运行模型,提出了虚拟地铁列车运行数据的生成方法,通过对福州市地铁列车进行数据分析,设置相关参数,生成大量数据,得到地铁运行时间频次分布图。此算法生成的数据覆盖多种运行情况,地铁列车智能运行研究者可通过进一步筛选得到所需数据,优于传统数据的获取方法。在接下来的研究中,可加入列车基本阻力、轨道附加阻力、坡道附加阻力[1,15]等现实干扰参数以及影响能耗的参数[16-17],使数据更接近真实数据,更具有参考意义。

参考文献

王勇博 .

采用遗传算法优化地铁多区间速度曲线和停站时间实现牵引节能的仿真研究

[D]. 南京:南京理工大学, 2013.

[本文引用: 2]

WANG Y B .

Simulation research on traction energy saving by using genetic algorithm to optimize multi interval speed curve and stop time of Metro

[D]. Nanjing:Nanjing University of Science and Technology, 2013.

[本文引用: 2]

WANG G Y , XIAO S , CHEN X ,et al.

Application of genetic algorithm in automatic train operation

[J]. Wireless Personal Communications, 2018,102(2): 1695-1704.

[本文引用: 1]

何之煜, 徐宁 .

非参数化迭代学习控制的列车自动驾驶控制算法

[J]. 铁道学报, 2020,42(12): 90-96.

[本文引用: 1]

HE Z Y , XU N .

Automatic train operation control algorithm based on nonparametric iterative learning control

[J]. Journal of the China Railway Society, 2020,42(12): 90-96.

[本文引用: 1]

GONG D D , LI G L .

Research on multi-objective optimized target speed curve of subway operation based on ATO system

[J]. International Core Journal of Engineering, 2020,6(2): 133-137.

[本文引用: 1]

杨杰, 吴佳焱, 王彪 ,.

基于启发式遗传算法的列车节能运行目标速度曲线优化算法研究

[J]. 铁道学报, 2019,41(8): 1-8.

[本文引用: 1]

YANG J , WU J Y , WANG B ,et al.

Optimization algorithm of target speed curve of train energy saving operation based on heuristic genetic algorithm

[J]. Journal of the China Railway Society, 2019,41(8): 1-8.

[本文引用: 1]

唐振韬, 邵坤, 赵冬斌 ,.

深度强化学习进展:从 AlphaGo 到AlphaGo Zero

[J]. 控制理论与应用, 2017,34(12): 1529-1546.

[本文引用: 1]

TANG Z T , SHAO K , ZHAO D B ,et al.

Progress of deep reinforcement learning:from AlphagGo to AlphaGo Zero

[J]. Control Theory and Application, 2017,34(12): 1529-1546.

[本文引用: 1]

程瑞军, 陈德旺, 田丽君 .

基于人机混合智能的地铁列车增强智能驾驶框架研究

[C]// 2020 中国自动化大会(CAC2020)论文集. 北京:中国自动化学会, 2020.

[本文引用: 2]

CHENG R J , CHEN D W , TIAN L J .

Research on the framework of metro train enhanced intelligent driving based on man machine hybrid intelligence

[C]// Proceedings of the China Society of Automation. Beijing:China Society of Automation, 2020.

[本文引用: 2]

唐川, 陶业荣, 麻曰亮 .

AlphaZero原理与启示

[J]. 航空兵器, 2020,27(3): 27-36.

[本文引用: 1]

TANG C , TAO Y R , MA Y L .

Principle and enlightenment of AlphaZero

[J]. Aero Weaponry, 2020,27(3): 27-36.

[本文引用: 1]

郑南宁 .

人工智能新时代

[J]. 智能科学与技术学报, 2019,1(1): 1-3.

[本文引用: 1]

ZHENG N N .

The new era of artificial intelligence

[J]. Chinese Journal of Intelligent Science and Technology, 2019,1(1): 1-3.

[本文引用: 1]

冷勇林, 陈德旺, 阴佳腾 .

基于专家系统及在线调整的列车智能驾驶算法

[J]. 铁道学报, 2014(2): 62-68.

[本文引用: 1]

LENG Y L , CHEN D W , YIN J T .

An intelligent train operation (ITO) algorithm based on expert system and online adjustment

[J]. Journal of the China Railway Society, 2014(2): 62-68.

[本文引用: 1]

YIN J T , CHEN D W , LI L X .

Intelligent train operation algorithms for subway by expert system and rein for cement learning

[J]. IEEE Transaction son Intelligent Transportation Systems, 2014,15(6): 2561-2571.

[本文引用: 1]

ZHANG H R , JIA L M , WANG L .

Energy consumption optimization of train operation for railway systems:algorithm development and real-world case Study

[J]. Journal of Cleaner Production, 2019,214: 1024-1037.

[本文引用: 1]

关于福州市轨道交通 1 号线工程(一期)竣工环保验收调查报告的公示

[Z]. 2019.

[本文引用: 3]

Publicity of investigation report on environmental protection acceptance of Fuzhou rail transit line 1 project (phase I)

[Z]. 2019.

[本文引用: 3]

关于福州市轨道交通2号线工程竣工环保验收报告的公示

[Z]. 2021.

[本文引用: 3]

Publicity of environmental protection acceptance report of Fuzhou rail transit line 2 project

[Z]. 2021.

[本文引用: 3]

李卓玥 .

群智能算法在列车运行速度曲线节能优化中的研究

[D]. 北京:北京交通大学, 2016.

[本文引用: 1]

LI Z Y .

Research on energy-saving optimization of train speed trajectories based on swarm intelligence algorithms

[D]. Beijing:Beijing Jiaotong University, 2016.

[本文引用: 1]

ZHAO X H , KE B R , LIAN K L .

Optimization of train speed curve for energy saving using efficient and accurate electric traction models on the mass rapid transit system

[J]. IEEE Transactions on Transportation Electrification, 2018,4(4): 922-935.

[本文引用: 1]

KIM K M , SUK-MUM O ,, HAN M .

A mathematical approach for reducing the maximum traction energy; the case of Korean MRT trains

[C]// Proceedings of the International Multi Conference of Engineers and Computer Scientists.[S.l.:s.n.], 2010: 2169-2173.

[本文引用: 1]

/