边缘智能：边缘计算与人工智能融合的新范式

图1 基于边缘与终端协同的深度学习模型运行推断优化框架Edgent

上述基于边缘服务器与终端设备协同的深度学习模型推断框架的设计思路为：在离线阶段，训练好满足任务需求的分支网络，同时为分支网络中的不同神经网络层训练回归模型，以此估算神经网络层在边缘服务器与在终端设备上的运行时延；在在线优化阶段，回归模型将被用于寻找符合任务时延需求的退出点以及模型切分点；在协同推断阶段，边缘服务器和终端设备将按照得出的方案运行深度学习模型。

（1）离线训练阶段

在离线训练阶段，Edgent需要执行以下两个初始化操作：分析边缘服务器与终端设备的性能，针对不同类型的深度学习模型网络层（如卷积层、池化层等）生成基于回归模型的时延估算模型。在估算网络层的运行时延时，Edgent会对每层网络层进行建模，而不是对整个深度学习模型进行建模，不同网络层的时延是由各自的自变量（如输入数据的大小、输出数据的大小）决定的，基于每层的自变量，可以建立回归模型，估算每层网络层的时延；训练带有多个退出点的分支网络模型，从而实现模型精简。这里笔者采用BranchyNet分支网络结构，在BranchyNet的结构下，可以设计并训练生成带有多个退出点的分支网络。需要注意的是，性能分析取决于设备（例如手机、VR头盔和智能手表等不同设备在运行同一深度学习模型时的性能表现不同），而深度学习模型是取决于应用的（例如物体识别和物体分类等不同计算机视觉应用对应的深度学习模型不同），因此在给定深度学习应用以及设备（即限定边缘服务器与终端设备）的情况下，以上两个初始化操作在离线阶段只需要完成一次。

（2）在线优化阶段

这个阶段的主要工作是利用离线训练的回归模型在分支网络中找出符合时延需求的退出点以及模型分割点。因为要最大化地给出方案的准确率，所以在该阶段中，笔者从最高准确率的分支开始，迭代地找出符合需求的退出点和切分点。在这个过程中，Edgent实时测量当前移动终端与边缘服务器之间链路的网络带宽，以便估算移动终端与边缘服务器间的数据传输时延。紧接着，Edgent沿着尺寸从大到小的网络分支，依次遍历每个网络分支上不同的分割点，并基于当前网络带宽和不同网络层计算时间估算所选分支网络与分割点对应的端到端时延与模型精确度。在遍历完所有的分支网络与切分点后，Edgent输出满足时延需求的所有网络分支与切分点组合中具有最大精确度的一个组合。

（3）协同推断阶段

在协同推断阶段，根据在线优化阶段输出的最优网络分支与切分点组合，边缘服务器与移动终端对深度学习模型进行协同推断。实验表明，Edgent在提升深度学习应用实时性能方面表现优异，能在不同的计算时延需求下，实现高精度的模型推理（具体实验结果请见参考文献[9]）。

3 基于在线学习的自适应边缘服务放置机制

基于人工智能赋能边缘计算的思路，针对边缘计算服务的动态迁移与放置问题，笔者接下来介绍一种用户自适应管理的在线服务放置机制。该机制利用人工智能的在线学习技术，针对复杂的用户行为和多变的边缘网络环境进行自适应学习，从而辅助用户做出高效的服务迁移决策。

3.1 问题描述

尽管边缘计算能解决用户资源受限和云计算中时延过大的问题，但由于边缘节点服务覆盖范围较小，用户的移动将对服务质量产生极大的影响^[10]。如图2所示，当用户从一个边缘节点服务区域移动至其他的节点服务区域时，需考虑是否进行服务迁移，以保证满意的服务质量^[11]。一方面，用户可以选择继续让服务在原边缘节点进行处理，通过边缘节点之间的数据传输保证服务的连续性。另一方面，用户可以选择服务迁移，以此减小端到端时延。前者可能由于过长的网络距离导致较大的传输时延，后者则引入了服务迁移导致的额外开销。同时由于用户的个性化需求，不同的服务种类和迁移开销也增加了服务放置的难度，例如轻量级的应用用户更倾向于本地处理，计算密集型应用用户更倾向于云服务器处理，计算密集型且时延敏感型的应用用户更倾向于边缘服务器处理。为此，笔者提出了一种基于在线学习的自适应边缘服务放置机制，该机制可以有效地权衡时延与迁移代价之间的折中关系^[12]。

图2

图2 边缘网络中的用户移动示意

3.2 基于在线学习的自适应边缘服务放置算法

服务放置策略的制定通常与用户行为特性和网络环境有关。其中，行为特性主要包括用户的移动模型、请求服务的种类以及个人偏好等因素，网络环境主要包括边缘网络可用的资源、节点之间的传输带宽等因素。对于用户来说，其当前时刻的行为特性是已知的，而网络环境是透明的。用户自适应管理机制通过在线学习的方式，根据用户的历史决策数据对动态网络环境的相关参数进行评估。随着环境探索次数的增加，用户对网络参数的评估也会愈发精准，进而优化其服务放置策略。为了方便刻画用户移动过程中的一系列决策行为，笔者将连续的时间段划分为一系列小的离散片段，在每个离散的时间片段中，用户确定当前的服务放置策略，同时用户行为和动态网络环境在该片段内保持不变。

为了有效地衡量边缘网络中的用户服务质量，笔者分别从用户可感知时延和服务迁移代价两方面进行研究。用户可感知时延从所需的计算时延和通信时延两部分进行考虑。计算时延主要取决于所需处理的请求服务数据量大小和放置节点的可用计算资源，如CPU的运算速度。通信时延主要由用户当前的接入时延和传输时延两部分构成。其中，接入时延主要取决于当前用户的位置和边缘路由器的状态。通常来说，为了减少通信能耗，用户将选择与最近的边缘路由器进行连接。而传输时延与网络状态（如边缘节点之间的带宽）、网络距离有关。服务迁移产生的额外运行代价（如带宽资源的占用等）主要取决于上一时刻和当前时刻的节点选择。由此，可以通过计算式（1）刻画用户的服务质量：

ω_{1} D_{1} (π_{t}) + ω_{2} D_{2} (π_{t}, y_{t}) + ω_{3} S (π_{t - 1}, π_{t}) (1)

其中，π_t-1、π_t分别表示上一时刻和当前时刻的服务放置决策（即在每一时刻t动态决策当前服务应当放置在云端服务器或某个边缘服务器），y_t表示用户当前的位置，ω₁、ω₂、ω₃(≥0)分别为计算时延D₁、通信时延D₂和迁移代价S的非负权重参数，权重参数的设定与用户的个人偏好和服务种类有关：权重参数越大，表明对应时延或迁移代价的重要性越高。

如果可对未来长期时间T的用户行为特征和网络状态进行精准预测，那么就可以通过动态规划的方法求得长期服务的线下最优策略。然而在实际环境中，难以对以上用户和网络信息进行精准预测，同时对于每个决策时刻而言，由于缺少对网络环境参数的了解，用户收集系统信息将消耗额外的通信代价。

基于给定的优化目标，即用户服务质量，如何在未知后期用户行为和网络环境的情形下优化一系列服务放置决策，从而最小化可感知时延和服务迁移代价呢？针对此问题，笔者提出的自适应边缘服务放置机制将通过在线学习方法——上下文多臂老虎机（contextual multi-armed bandit）^[13]不断探索动态系统，进而根据累计的历史数据分析评估整体的动态网络环境，为后续的放置策略制定提供更准确的评估。在每个离散时间片段的开始，用户将收集服务请求的行为特征，并用向量b(t)=[ω₁λ_t,ω₂L_t,ω₃π_t-1]表示，其中包含当前用户请求服务处理量的大小λ_t、用户实时位置L_t以及上一时刻服务放置策略π_t-1。之后用户结合动态网络中可行放置策略π_t的网络估计参数 $μ_{π_{t}}$ 与行为特征b(t)对放置策略π_t产生的代价 ${\hat{c}}_{π_{t}} = b {(t)}^{T} μ_{π_{t}}$ 进行汤普森采样（Thompson sampling）^[14]评估，从中选取代价最小的策略作为最终的放置策略。在该时间片段的末尾，用户将获得放置策略π_t的服务质量表现 $c_{π_{t}}$ ，同时自适应管理机制将利用时间片段内的所有信息，更新用户行为特征和放置策略与服务质量表现之间的潜在关系，即服务放置策略的网络参数，具体算法如下。

算法1：基于在线学习的自适应服务放置算法。

初始化网络中计算节点i相应的用户特征B_i=I、网络估计参数μ_i=0以及其累积的上下文代价f_i=0。

对于每一个时间片段t=1,2,…,T，执行以下操作。

● 根据计算节点i的网络参数μ_i，再结合当前的用户特征b(t)，依据汤普森采样评估其相应的代价 ${\hat{c}}_{π_{t}}$ 。

● 选择其中最小估计代价 ${\hat{c}}_{i_{i}^{*}}^{\min}$ 的计算节点 $i_{i}^{*}$ 作为当前的服务放置策略，并在时间片段的末尾收到相应的服务质量表现 $c_{i_{t}^{*}}$ 。

● 更新选择计算节点 $i_{i}^{*}$ 相应的用户特征 $B_{i_{t}^{*}} = B_{i_{t}^{*}} + b (t) b {(t)}^{T}$ 、 $f_{i_{t}^{*}} = f_{i_{t}^{*}} + b (t) c_{i_{t}^{*}}$ 以及其网络估计参数 $μ_{i_{t}^{*}} = B_{i_{t}^{*}}^{- 1} f_{i_{t}^{*}}$ 。

笔者对车辆在边缘网络中随机行驶的场景进行了模拟，以此对所提框架的有效性进行验证^[12]。图3记录了基于在线学习的自适应边缘服务放置机制在不同时间片段下的服务质量表现，并同时与已知长期所有信息下的理论最优放置策略进行了比较。从结果可以看出，随着时间的增加，所提机制不断逼近最优的放置策略，这表明通过在线学习的方式能有效地优化策略制定。

4 基于因子图模型的预测性边缘服务迁移

前文介绍的基于在线学习的自适应边缘服务放置机制主要利用用户的统计性历史信息，接下来介绍另一种利用用户的预测性信息进行边缘服务放置优化的方法^[15]。具体而言，笔者首先利用因子图模型对用户的位置进行预测，进而设计基于位置预测的边缘服务迁移算法。

4.1 基于因子图模型的用户位置预测

为了进行精准的位置预测，笔者从用户的历史信息中提取了多个维度的特征，如不同时刻的时间、位置、网络状态以及社交频率特征等，并使用因子图（factor graph， FG）模型^[16]将其有效地整合到一个统一的框架之中。用户在t时刻的时间特征、社交频率特征以及网络状态特征分别用 $x_{h}^{t}$ 、 $x_{s}^{t}$ 和 $x_{n}^{t}$ 表示，位置信息用y^t表示。其中，时间特征为从时间戳中得到的用户的时间信息（比如具体时刻、工作日或者周末等），社交频率特征则是对用户在该时段内各种社交行为特征（比如发布推文、刷新推文、转发推文、预览多媒体视频、观看多媒体视频等）分别进行频率计算得到的数据。网络状态特征是指用户当前所处的网络状态（Wi-Fi、蜂窝网络或者无网络连接）。空间位置信息即用户所处的具体位置。如图4所示，在同一时刻（例如t时刻），用户不同类型的特征与位置之间的关联可以用 $f (x_{i}^{t}, y^{t})$ 进行刻画，其中i∈{h,s,n}，h、s、n分别代表时间特征、社交频率特征以及网络状态特征。相邻时刻之间的位置关联用w(y^t-1,y^t)表征，y^t-1和y^t分别代表用户在t-1和t时刻的位置信息。因子图模型可以很好地捕捉不同类型特征之间的关联，通过使用置信传播算法对该模型进行训练，最终，可以通过最大化后验概率的方法获得用户下一时刻最有可能出现的位置。

图3

图3 自适应服务放置策略与理论最优放置策略对比

图4

图4 面向用户位置预测的因子图模型

同时，由于不同用户的有效特征具有较强的差异性，笔者利用Relief F（RF）^[14]算法对提取的特征进行了用户个性化筛选，以取得更好的预测效果。

4.2 基于位置预测的边缘服务迁移方法

在保证较低的服务时延的要求下，服务应该根据用户的移动性在不同的基站之间进行动态的迁移，然而频繁的服务迁移会带来巨大的代价（如额外的网络带宽使用和电力资源消耗）。因此，要考虑在给定长期成本预算C的情况下（T个时刻的预算）如何进行服务迁移决策，才能最小化用户总时延。该问题可以表示为：

\min \sum_{t = 1}^{T} s (p^{t}, y^{t}) (2)

s . t . \sum_{t = 1}^{T} c (p^{t - 1}, p^{t}) d^{t} \leq C (3)

d^{t} \in {0, 1} (4)

其中，p^t和y^t分别表示服务和用户在t时刻的位置，d^t表示在t时刻是否进行服务迁移的决策。c(p^t-1,p^t)为服务迁移所需的代价，这和带宽以及p^t-1和p^t之间的地理距离有关。用户在t时刻感知到的时延用s(p^t,y^t)表示。这一问题的关键是每一时刻下的迁移决策d^t。

一个具体的例子是，若用户在t时刻从位置a移动到位置b，在t+1时刻又返回到位置a，那么在t时刻是否需要服务迁移呢？如果无法预知用户下一时刻的位置，一种最简单直接的方法就是让服务一直跟随用户进行迁移，这样虽然能够保证用户的服务质量，但是会带来巨大的服务迁移代价。当能够预知用户下一时刻的位置时，考虑到长期预测的限制，便能够在t时刻进行更加明智的决策，以避免服务反复迁移带来的代价。这一例子充分体现了位置预测在迁移决策过程中的重要性，因此笔者考虑了基于位置预测的个性化服务迁移。

4.3 预测性延迟迁移算法

首先，笔者构思了延迟迁移（lazy migration，LM）算法。该算法通过“向后看”，对当前时刻进行服务迁移所需的成本和从上一迁移时刻到目前累积的非迁移时延进行权衡，进而决定是否迁移。如果累积时延不超过当前的迁移代价，那么将一直延迟服务的迁移。进一步地，利用预测的用户下一时刻的位置信息，笔者对算法进行了改进。在进行累积时延和迁移代价的权衡之前，笔者引入了一种“向前看”的机制。考虑到用户未来可能的时延比过去的时延更具有决策的指导意义，笔者首先通过“向前看”估计用户当前时刻和下一时刻可能会感知到的时延，并和当前迁移代价进行权衡。如果预知到在不迁移情况下，用户接下来两个时间片的时延很大，则直接进行服务的迁移，否则就使用延迟迁移算法进行决策，这就是预测性延迟迁移（predictive lazy migration， PLM）算法，见算法2。

算法2：预测性延迟迁移算法。

输入：用户的位置集合Y={y¹,y²,…，y^T}，预测的下一位置集合Z={z¹,z²,…，z^T}，向前看参数μ₁和向后看参数μ₂。

输出：用户访问总时延和总迁移代价。

算法过程：

初始化t←1,m←y¹,S←0,C←0

τ←1./*上次迁移的时间*/

for t = 1,2,3,…,T do

if y^t≠m then

if c(m,y^t)<μ₁(s(m,y^t)+s(m,z^t)then

m←y^t；

τ=t;

C←C+c(m,y^t);

else

i f c (m, y^{t}) ＜ μ_{2} \sum_{y = τ}^{t - 1} s (m, y^{v}) t h e n

m←y^t

τ=t;

C←C+c(m,y^t);

else

S←S+s(m,y^t);

end if

end for

图5展示了在不同预算限制下，笔者提出的算法相较于不迁移情况下的时延减少率。延迟迁移算法（LM—非预测性和PLM—预测性）由于考虑了非迁移情况下的服务时延和迁移情况下的服务代价之间的权衡，相比于已有参考文献的非预测性分期偿还（original amortization，OA）算法和预测性分期偿还（predictive amortization， PA）算法，能够显著降低服务总时延^[15]。同时，PLM算法相较于LM算法降低了13%的服务时延。该实验结果表明，利用精准的位置预测，笔者能够进行更加明智的服务迁移决策，从而减少用户感知到的服务时延，提升用户的服务质量。

5 结束语

本文初步探讨了如何通过协同边缘计算和人工智能这两种高速发展的新技术解决它们各自发展面临的难题。具体而言，从边缘计算赋能人工智能的视角，针对深度学习在终端设备高效部署的“最后一公里”难题，本文介绍了基于边端协同的按需加速深度学习模型推理的优化框架，通过协同优化模型分割和模型精简这两种不同的策略，实现时延约束下的高精度模型推理。另外，从人工智能赋能边缘计算的视角，针对边缘节点大规模高密度部署带来的服务动态迁移问题，本文分别介绍了基于在线学习的自适应边缘服务放置机制以及基于位置预测的边缘服务迁移方法。未来，边缘智能作为边缘计算和人工智能彼此赋能的崭新范式，将催生大量的创新研究机会，在智能物联网、智能制造、智慧城市等众多领域具有广泛的应用前景。

图5

图5 不同迁移代价约束下的延迟减少率

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LECUN

, BENGIO

, HINTON

Deep learning

[J]. Nature, 2015,521(7553):436.

[2]

SHI

W S

, CAO

, ZHANG

Q Y

,et al.

Edge computing:vision and challenges

[J]. IEEE Internet of Things Journal, 2016,3(5): 637-646.

[3]

IANDOLA

F N

, MOSKEWICZ

M W

, ASHRAF

,et al.

SqueezeNet:AlexNetlevel accuracy with 50x fewer parameters and<0.5MB model size

[J]. Computer Science, 2016,arXiv:1602.07360.

[4]

J X

, CONG

, WANG

Y H

,et al.

Quantized convolutional neural networks for mobile devices

[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR),June 26-July 1,2016,Las Vegas,USA. Piscataway:IEEE Press, 2016: 4820-4828.

[5]

HAN

, MAO

H Z

, DALLY

W J

Deep compression:compressing deep neural networks with pruning,trained quantization and Huffman coding

[J]. Computer Science, 2015,arXiv:1510.00149.

[6]

KANG

Y P

, HAUSWALD

, GAO

,et al.

Neurosurgeon:collaborative intelligence between the cloud and mobile edge

[C]// The 22nd International Conference on Architectural Support for Programming Languages and Operating Systems,April l8-12,2017,Xi’an,China. New York:ACM Press, 2017: 615-629.

[本文引用: 3]

[7]

LANE

, BHATTACHARYA

, MATHUR

,et al.

DXTK:enabling resource-efficient deep learning on mobile and embedded devices with the DeepX toolkit

[C]// The 8th EAI International Conference on Mobile Computing,Applications and Services,November 30-December 1,2016,Cambridge,UK. New York:ACM Press, 2017: 98-107.

[8]

TEERAPITTAYANON

, MCDANEL

, KUNG

H T

BranchyNet:fast inference via early exiting from deep neural networks

[J]. Computer Science, 2017,arXiv:1709.01686.

[9]

, ZHOU

, CHEN

Edge intelligence:on-demand deep learning model co-inference with device-edge synergy

[C]// ACM Workshop on Mobile Edge Communications,August 20,2018,Budapest,Hungary. New York:ACM Press, 2018: 31-36.

[10]

MACH

P AND BECVAR Z

Mobile edge computing:a survey on architecture and computation offloading

[J]. IEEE Communications Surveys ＆ Tutorials, 2017,3(19): 1628-1656.

[11]

WANG

, XU

, ZHANG

,et al.

A survey on service migration in mobile edge computing

[J]. IEEE Access, 2018,6(24): 511-528.

[12]

OUYANG

, LI

, CHEN

,et al.

Adaptive user-managed service placement for mobile edge computing:an online learning approach

[C]// IEEE International Conference on Computer Communications,April 28-May 2,2019,Paris,France. Piscataway:IEEE Press, 2019.

[13]

AGRAWAL

, GOYAL

Thompson sampling for contextual bandits with linear payoffs

[C]// The 30th International Conference on International Conference on Machine Learning,June 16-21,2013,Atlanta,USA.[S.l.:s.n. ], 2013: 1220-1228.

[14]

RUSSO

D J

, ROY

B V

, KAZEROUNI

,et al.

A tutorial on thompson sampling

[J]. Foundations and Trends in Machine Learning, 2018,1(11): 1-96.

[15]

, CHEN

, ZHOU

,et al.

Mobile social data learning for user-centric location prediction with application in mobile edge service migration

[J]. IEEE Internet of Things Journal, 2019:accepted. 1-96.

[16]

KSCHISCHANG

F R

, FREY

B J

, LOELIGER

H A

Factor graphs and the sum-product algorithm

[J]. IEEE Transactions on Information Theory, 2002,2(47): 498-519.