深度学习中的内存管理问题研究综述

doi:10.11959/j.issn.2096-0271.2020033

大数据 ›› 2020, Vol. 6 ›› Issue (4): 56-68.doi: 10.11959/j.issn.2096-0271.2020033

• 专题：大数据异构并行系统 • 上一篇下一篇

深度学习中的内存管理问题研究综述

马玮良^1,²,彭轩^1,²,熊倩^1,²,石宣化^1,²,金海^1,²

¹ 华中科技大学计算机科学与技术学院，湖北武汉 430074
² 华中科技大学大数据技术与系统国家地方联合工程研究中心，服务计算技术与系统教育部重点实验室，湖北武汉 430074

出版日期:2020-07-15 发布日期:2020-07-18
作者简介:马玮良（1996- ），男，华中科技大学计算机科学与技术学院硕士生，主要研究方向为新体系结构下深度学习系统的优化|彭轩（1995- ），男，华中科技大学计算机科学与技术学院博士生，主要研究方向为分布式深度学习系统平台|熊倩（1997- ），女，华中科技大学计算机科学与技术学院硕士生，主要研究方向为联邦学习|石宣化（1978- ），男，博士，华中科技大学计算机科学与技术学院教授，大数据技术与系统国家地方联合工程研究中心副主任，主要研究方向为并行与分布式计算、多核体系结构与系统软件。当前主要研究云计算与大数据处理、异构并行计算等|金海（1966- ），男，博士，华中科技大学教授，长江学者特聘教授，中国计算机学会会士，IEEE Fellow， ACM终身会员，武汉网络安全战略与发展研究院院长，华中科技大学大数据技术与系统国家地方联合工程研究中心主任，服务计算技术与系统教育部重点实验室主任。主要研究方向为计算机体系结构、计算系统虚拟化、集群计算和云计算、网络安全、对等计算、网络存储与并行I/O等
基金资助:
国家自然科学基金资助项目(61772218)

Memory management in deep learning:a survey

Weiliang MA^1,²,Xuan PENG^1,²,Qian XIONG^1,²,Xuanhua SHI^1,²,Hai JIN^1,²

¹ School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,China
² National Engineering Research Center for Big Data Technology and System,Services Computing Technology and System Lab,Huazhong University of Science and Technology,Wuhan 430074,China

Online:2020-07-15 Published:2020-07-18
Supported by:
The National Natural Science Foundation of China(61772218)

摘要/Abstract

摘要：

近年来，深度学习已经在多个领域取得了巨大的成功。深度神经网络向着更深更广的方向发展，训练和部署深度神经网络模型都将面对巨大的内存压力。加速设备有限的内存空间已经成为限制神经网络模型快速发展的重要因素，如何在深度学习中实现高效的内存管理成为深度学习发展的关键问题。为此，介绍了深度神经网络的基本特征；分析了深度学习训练过程中的内存瓶颈；对一些代表性的研究工作进行了分类阐述，并对其优缺点进行了分析；对深度学习中内存管理技术的未来发展趋势进行了探索。

关键词: 内存管理, 深度学习, 内存交换, 重计算, 内存共享, 压缩

Abstract:

In recent years,deep learning has achieved great success in many fields.As the deep neural network develops towards a deeper and wider direction,the training and inference of a deep neural network face huge memory pressure.The limited memory space of accelerating devices has become an important factor restricting the rapid development of deep neural network.How to achieve efficient memory management in deep learning has become a key point in the development of deep learning.Therefore,the basic characteristics of deep neural network were introduced firstly and memory bottleneck in deep learning training was analyzed.Some representative research works were classified,and their advantages and disadvantages were analyzed.Finally,some important direction and tendency of memory management in deep learning were suggested.

Key words: memory management, deep learning, memory swapping, recomputation, memory sharing, compression

中图分类号:

TP183

马玮良, 彭轩, 熊倩, 石宣化, 金海. 深度学习中的内存管理问题研究综述[J]. 大数据, 2020, 6(4): 56-68.

Weiliang MA, Xuan PENG, Qian XIONG, Xuanhua SHI, Hai JIN. Memory management in deep learning:a survey[J]. Big Data Research, 2020, 6(4): 56-68.

图/表 2

图1

表1

应用不同内存管理技术的解决方案对比分析"

解决方案	内存管理技术	优点	缺点
vDNN^[18]	内存交换	基于分层特征的内存交换策略能够大幅降低GPU内存占用	通信和计算不能完全重叠，带来较大的性能开销；适用范围有限
cDMA^[28]	内存交换、压缩	在vDNN方案的基础上实现了对交换数据的压缩，能够有效降低性能损失	可应用压缩策略的数据类型有限，内存占用降低的效果一般
Layrub^[21]	内存共享、内存交换	针对不同类型的神经网络应用不同的内存管理策略，几乎适用于所有的神经网络	基于分层策略的内存交换策略会带来一定的性能损失
GradientCheckpoint^[24]	内存共享、重计算	对于n层线性神经网络，该方案的空间复杂度仅为 $O \sqrt{n}$	通过计算来换取内存，带来额外的性能开销，降低了训练性能；仅适用于线性神经网络
SuperNeurons^[22]	内存共享、内存交换、重计算	基于对计算图的静态分析，将3种策略应用于神经网络的训练中，可有效降低训练过程中的内存占用	静态分析不能很好地评估不同策略带来的性能损失，此外基于分层的粗粒度的内存管理策略无法实现最优的内存管理方案
Capuchin^[23]	内存交换、重计算	基于张量的细粒度的内存管理策略能够对不同的张量应用不同的内存管理策略，充分发挥不同策略的优势，在保证性能的同时，可有效降低内存占用	重计算策略带来的性能开销不可忽略，在算力较差的加速设备中性能损失更加明显

表1

参考文献 30

[1]	陈游旻, 李飞, 舒继武 . 大数据环境下的存储系统构建：挑战、方法和趋势[J]. 大数据, 2019,5(4): 27-40.
	CHEN Y M , LI F , SHU J W . Building storage systems in big data era:challenges,methods and trends[J]. Big Data Research, 2019,5(4): 27-40.
[2]	HE K M , ZHANG X Y , REN S Q ,et al. Deep residual learning for image recognition[C]// The 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 770-778.
[3]	IOFFE S , SZEGEDY C . Batch normalization:accelerating deep network training by reducing internal covariate shift[C]// The 32nd International Conference on Machine Learning. New York:ACM Press, 2015: 448-456.
[4]	KRIZHEVSKY A , SUTSKEVER I , HINTON G . ImageNet classification with deep convolutional neural networks[C]// The 26th Annual Conference on Neural Information Processing Systems. Cambridge:MIT Press, 2012: 1106-1114.
[5]	HOCHREITER S , SCHMIDHUBER J . Long short-term memory[J]. Neural Computation, 1997,9(8): 1735-1780.
[6]	SIMONYAN K , ZISSERMAN A . Very deep convolutional networks for largescale image recognition[C]// The 3rd International Conference on Learning Representations.[S.l.:s.n]. 2014
[7]	SZEGEDY C , LIU W , JIA Y Q ,et al. Going deeper with convolutions[C]// The 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2015: 1-9.
[8]	ZAGORUYKO S , KOMODAKIS N . Wide residual networks[J]. Computer Science, 2016,arXiv:1605.07146.
[9]	DEVLIN J , CHANG M-W , LEE K ,et al. BERT:pretraining of deep bidirectional transformers for language understanding[J]. Computer Science, 2018,arXiv:1810.04805.
[10]	王孝远, 廖小飞, 刘海坤 ,等. 面向大数据的异构内存系统[J]. 大数据, 2018,4(4): 15-34.
	WANG X Y , LIAO X F , LIU H K ,et al. Big data oriented hybrid memory systems[J]. Big Data Research, 2018,4(4): 15-34.
[11]	李鑫, 陈璇, 黄志球 . 面向大数据应用的混合内存架构特征分析[J]. 大数据, 2018,4(3): 61-80.
	LI X , CHEN X , HUANG Z Q . Analysis on hybrid memory architecture for big data application[J]. Big Data Research, 2018,4(3): 61-80.
[12]	LECUN Y , BOTTOU L , BENGIO Y ,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998,86: 2278-2324.
[13]	ABADI M , BARHAM P , CHEN J M ,et al. TensorFlow:a system for large-scale machine learning[C]// The 12th USENIX Symposium on Operating Systems Design and Implementation. Berkeley:USENIX Association, 2016: 265-283.
[14]	BERGSTRA J , BREULEUX O , FREDERIC B ,et al. Theano:a CPU and GPU math compiler in Python[C]// The 9th Python for Scientific Computing Conference.[S.l.:s.n]. 2010: 1-7.
[15]	PASZKE A , GROSS S , MASSA F ,et al. PyTorch:an imperative style,highperformance deep learning library[C]// The 2019 Annual Conference on Neural Information Processing Systems. Cambridge:MIT Press, 2019: 8024-8035.
[16]	CHEN T Q , LI M , LI Y T ,et al. MXNet:a flexible and efficient machine learning library for heterogeneous distributed systems[J]. Computer Science, 2015,arXiv:1512.01274.
[17]	DEAN J , CORRADO G , MONGA R ,et al. Large scale distributed deep networks[C]// The 26th Annual Conference on Neural Information Processing Systems. Cambridge:MIT Press, 2012: 1232-1240.
[18]	RHU M , GIMELSHEIN N , CLEMONS J ,et al. vDNN:virtualized deep neural networks for scalable,memoryefficient neural network design[C]// The 49th Annual IEEE/ACM International Symposium on Microarchitecture. Piscataway:IEEE Press, 2016: 1-13.
[19]	CHEN M , SUN M M , YANG J ,et al. Training deeper models by GPU memory optimization on TensorFlow[C]// Advances in Neural Information Processing Systems 30.[S.l.:s.n]. 2017.
[20]	CHEN X M , CHEN D Z , HAN Y H ,et al. moDNN:memory optimal deep neural network training on graphics processing units[J]. IEEE Transactions on Parallel and Distributed Systems, 2019,30(3): 646-661.
[21]	JIN H , LIU B , JIANG W B ,et al. Layercentric memory reuse and data migration for extreme-scale deep learning on many-core architectures[J]. ACM Transactions on Architecture and Code Optimization, 2018,15(3): 1-26.
[22]	WANG L N , YE J M , ZHAO Y Y ,et al. Superneurons:dynamic GPU memory management for training deep neural networks[C]// The 23rd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. New York:ACM Press, 2018: 41-53.
[23]	PENG X , SHI X H , DAI H L ,et al. Capuchin:tensor-based GPU memory management for deep learning[C]// The 24th International Conference on Architectural Support for Programming Languages and Operating Systems. New York:ACM Press, 2020: 891-905.
[24]	CHEN T Q , XU B , ZHANG C Y ,et al. Training deep nets with sublinear memory cost[J]. Computer Science, 2016,arXiv:1604.06174.
[25]	GRUSLYS A , MUNOS R , DANIHELKA I ,et al. Memory-efficient backpropagation through time[C]// The 2016 Annual Conference on Neural Information Processing Systems. Cambridge:MIT Press, 2016: 4125-4133.
[26]	KUSUMOTO M , INOUE T , WATANABE G ,et al. A graph theoretic framework of recomputation algorithms for memoryefficient backpropagation[C]// The 2019 Annual Conference on Neural Information Processing Systems. Cambridge:MIT Press, 2019: 1161-1170.
[27]	JAIN P , JAIN A , NRUSIMHA A ,et al. Checkmate:breaking the memory wall with optimal tensor rematerialization[C]// Machine Learning and Systems 2020.[S.l.:s.n]. 2020: 497-511.
[28]	RHU M,O’CONNOR M , CHATTERJEE N ,et al. Compressing DMA engine:leveraging activation sparsity for training deep neural networks[C]// The IEEE 24th International Symposium on High Performance Computer Architecture. Piscataway:IEEE Press, 2018: 78-91.
[29]	JAIN A , PHANISHAYEE A , MARS J ,et al. Gist:efficient data encoding for deep neural network training[C]// The 45th ACM/IEEE Annual International Symposium on Computer Architecture. Piscataway:IEEE Press, 2018: 776-789.
[30]	HAN S , MAO H Z , DALLY W . Deep compression:compressing deep neural network with pruning,trained quantization and Huffman coding[C]// The 4th International Conference on Learning Representations.[S.l.:s.n]. 2016.

深度学习中的内存管理问题研究综述

Memory management in deep learning:a survey

在线阅读

PDF下载

可视化

摘要/Abstract

引用本文

使用本文

图/表 2

参考文献 30

相关文章 15

Metrics

推荐阅读 0

[1]	邓钇敏, 张旭龙, 司世景, 王健宗, 肖京. 虚拟人形象合成技术综述[J]. 大数据, 2023, 9(3): 114-139.
[2]	贺亚运, 彭俊清, 王健宗, 肖京. 节奏舞者：基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究[J]. 大数据, 2023, 9(1): 23-37.
[3]	崔雨萌, 王靖亚, 闫尚义, 陶知众. 基于深度学习的警情记录关键信息自动抽取[J]. 大数据, 2022, 8(6): 127-142.
[4]	朱智韬, 司世景, 王健宗, 肖京. 联邦推荐系统综述[J]. 大数据, 2022, 8(4): 105-132.
[5]	王杰, 张松岩, 梁吉业. 融合一致性正则与流形正则的半监督深度学习算法[J]. 大数据, 2022, 8(3): 103-114.
[6]	徐康庭, 宋威. 结合语言知识和深度学习的中文文本情感分析方法[J]. 大数据, 2022, 8(3): 115-127.
[7]	赵智韬, 赵理君, 张正, 唐娉. 基于容器云技术的典型遥感智能解译算法集成[J]. 大数据, 2022, 8(2): 58-74.
[8]	张凯, 车漾. 基于分布式缓存加速容器化深度学习的优化方法[J]. 大数据, 2021, 7(5): 150-163.
[9]	温景熙, 于胡飞, 辛江, 唐艳. 基于深度学习的大脑性别差异分析[J]. 大数据, 2021, 7(4): 130-140.
[10]	彭鑫, 陈驰, 林云. 基于上下文的智能化代码复用推荐[J]. 大数据, 2021, 7(1): 37-47.
[11]	王丽会, 秦永彬. 深度学习在医学影像中的研究进展及发展趋势[J]. 大数据, 2020, 6(6): 83-104.
[12]	于胡飞, 温景熙, 辛江, 唐艳. 基于生成对抗网络的医学数据域适应研究[J]. 大数据, 2020, 6(5): 45-54.
[13]	宋婷, 陈战伟, 杨海峰. 基于分层注意力网络的方面情感分析[J]. 大数据, 2020, 6(5): 82-91.
[14]	于璠. 新一代深度学习框架研究[J]. 大数据, 2020, 6(4): 69-80.
[15]	王平, 张玉书, 何兴, 仲盛. 基于安全压缩感知的大数据隐私保护[J]. 大数据, 2020, 6(1): 12-22.