大数据

专题导读

陈刚

2021, 7(5): 1-2. doi:10.11959/j.issn.2096-0271.2021045-1

摘要 ( 363 )

在线阅读 ( 222 )

PDF下载 (661KB) ( 592 )

可视化

参考文献 | 相关文章

面向多星多任务的大数据处理系统设计

马福利, 石涛, 陈玲, 郑岩, 熊森林

2021, 7(5): 3-16. doi:10.11959/j.issn.2096-0271.2021045

摘要 ( 378 )

在线阅读 ( 93 )

PDF下载 (3287KB) ( 547 )

可视化

数据和表 | 参考文献 | 相关文章

随着我国发射的空间科学卫星越来越多，科学数据量爆发式增长，空间科学卫星大数据处理逐渐成为空间科学创新发展过程中被重点关注的环节，建设一套高性能的地面数据处理系统是建设我国自主可控的空间科学大数据生态、助力科学成果产出的重要推手。面向多星多任务并行处理的任务需求，针对空间科学卫星大数据处理中的多分级分类、多源产品融合组织以及高时效性要求等特点，提出了适用于大数据处理业务场景的高可靠硬件环境设计方案，并针对科学卫星处理任务类型多的特点，提出了基于任务类型感知的统一资源调度系统。完成了面向多星多任务的可扩展地面大数据处理系统的研制，支撑了中国科学院空间科学先导专项中的科学卫星数据处理任务。

基于国产处理器架构的高能物理数据处理系统

程耀东, 程垚松, 毕玉江, 高宇, 李海波, 汪璐, 姚秋玲

2021, 7(5): 17-30. doi:10.11959/j.issn.2096-0271.2021046

摘要 ( 493 )

在线阅读 ( 92 )

PDF下载 (2099KB) ( 529 )

可视化

数据和表 | 参考文献 | 相关文章

随着规模的不断扩大，高能物理实验产生了越来越多的科学数据，迫切需要先进的数据处理系统来支撑科学研究。目前，以ARM架构等为代表的国产处理器发展迅速，高能物理数据处理系统面临着新的机遇与挑战。首先总结了高能物理数据处理系统的需求及体系架构；然后描述了在国产处理器上开展的高能物理数据处理软件移植等相关工作，并提出了一种新的面向高能物理数据处理的可计算存储技术方案；最后给出了在国产处理器架构上的典型应用评测结果。

从格点量子色动力学应用看国产超算环境的基础软件

宫明, 蒋翔宇, 陈莹, 刘朝峰

2021, 7(5): 31-39. doi:10.11959/j.issn.2096-0271.2021047

摘要 ( 399 )

在线阅读 ( 36 )

PDF下载 (891KB) ( 753 )

可视化

参考文献 | 相关文章

格点量子色动力学（LQCD）是用数值模拟方法研究基本粒子的重要科学领域，因其巨大的数据量和计算规模而成为国际上超级计算机的主要科研应用之一。随着国产新一代超级计算机的发展，LQCD的计算软件由于其传统编程模型的限制，面临着更新换代的关键节点。从格点量子色动力学的视角出发，分析大规模科学应用软件对底层基础软件的需求特点，面向国产超算平台的发展方向，提出适配于大规模高效异构计算和大数据处理的新编程模型，为国产超算环境的基础软件建议了一个有潜力的发展方向。

数值核反应堆大数据及其应用

汪岸, 任帅, 苗雪, 董玲玉, 朱迎, 陈丹丹, 胡长军

2021, 7(5): 40-56. doi:10.11959/j.issn.2096-0271.2021048

摘要 ( 321 )

在线阅读 ( 47 )

PDF下载 (3696KB) ( 592 )

可视化

数据和表 | 参考文献 | 相关文章

数值核反应堆（数值堆）运行过程中涉及的海量数据可被用于优化现有数值堆模型、获取核能领域科学发现、推动数值堆研究。对现有的数据驱动建模和堆内微观现象预测的相关工作进行综述。在此基础上，结合领域特点提出了数值核反应堆大数据的概念，并分析了它作为工业大数据和模拟大数据的重要特征。以中国数值反应堆原型系统（CVR 1.0）为例，从数值堆大数据的多样性、关联性、非精确性等特征出发，运用神经网络、数理统计、数值分析等多学科的技术开展了建模优化和科学发现两个方向的研究工作，证明了数值核反应堆大数据特征对数值堆研究的指导作用。

广域虚拟数据空间中边缘缓存系统的研究与实现

霍建同, 肖利民, 霍志胜, 徐耀文

2021, 7(5): 57-81. doi:10.11959/j.issn.2096-0271.2021049

摘要 ( 246 )

在线阅读 ( 27 )

PDF下载 (3349KB) ( 518 )

可视化

数据和表 | 参考文献 | 相关文章

针对广域虚拟数据空间系统中边缘客户端访问和共享远程数据时，数据冗余传输造成大量网络带宽浪费的问题，通过研究广域虚拟数据空间系统中的缓存技术，提出边缘缓存机制优化数据访问通路，将数据以文件粒度缓存在靠近边缘客户端的位置，从而提升上层应用访问和共享数据的性能。测试结果表明，作为虚拟数据空间系统的补充，提出的边缘缓存系统可提升广域数据共享的性能。

面向大数据处理应用的广域存算协同调度系统

张晨浩, 肖利民, 秦广军, 宋尧, 蒋世轩, 王继业

2021, 7(5): 82-97. doi:10.11959/j.issn.2096-0271.2021050

摘要 ( 558 )

在线阅读 ( 96 )

PDF下载 (2461KB) ( 740 )

可视化

数据和表 | 参考文献 | 相关文章

以我国研发的高性能计算虚拟数据空间系统为基础，针对大数据处理应用如何统筹利用广域存储和计算资源的问题，设计并实现了一套面向大数据处理应用的广域存算协同调度系统。该系统可依据应用的计算特征和数据布局，通过存算协同、负载均衡、数据局部性感知等策略，在广域环境中协同调度应用数据和计算任务，统筹利用广域计算和存储资源，有效提升大数据处理应用的运行性能。在国家高性能计算环境中实际测试的结果表明，提出的调度方法可有效地支撑大数据处理应用，跨域目标协同识别、分子对接等典型应用的运行效率可提升3~4倍。

专栏导读

陈卫

2021, 7(5): 98-99. doi:10.11959/j.issn.2096-0271.2021051-1

摘要 ( 218 )

在线阅读 ( 67 )

PDF下载 (762KB) ( 770 )

可视化

参考文献 | 相关文章

基于样本的优化

张智杰, 孙晓明, 张家琳, 陈卫

2021, 7(5): 100-110. doi:10.11959/j.issn.2096-0271.2021051

摘要 ( 392 )

在线阅读 ( 77 )

PDF下载 (1484KB) ( 554 )

可视化

参考文献 | 相关文章

基于样本的优化研究的是如何通过用于学习目标函数的样本数据直接优化目标函数。首先介绍这一问题的数学模型——样本优化模型，以及这个模型下的不可近似性结果；然后介绍若干方法和样本优化模型的变种，以绕过这个模型下的不可近似性结果，使得优化成为可能；接着着重介绍其中一个变种——结构化样本优化模型，并详细阐述该模型下的最大覆盖问题和影响力最大化问题的优化算法；最后总结全文，并展望这一问题的未来研究方向。

基于优化反馈的组合在线学习

孔芳, 杨悦然, 陈卫, 李帅

2021, 7(5): 111-130. doi:10.11959/j.issn.2096-0271.2021052

摘要 ( 465 )

在线阅读 ( 58 )

PDF下载 (1539KB) ( 862 )

可视化

数据和表 | 参考文献 | 相关文章

组合在线学习问题研究如何在与环境的交互过程中学习未知参数，逐步找到最优的目标组合。该问题有丰富的应用场景，如广告投放、搜索和推荐等。首先阐述了组合在线学习问题的定义及其框架——组合多臂老虎机问题，归纳了此框架下的经典算法和研究进展；然后具体介绍了该问题的两个实际应用——在线影响力最大化和在线排序学习问题，以及其研究进展；最后展望了组合在线学习问题的未来研究方向。

强化学习在资源优化领域的应用

王金予, 魏欣然, 石文磊, 张佳

2021, 7(5): 131-149. doi:10.11959/j.issn.2096-0271.2021053

摘要 ( 620 )

在线阅读 ( 95 )

PDF下载 (1364KB) ( 1137 )

可视化

参考文献 | 相关文章

资源优化问题广泛存在于社会、经济的运转中，积累了海量的数据，给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛，从覆盖广泛的资源优化问题中划分出3类重要问题，即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作，围绕各研究工作的问题建模、智能体设计等方面展开详细阐述。

基于分布式缓存加速容器化深度学习的优化方法

张凯, 车漾

2021, 7(5): 150-163. doi:10.11959/j.issn.2096-0271.2021054

摘要 ( 643 )

在线阅读 ( 74 )

PDF下载 (1442KB) ( 805 )

可视化

数据和表 | 参考文献 | 相关文章

使用GPU运行容器化深度学习模型训练任务，性能往往受限于数据加载和预处理效率。很多GPU计算资源浪费在等待从远程存储服务读取数据的过程中。首先介绍了基于容器和分布式缓存技术加速深度学习训练的方法，以及使用Alluxio和Kubernetes实现的系统架构和初步优化手段；然后阐述了TDCS及其训练任务与缓存数据互感知的协同调度策略；接着在Kubernetes容器集群中实现了TDCS，增强了分布式缓存加速大规模深度学习训练的可扩展性；最后用ResNet50图像分类模型训练任务进行性能验证。实验结果表明，相较于直接从远程存储服务中读取数据，TDCS可对运行在128块NVIDIA V100 GPU设备上的分布式训练任务实现2~3倍加速。

基于法律裁判文书的法律判决预测

张虎, 潘邦泽, 谭红叶, 李茹

2021, 7(5): 164-175. doi:10.11959/j.issn.2096-0271.2021055

摘要 ( 638 )

在线阅读 ( 97 )

PDF下载 (2304KB) ( 531 )

可视化

数据和表 | 参考文献 | 相关文章

针对智慧司法服务领域中“法律判决预测”任务的实际需求，探讨了法律判决预测任务的研究思路与实现路径，介绍了法律判决预测的整体框架和具体过程。基于从中国裁判文书网获取的海量真实案件数据和2018“中国法研杯”司法人工智能挑战赛的评测数据，整理了实验数据类别，规范了实验数据格式，形成了基于法律裁判文书大数据的法律判决预测数据集。在判决预测模型中，首先使用判决要素抽取方法提取出高质量的判决要素句，然后借鉴法官的判案思路，将整个法律判决预测任务转换为法条预测、罪名预测和刑期预测3项子任务，并分别构建了基于判决要素的预测模型。实验结果表明，所提方法在刑法类判决预测数据集上得到了有效的结果。

当期目录