大数据 ›› 2024, Vol. 10 ›› Issue (1): 1-8.doi: 10.11959/j.issn.2096-0271.2024016

• 战略研究 •    下一篇

构建支持大模型训练的计算机系统需要考虑的4个问题

郑纬民   

  1. 清华大学计算机科学与技术系,北京 100084
  • 出版日期:2024-01-15 发布日期:2024-01-01
  • 作者简介:郑纬民(1946- ),男,中国工程院院士,清华大学计算机科学与技术系教授,中国计算机学会第十届理事长,数博会专家咨询委员会委员,《大数据》主编,何梁何利科学与技术进步奖获得者,中国存储终身成就奖获得者,享受国务院政府特殊津贴。获北京市优秀教师奖和北京市教学名师称号,获国家科技进步奖一等奖 1 项、二等奖 2 项,国家技术发明奖二等奖 1 项,2016 年获 ACM 戈登·贝尔奖。2019 年当选中国工程院院士。主要研究方向为网络存储系统,长期从事网络存储系统科学研究、工程建设和人才培养,在存储系统扩展性、可靠性和集约性等科学问题和工程技术方面,取得了国内外同行认可的创新性成果;研制的网络存储系统、容灾系统和自维护存储系统在多个重大工程中发挥了重要作用。教学方面长期讲授计算机系统结构课程,2008 年被评为国家级精品课程;已编写和出版计算机系统结构教材和专著 10 本,与合作者一起发表论文 530 余篇。

Four issues to consider in building a computer system supporting large model training

Weimin ZHENG   

  1. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
  • Online:2024-01-15 Published:2024-01-01

摘要:

支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。

关键词: 大模型训练, 计算机系统, 超算系统, 大模型基础设施

Abstract:

There are three types of computer systems that support large model training, among which the ecosystem based on domestic AI chip systems is not very good.To change this situation, it is necessary to develop 10 key software such as AI compilers and parallel acceleration.Moreover, systems based on supercomputers require good software and hardware collaborative design to better serve large model training.This article proposes a 4-point balanced design for building the infrastructure of a large model to ensure system performance, reliability, and scalability.

Key words: large model training, computer system, supercomputing system, large model infrastructure

中图分类号: 

No Suggested Reading articles found!