【岗位职责】
1、面对内存受限问题,实现多维并行(1D,2D,3D,序列,流水线,数据)、重计算、优化器卸载等内存腾挪技术;面对互联带宽受限,尤其是国产芯片互联带宽受限的问题,优化集合通信、通信调度以及梯度压缩等通信优化技术;面对领域算子国产芯片上计算效率不高问题,丰富底层计算库的开发;面对大模型训练全生命周期存储需求,实现集合通信、通信调度以及梯度压缩等通信优化技术应用。
2、大模型训练庞大的资源需求对并行系统内存、通信、计算以及存储都提出了严峻考验,尤其国产芯片在内存带宽、互联通信能力方面较弱,生态缺乏也导致大量科学人工智能基座模型的难以高效运行。本岗位聚焦于异构国产人工智能处理器在大模型训练中的内存、通信、计算以及存储问题,实现大模型训练框架系统在联通超智算中心的应用。
【任职条件】
1.具有博士学位,专业背景包括计算机科学、分布式计算、高性能计算或相关领域;
2.熟悉深度学习框架 (Pytorch、JAX、PaddlePaddle)的底层工作原理,熟悉模型训练原理和Optimizer基本原理,了解分布式训练基本方法
3. 熟悉国内外人工智能处理器的架构和性能特点,对国产芯片的发展具有独特见解;
4、有良好的工程素养,在github有出色个人项目优先;
5、对并行计算、内存优化、通信调度等领域有深入的理解和实践经验;
6、具备团队合作精神,能够积极主动地与其他研究人员合作,推动项目进展;
7、具备良好的沟通和表达能力,能够清晰地向非专业人士解释复杂的技术概念;
8、有实际大模型研发运行经历者优先。